BolsuTolka  Meklēt korpusā Vārdu biežuma saraksts

Bolsutolka.lv runas korpuss (Common Voice 19.0)

Runas korpusā iekļauti teikumi latgaliešu rakstu valodā, tos ierunājuši latgalisko izlokšņu pratēji. Datu vākšanai tiek izmantota Mozilla Common Voice platforma. Korpuss ir manuāli marķēts pamatformu un vārdšķiru līmenī.

Korpusa apjoms 29 stundas (160 000 tekstvienību)
Datu publicēšanas periods 2023–2024
Izstrādes periods 2024
Izstrādātāji Rēzeknes Tehnoloģiju akadēmija, Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Digitālās humanitārās zinātnes" (VPP-IZM-DH-2022/1-0002)
Citas publikācijas
R. Dargis, A. Znotins, I. Auzina, B. Saulite, S. Reinsone, R. Dejus, A. Klavinska, N. Gruzitis
BalsuTalka.lv – Boosting the Common Voice Corpus for Low-Resource Languages
2024
PDF