BolsuTolka Meklēt korpusā Vārdu biežuma saraksts
Bolsutolka.lv runas korpuss (Common Voice 19.0)
Runas korpusā iekļauti teikumi latgaliešu rakstu valodā, tos ierunājuši latgalisko izlokšņu pratēji. Datu vākšanai tiek izmantota Mozilla Common Voice platforma. Korpuss ir manuāli marķēts pamatformu un vārdšķiru līmenī.
Korpusa apjoms | 29 stundas (160 000 tekstvienību) |
Datu publicēšanas periods | 2023–2024 |
Izstrādes periods | 2024 |
Izstrādātāji | Rēzeknes Tehnoloģiju akadēmija, Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija |
Finansējuma avots | ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Digitālās humanitārās zinātnes" (VPP-IZM-DH-2022/1-0002) |
Citas publikācijas |
R. Dargis,
A. Znotins,
I. Auzina,
B. Saulite,
S. Reinsone,
R. Dejus,
A. Klavinska,
N. Gruzitis
BalsuTalka.lv – Boosting the Common Voice Corpus for Low-Resource Languages 2024 |