BolsuTolka  Meklēt korpusā Vārdu biežuma saraksts

Bolsutolka.lv runas korpuss (Common Voice 16.1)

Runas korpusā iekļauti teikumi latgaliešu rakstu valodā, tos ierunājuši latgalisko izlokšņu pratēji. Datu vākšanai tiek izmantota Mozilla Common Voice platforma. Šī korpusa versija ir manuāli marķēta pamatformu un vārdšķiru līmenī.

Korpusa apjoms 15 stundu (85 000 tekstvienību)
Izstrādes periods 2024
Izstrādātāji Rēzeknes Tehnoloģiju akadēmija, Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Digitālās humanitārās zinātnes" (VPP-IZM-DH-2022/1-0002)