BolsuTolka  Meklēt korpusā Vārdu biežuma saraksts

Bolsutolka.lv runas korpuss (Common Voice 17.0)

Runas korpusā iekļauti teikumi latgaliešu rakstu valodā, tos ierunājuši latgalisko izlokšņu pratēji. Datu vākšanai tiek izmantota Mozilla Common Voice platforma. Šī korpusa versija ir manuāli marķēta pamatformu un vārdšķiru līmenī.

Korpusa apjoms 24 stundas (130 000 tekstvienību)
Datu publicēšanas periods 2023–2024
Izstrādes periods 2024
Izstrādātāji Rēzeknes Tehnoloģiju akadēmija, Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Digitālās humanitārās zinātnes" (VPP-IZM-DH-2022/1-0002)