BalsuTalka  Meklēt korpusā Vārdu biežuma saraksts

Balsutalka.lv runas korpuss (Common Voice 16.1)

"Balsu talkas" laikā savākts latviešu valodas runas korpuss, kurā iepriekš atlasītus teikumus ierunājuši tūkstošiem dažāda vecuma un tautību cilvēku gan no Latvijas, gan no diasporas. Datu vākšanai tiek izmantota Mozilla Common Voice platforma.

Korpusa apjoms 246 stundas (1,5 milj. tekstvienību)
Izstrādes periods 2024
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Letonika latviskas un eiropeiskas sabiedrības attīsībai" (VPP-LETONIKA-2021/1-0006)