BalsuTalka  Meklēt korpusā Vārdu biežuma saraksts

Balsutalka.lv runas korpuss (Common Voice 14.0)

"Balsu talkas" laikā savākts latviešu valodas runas korpuss, kurā iepriekš atlasītus teikumus ierunājuši tūkstošiem dažāda vecuma un tautību cilvēku gan no Latvijas, gan no diasporas. Datu vākšanai tiek izmantota Mozilla Common Voice platforma.

Korpusa apjoms 136 stundas (817 000 tekstvienību)
Izstrādes periods 2023
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Letonika latviskas un eiropeiskas sabiedrības attīsībai" (VPP-LETONIKA-2021/1-0006)