BalsuTalka  Meklēt korpusā Vārdu biežuma saraksts

Balsutalka.lv runas korpuss (Common Voice 17.0)

"Balsu talkas" laikā savākts latviešu valodas runas korpuss, kurā iepriekš atlasītus teikumus ierunājuši tūkstošiem dažāda vecuma un tautību cilvēku gan no Latvijas, gan no diasporas. Datu vākšanai tiek izmantota Mozilla Common Voice platforma.

Korpusa apjoms 277 stundas (1,3 milj. tekstvienību)
Datu publicēšanas periods 2023–2024
Izstrādes periods 2024
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija
Finansējuma avots ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Letonika latviskas un eiropeiskas sabiedrības attīsībai" (VPP-LETONIKA-2021/1-0006)