BalsuTalka Meklēt korpusā Vārdu biežuma saraksts
Balsutalka.lv runas korpuss (Common Voice 17.0)
"Balsu talkas" laikā savākts latviešu valodas runas korpuss, kurā iepriekš atlasītus teikumus ierunājuši tūkstošiem dažāda vecuma un tautību cilvēku gan no Latvijas, gan no diasporas. Datu vākšanai tiek izmantota Mozilla Common Voice platforma.
Korpusa apjoms | 277 stundas (1,3 milj. tekstvienību) |
Datu publicēšanas periods | 2023–2024 |
Izstrādes periods | 2024 |
Izstrādātāji | Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija |
Finansējuma avots | ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Letonika latviskas un eiropeiskas sabiedrības attīsībai" (VPP-LETONIKA-2021/1-0006) |