BolsuTolka Meklēt korpusā Vārdu biežuma saraksts
Bolsutolka.lv runas korpuss (Common Voice 17.0)
Runas korpusā iekļauti teikumi latgaliešu rakstu valodā, tos ierunājuši latgalisko izlokšņu pratēji. Datu vākšanai tiek izmantota Mozilla Common Voice platforma. Šī korpusa versija ir manuāli marķēta pamatformu un vārdšķiru līmenī.
Korpusa apjoms | 24 stundas (130 000 tekstvienību) |
Datu publicēšanas periods | 2023–2024 |
Izstrādes periods | 2024 |
Izstrādātāji | Rēzeknes Tehnoloģiju akadēmija, Latvijas Universitātes Matemātikas un informātikas institūts, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Latvijas Atvērto tehnoloģiju asociācija |
Finansējuma avots | ES Atveseļošanas un noturības mehānisms augsta līmeņa digitālo prasmju nodrošināšanai “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002); VPP "Digitālās humanitārās zinātnes" (VPP-IZM-DH-2022/1-0002) |