LATE-mediji  Meklēt korpusā Vārdu biežuma saraksts

LATE plašsaziņas līdzekļu korpuss

Korpusā ir iekļauti Latvijas sabiedrisko mediju raidījumu ieraksti – gan spontāna, gan sagatavota (galvenokārt lasīta) runa. Dati pierakstīti latviešu literārās valodas ortogrāfijā, ievērojot arī interpunkcijas principus.

Atsauces
Publikācija
I. Auzina, N. Gruzitis, R. Dargis, G. Rabante-Busa, D. Gosko, J. Vempers, R. Kivkucans, A. Znotins
Recent Latvian Speech Corpora for Linguistic Research and Technology Development
Baltic Journal of Modern Computing, 12(4), 646-658, 2024
Dati
I. Auziņa, R. Darģis, K. Levāne-Petrova, A. Auziņa, B. Saulīte, I. Ļaksa-Timinska, E. Gailīte, G. Nešpore-Bērzkalne, G. Rābante-Buša, K. Pokratniece, A. Klints
LATE plašsaziņas līdzekļu korpuss (LATE-mediji)
CLARIN-LV digitālā bibliotēka, 2024
http://hdl.handle.net/20.500.12574/114
Korpusa apjoms 78 stundas (682 000 tekstvienību)
Datu publicēšanas periods 2015–2020
Izstrādes periods 2021–2024
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots VPP "Letonika latviskas un eiropeiskas sabiedrības attīstībai" (VPP-LETONIKA-2021/1-0006)
CLARIN http://hdl.handle.net/20.500.12574/114