LVK2018  Meklēt korpusā Vārdu biežuma saraksts

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Vispārīgs latviešu valodas tekstu korpuss, kurā iekļauti dažādu žanru mūsdienu (kopš 1991. gada) autentiski teksti ar metadatiem: periodika (60%), daiļliteratūra (20%), zinātniski teksti (10%), normatīvie akti (8%), Saeimas stenogrammas (2%). Korpuss satur automātisku morfoloģisko marķējumu.

Atsauces
Publikācija
K. Levane-Petrova
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss, tā nozīme gramatikas pētījumos
Language: Meaning and Form (The Balanced Corpus of Modern Latvian, its role in grammar studies), 10, 131-146, 2019
Dati
K. Levāne-Petrova, R. Darģis
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss (LVK2018)
CLARIN-LV digitālā bibliotēka, 2018
http://hdl.handle.net/20.500.12574/11
Korpusa apjoms 10 milj. vārdlietojumu (12 milj. tekstvienību)
Datu publicēšanas periods 1991–2018
Izstrādes periods 2016–2018
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots ERAF praktiskas ievirzes pētījumu programma (1.1.1.1/16/A/219); Latviešu valodas aģentūra
CLARIN http://hdl.handle.net/20.500.12574/11
Citas publikācijas
R. Dargis, K. Levane-Petrova, I. Poikans
Lessons Learned from Creating a Balanced Corpus from Online Data
IOS Press, 2020