LVK2018  Meklēt korpusā Vārdu biežuma saraksts

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Vispārīgs latviešu valodas tekstu korpuss, kurā iekļauti dažādu žanru mūsdienu (kopš 1991. gada) autentiski teksti ar metadatiem: periodika (60%), daiļliteratūra (20%), zinātniski teksti (10%), normatīvie akti (8%), Saeimas stenogrammas (2%). Korpuss satur automātisku morfoloģisko marķējumu.

Publikācija, uz kuru atsaukties:
K. Levane-Petrova
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss, tā nozīme gramatikas pētījumos
Language: Meaning and Form (The Balanced Corpus of Modern Latvian, its role in grammar studies), 10, 131-146, 2019
PDF DOI
Korpusa apjoms 10 milj. vārdlietojumu (12 milj. tekstvienību)
Izstrādes periods 2016–2018
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots ERAF praktiskas ievirzes pētījumu programma (1.1.1.1/16/A/219); Latviešu valodas aģentūra
CLARIN http://hdl.handle.net/20.500.12574/11
Citas publikācijas
R. Dargis, K. Levane-Petrova, I. Poikans
Lessons Learned from Creating a Balanced Corpus from Online Data
IOS Press, 2020
PDF DOI