LVK2022 Meklēt korpusā Vārdu biežuma saraksts

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Līdzsvarots latviešu valodas tekstu korpuss, kurā iekļauti unikāli, līdz šim izstrādātajos līdzsvarotajos korpusos (LVK2013 un LVK2018) neievietoti teksti. Pamatā korpuss ir veidots, ievērojot iepriekšējo līdzsvaroto korpusu uzbūves principus. Tajā iekļauti autentiski dažādu žanru mūsdienu (lielākoties tapuši kopš 2000. gada) teksti ar metadatiem. Atšķirībā no iepriekšējiem līdzsvarotajiem korpusiem šajā ietverti gan oriģinālteksti latviešu valodā, gan arī tulkojumi. Atlasot korpusā iekļaujamos tekstus no tīmekļa, vispirms savāktas visas aktuālās lapas no viena domēna un izgūts korpusam atbilstošais saturs. Nākamajā apstrādes posmā teksts sadalīts rindkopās un dzēstas tās, kas dublējas vai nav derīgas korpusam (teksts svešvalodā, tabulas u.tml.). Daļā daiļliteratūras dokumentu rindkopas pārkārtotas alfabētiskā secībā, lai ievērotu līgumsaistības ar izdevniecībām. No apstrādātajiem dokumentiem izveidots līdzsvarotais korpuss, ievērojot šādas valodas žanru proporcijas: periodika (60%), daiļliteratūra (10%), zinātniski teksti (10%), teksti no „Vikipēdijas” (7%), normatīvie akti (7%), Saeimas stenogrammas (3%) un subtitri (3%).

Atsauces

Dati

K. Levāne-Petrova, R. Darģis, K. Pokratniece, V. J. Lasmanis
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss (LVK2022)
CLARIN-LV digitālā bibliotēka, 2022
http://hdl.handle.net/20.500.12574/84

teksta (36) vispārīgs (11) reprezentatīvs (9) morfoloģija (41)

Korpusa apjoms	101 milj. vārdlietojumu (123 milj. tekstvienību)
Datu publicēšanas periods	2000–2021
Izstrādes periods	2019–2022
Izstrādātāji	Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots	Latviešu valodas aģentūra
CLARIN	http://hdl.handle.net/20.500.12574/84