LVK2022  Meklēt korpusā Vārdu biežuma saraksts

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Līdzsvarots latviešu valodas tekstu korpuss, kurā iekļauti unikāli, līdz šim izstrādātajos līdzsvarotajos korpusos (LVK2013 un LVK2018) neievietoti teksti. Pamatā korpuss ir veidots, ievērojot iepriekšējo līdzsvaroto korpusu uzbūves principus. Tajā iekļauti autentiski dažādu žanru mūsdienu (lielākoties tapuši kopš 2000. gada) teksti ar metadatiem. Atšķirībā no iepriekšējiem līdzsvarotajiem korpusiem šajā ietverti gan oriģinālteksti latviešu valodā, gan arī tulkojumi. Atlasot korpusā iekļaujamos tekstus no tīmekļa, vispirms savāktas visas aktuālās lapas no viena domēna un izgūts korpusam atbilstošais saturs. Nākamajā apstrādes posmā teksts sadalīts rindkopās un dzēstas tās, kas dublējas vai nav derīgas korpusam (teksts svešvalodā, tabulas u.tml.). Daļā daiļliteratūras dokumentu rindkopas pārkārtotas alfabētiskā secībā, lai ievērotu līgumsaistības ar izdevniecībām. No apstrādātajiem dokumentiem izveidots līdzsvarotais korpuss, ievērojot šādas valodas žanru proporcijas: periodika (60%), daiļliteratūra (10%), zinātniski teksti (10%), teksti no „Vikipēdijas” (7%), normatīvie akti (7%), Saeimas stenogrammas (3%) un subtitri (3%).

Atsauces
Dati
K. Levāne-Petrova, R. Darģis, K. Pokratniece, V. J. Lasmanis
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss (LVK2022)
CLARIN-LV digitālā bibliotēka, 2022
http://hdl.handle.net/20.500.12574/84
Korpusa apjoms 101 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādes periods 2019–2022
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots Latviešu valodas aģentūra
CLARIN http://hdl.handle.net/20.500.12574/84