LVK2022 Meklēt korpusā Vārdu biežuma saraksts
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss
Līdzsvarots latviešu valodas tekstu korpuss, kurā iekļauti unikāli, līdz šim izstrādātajos līdzsvarotajos korpusos (LVK2013 un LVK2018) neievietoti teksti. Pamatā korpuss ir veidots, ievērojot iepriekšējo līdzsvaroto korpusu uzbūves principus. Tajā iekļauti autentiski dažādu žanru mūsdienu (lielākoties tapuši kopš 2000. gada) teksti ar metadatiem. Atšķirībā no iepriekšējiem līdzsvarotajiem korpusiem šajā ietverti gan oriģinālteksti latviešu valodā, gan arī tulkojumi. Atlasot korpusā iekļaujamos tekstus no tīmekļa, vispirms savāktas visas aktuālās lapas no viena domēna un izgūts korpusam atbilstošais saturs. Nākamajā apstrādes posmā teksts sadalīts rindkopās un dzēstas tās, kas dublējas vai nav derīgas korpusam (teksts svešvalodā, tabulas u.tml.). Daļā daiļliteratūras dokumentu rindkopas pārkārtotas alfabētiskā secībā, lai ievērotu līgumsaistības ar izdevniecībām. No apstrādātajiem dokumentiem izveidots līdzsvarotais korpuss, ievērojot šādas valodas žanru proporcijas: periodika (60%), daiļliteratūra (10%), zinātniski teksti (10%), teksti no „Vikipēdijas” (7%), normatīvie akti (7%), Saeimas stenogrammas (3%) un subtitri (3%).
Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss (LVK2022)
CLARIN-LV digitālā bibliotēka, 2022
http://hdl.handle.net/20.500.12574/84
Korpusa apjoms | 101 milj. vārdlietojumu (123 milj. tekstvienību) |
Datu publicēšanas periods | 2000–2021 |
Izstrādes periods | 2019–2022 |
Izstrādātāji | Latvijas Universitātes Matemātikas un informātikas institūts |
Finansējuma avots | Latviešu valodas aģentūra |
CLARIN | http://hdl.handle.net/20.500.12574/84 |