Nacionālā korpusu kolekcija

Nacionālā korpusu kolekcija (NKK) ir daudzveidīgu, dažādās institūcijās izstrādātu un uzturētu teksta un runas korpusu kopa. Valodas korpuss ir strukturēts rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei.

Šobrīd NKK ir 30 korpusi, to izstrādē piedalījušās 13 institūcijas. Korpusu kolekcija regulāri tiek papildināta. Lielākā daļa NKK korpusu ir gramatiski marķēti un iekļauti vienotās meklēšanas sistēmā. Vienoto meklēšanu nodrošina NKK infrastruktūras mezgli: LU MII un LNB. Vienotā meklēšana iespējama 24 korpusos (2,1 miljardi tekstvienību).

Baiba Saulīte, Roberts Darģis, Normunds Grūzītis, Ilze Auziņa, Kristīne Levāne-Petrova, Lauma Pretkalniņa, Laura Rituma, Pēteris Paikens, Artūrs Znotiņš, Laine Strankale, Kristīne Pokratniece, Ilmārs Poikāns, Guntis Bārzdiņš, Inguna Skadiņa, Anda Baklāne, Valdis Saulespurēns, Jānis Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
Raksts   Plakāts   Video   BibTeX

Partneri

Finansētāji

VPP

Valsts pētījumu programmas "Humanitāro zinātņu digitālie resursi" projekts Nr. VPP-IZM-DH-2020/1-0001 (2020–2022)

ERAF

Eiropas Reģionālās attīstības fonda programmas "Praktiskas ievirzes pētījumi" projekts Nr. 1.1.1.1/16/A/219 (2017–2019)
Eiropas Reģionālās attīstības fonda programmas "Atbalsts starptautiskās sadarbības projektiem pētniecībā un inovācijās" projekts Nr. 1.1.1.5/18/I/016 (2018–2022)

Latviešu valodas aģentūra

Finansējums latviešu valodas korpusa koncepcijas izstrādei, "Līdzsvarotajam mūsdienu latviešu valodas tekstu korpusam" u.c. (2005–2022)

Atbalstītāji