Nacionālā korpusu kolekcija

Nacionālā korpusu kolekcija (NKK) ir daudzveidīgu, dažādās institūcijās izstrādātu un uzturētu teksta un runas korpusu kopa. Valodas korpuss ir strukturēts rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei.

Šobrīd NKK ir 37 korpusi, to izstrādē piedalījušās 13 institūcijas. Korpusu kolekcija regulāri tiek papildināta. Lielākā daļa NKK korpusu ir gramatiski marķēti un iekļauti vienotās meklēšanas sistēmā. Vienoto meklēšanu nodrošina NKK infrastruktūras mezgli: LU MII un LNB. Vienotā meklēšana iespējama 32 korpusos (2,8 miljardi tekstvienību).

Baiba Saulīte, Roberts Darģis, Normunds Grūzītis, Ilze Auziņa, Kristīne Levāne-Petrova, Lauma Pretkalniņa, Laura Rituma, Pēteris Paikens, Artūrs Znotiņš, Laine Strankale, Kristīne Pokratniece, Ilmārs Poikāns, Guntis Bārzdiņš, Inguna Skadiņa, Anda Baklāne, Valdis Saulespurēns, Jānis Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
PDF   Plakāts   Video   BibTeX

Partneri

Finansētāji

ANM

ES Atveseļošanas un noturības mehānisma investīcijas projekts "Valodu teholoģiju iniciatīva" (2.3.1.1.i.0/1/22/I/CFLA/002; 2023–2026)

VPP

Valsts pētījumu programmas "Digitālās humanitārās zinātnes" projekts Nr. VPP-IZM-DH-2022/1-0002 (2022–2025)
Valsts pētījumu programmas "Humanitāro zinātņu digitālie resursi" projekts Nr. VPP-IZM-DH-2020/1-0001 (2020–2022)

ERAF

Eiropas Reģionālās attīstības fonda programmas "Atbalsts starptautiskās sadarbības projektiem pētniecībā un inovācijās" projekts Nr. 1.1.1.5/18/I/016 (2018–2022)
Eiropas Reģionālās attīstības fonda programmas "Praktiskas ievirzes pētījumi" projekts Nr. 1.1.1.1/16/A/219 (2017–2019)

Latviešu valodas aģentūra

Finansējums latviešu valodas korpusa koncepcijas izstrādei, "Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa" attīstībai u.c. (2005–2022)

Atbalstītāji