Nacionālā korpusu kolekcija
Nacionālā korpusu kolekcija (NKK) ir daudzveidīgu, dažādās institūcijās izstrādātu un uzturētu teksta un runas korpusu kopa. Valodas korpuss ir strukturēts rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei.
Šobrīd NKK ir 39 korpusi, to izstrādē piedalījušās 13 institūcijas. Korpusu kolekcija regulāri tiek papildināta. Lielākā daļa NKK korpusu ir gramatiski marķēti un iekļauti vienotās meklēšanas sistēmā. Vienoto meklēšanu nodrošina NKK infrastruktūras mezgli: LU MII un LNB. Vienotā meklēšana iespējama 35 korpusos (2,8 miljardi tekstvienību).
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
Partneri
Finansētāji
ES Atveseļošanas un noturības mehānisma investīcijas projekts "Valodu teholoģiju iniciatīva" (2.3.1.1.i.0/1/22/I/CFLA/002; 2023–2026)
Valsts pētījumu programmas "Digitālās humanitārās zinātnes" projekts Nr. VPP-IZM-DH-2022/1-0002 (2022–2025)
Valsts pētījumu programmas "Humanitāro zinātņu digitālie resursi" projekts Nr. VPP-IZM-DH-2020/1-0001 (2020–2022)
Eiropas Reģionālās attīstības fonda programmas "Atbalsts starptautiskās sadarbības projektiem pētniecībā un inovācijās" projekts Nr. 1.1.1.5/18/I/016 (2018–2022)
Eiropas Reģionālās attīstības fonda programmas "Praktiskas ievirzes pētījumi" projekts Nr. 1.1.1.1/16/A/219 (2017–2019)
Finansējums latviešu valodas korpusa koncepcijas izstrādei, "Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa" attīstībai u.c. (2005–2022)