Korpusi ar birku manuāli pārbaudīts (6)

LATE-mediji

LATE plašsaziņas līdzekļu korpuss

2015–2020, 50 stundas (433 000 tekstvienību)
Izstrādātāji: LU MII

LVTB

Latviešu valodas sintaktiski marķētais korpuss

1991–2022, 18 850 teikumi (318 000 tekstvienību) (v2.14)
Izstrādātāji: LU MII

UDLV-LVTB

Latviešu valodas universālo atkarību korpuss

1991–2022, 18 850 teikumi (318 000 tekstvienību) (v2.14)
Izstrādātāji: LU MII

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)
Izstrādātāji: LU MII

BolsuTolka

Bolsutolka.lv runas korpuss (Common Voice 17.0)

2023–2024, 24 stundas (130 000 tekstvienību)
Izstrādātāji: RTA, LU MII, LU LFMI, LATA

FullStack-LV

Daudzslāņu valodas resursu kopa

1991–2018, 13 691 teikums
Izstrādātāji: LU MII
B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
PDF   BibTeX