Korpusi ar birku teksta (25)

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)
Izstrādātāji: LU MII

MuLa2022

Mūsdienu latgaliešu tekstu korpuss 2022

2020–2022, 2 milj. vārdlietojumu (2,8 milj. tekstvienību)
Izstrādātāji: RTA, LU MII

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)
Izstrādātāji: LU MII

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010–2022, 16 803 teikumi (282 167 tekstvienības) (v2.10)
Izstrādātāji: LU MII

Barometrs

Interneta agresivitātes indekss

2011–2022, 26 milj. komentāru (642 milj. tekstvienību)
Izstrādātāji: RSU, LU MII

Disertācijas

Promocijas darbu korpuss

2022, 16,7 milj. vārdlietojumu (23,4 milj. tekstvienību)
Izstrādātāji: LU MII

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)
Izstrādātāji: LU MII

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 13 691 teikums
Izstrādātāji: LU MII

Hugo.lv

Hugo.lv paralēlie korpusi

2018, 10,5 milj. vārdlietojumu
Izstrādātāji: KISC

LatSenRom

Latviešu senākie romāni

2019–2022, 4,6 milj. vārdlietojumu (5,8 milj. tekstvienību)
Izstrādātāji: LNB, LU LFMI

Likumi

Latvijas Republikas tiesību aktu korpuss

2022, 73,9 milj. vārdlietojumu (116,2 milj. tekstvienību)
Izstrādātāji: LU MII

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu
Izstrādātāji: LU MII, VDU

MuLa2012

Mūsdienu latgaliešu tekstu korpuss 2012

2011–2013, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)
Izstrādātāji: LU MII, RTA

PanDi

Pandēmijas dienasgrāmatas

2020–2022, 565 000 vārdlietojumu (709 000 tekstvienību)
Izstrādātāji: LU LFMI

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)
Izstrādātāji: LU MII, LiepU, RTA

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)
Izstrādātāji: LU MII

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu (24 milj. tekstvienību)
Izstrādātāji: LU MII, RSU

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 2 milj. vārdlietojumu (2,7 milj. tekstvienību)
Izstrādātāji: LU LaVI, LU MII, LU HZF

Tīmeklis2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādātāji: LU MII

Tīmeklis2020

Latviešu valodas tīmekļa korpuss

2020–2022, 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību)
Izstrādātāji: LU MII

UDLV-LVTB

Latviešu valodas universālo atkarību korpuss

2015–2022, 16 951 teikums (285 425 tekstvienību) (v2.11)
Izstrādātāji: LU MII

Vikipēdija

Vikipēdijas korpuss

2022, 17,9 milj. vārdlietojumu (27,7 milj. tekstvienību)
Izstrādātāji: LU MII

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību
Izstrādātāji: LU MII

Ziņas

Latvijas ziņu portālu raksti

2022, 357,2 milj. vārdlietojumu (513,5 milj. tekstvienību)
Izstrādātāji: LU MII

ĪsprozaS

Sieviešu īsproza

2020–2022, 925 000 vārdlietojumu (1,2 milj. tekstvienību)
Izstrādātāji: LU LFMI