NKK | Korpuss.lv

teksta (32) runas (10) vispārīgs (11) specializēts (31) morfoloģija (36) sintakse (3) semantika (1) kļūdas (2) manuāli pārbaudīts (9) diahronisks (6) tīmekļa (2) apguvēju (2) literārs (5) paralēls (1) parlamentārs (1) vēsturisks (2) periodika (5) reprezentatīvs (9) latgaliešu (4) emuāru (2)

Korpusi ar birku specializēts (31)

AutoBio

Autobiogrāfiju tekstu korpuss

1900–2024, 2 milj. vārdlietojumu (2,6 milj. tekstvienību)

Izstrādātāji: LU LFMI, LU DHC

Vairāk informācijas Meklēt korpusā

MuLaR

Mūsdienu latgaliešu runas korpuss

2009–2021, 27 stundas (200 000 tekstvienību)

Izstrādātāji: RTU Rēzekne

Vairāk informācijas Meklēt korpusā

Satori-Punctum

"Satori" un "Punctum" literatūras korpuss

2003–2025, 3,5 milj. vārdlietojumu (4,3 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LatSenRom

Latviešu senākie romāni (1879–1940)

1879–1940, 29 milj. vārdlietojumu (37 milj. tekstvienību)

Izstrādātāji: LNB, LU LFMI

Vairāk informācijas Meklēt korpusā

LATE-sarunas

LATE sarunu korpuss

2012–2024, 44 stundas (429 000 tekstvienību)

Izstrādātāji: LU MII, LU LFMI

Vairāk informācijas Meklēt korpusā

LATE-mediji

LATE plašsaziņas līdzekļu korpuss

2015–2020, 78 stundas (682 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

fonLATE

LATE fonētiski marķēts runas korpuss

2012–2024, 4 stundas (48 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

BolsuTolka

Bolsutolka.lv runas korpuss (Common Voice 19.0)

2023–2024, 29 stundas (160 000 tekstvienību)

Izstrādātāji: LU MII, RTU Rēzekne, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

BalsuTalka

Balsutalka.lv runas korpuss (Common Voice 17.0)

2023–2024, 277 stundas (1,3 milj. tekstvienību)

Izstrādātāji: LU MII, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

Cīņa

"Cīņa"

1904–1991, 194 milj. vārdlietojumu (243 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Jaunatne

"Padomju Jaunatne"

1944–1989, 138 milj. vārdlietojumu (176 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Senie

Latviešu valodas seno tekstu korpuss

1507–1800, 2 milj. vārdlietojumu (2,7 milj. tekstvienību)

Izstrādātāji: LU LaVI, LU MII, LU HZF

Vairāk informācijas Meklēt korpusā

LVMED

Radioloģisko izmeklējumu transkripciju korpuss

2010–2022, 35 stundas (157 000 tekstvienību)

Izstrādātāji: LU MII, RAKUS

Vairāk informācijas Meklēt korpusā

Vikipēdija

Vikipēdijas korpuss

2003–2022, 17,9 milj. vārdlietojumu (27,7 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Barometrs

Interneta agresivitātes indekss

2011–2022, 26 milj. komentāru (642 milj. tekstvienību)

Izstrādātāji: RSU, LU MII

Vairāk informācijas Meklēt korpusā

Subtitri

Latvijas sabiedrisko mediju subtitru korpuss

2015–2020, 1200 stundu (10,8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

PanDi

Pandēmijas dienasgrāmatas

2020–2022, 565 000 vārdlietojumu (709 000 tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

ĪsprozaS

Sieviešu īsproza

1893–2002, 925 000 vārdlietojumu (1,2 milj. tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

Disertācijas

Promocijas darbu korpuss

1993–2020, 16,7 milj. vārdlietojumu (23,4 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Likumi

Latvijas Republikas tiesību aktu korpuss

1990–2022, 73,9 milj. vārdlietojumu (116,2 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Ziņas

Latvijas ziņu portālu raksti

2000–2022, 357,2 milj. vārdlietojumu (513,5 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LAvīzes

"Latviešu Avīzes"

1822–1915, 35,7 milj. vārlietojumu (46 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Karogs

"Karogs"

1940–1994, 48,7 milj. vārdu (62,1 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LitMāksla

"Literatūra un Māksla"

1945–1995, 52,7 milj. vārdu (65,8 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018, 185 000 vārdlietojumu (226 000 tekstvienību)

Izstrādātāji: LU MII, RTU Liepāja, RTU Rēzekne

Vairāk informācijas Meklēt korpusā

Saeima

LR 5.–13. Saeimas sēžu stenogrammu korpuss

1993–2022, 20 milj. vārdlietojumu (24 milj. tekstvienību)

Izstrādātāji: LU MII, RSU

Vairāk informācijas Meklēt korpusā

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2016–2017, 150 000 tekstvienību

Izstrādātāji: LU MII

Vairāk informācijas

Rainis

Raiņa darbu korpuss

1895–1929, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 34 stundas

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Emuāri

Latviešu valodas emuāru korpuss

2001–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129

PDF BibTeX