Corpora with tag web (2)

Tīmeklis2007

Latvian Web Corpus 2007

2006–2007, 99M words (123M tokens)
Developers: IMCS UL

Tīmeklis2020

CommonCrawl of Latvian 2020

2020–2022, 403.6M words (492.6M tokens)
Developers: IMCS UL
B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129
PDF   BibTeX