Tīmeklis2007  Meklēt korpusā Vārdu biežuma saraksts

Latviešu valodas tīmekļa korpuss

Korpusā ir ap 700 000 tīmekļa lapu, kas publicētas pirms 2005. gada. Teikumi, kas atkārtojas, nav iekļauti korpusā.

Atsauces
Publikācija
J. Dzerins and K. Dzonsons
Harvesting national language text corpora from the Web
2007
Dati
J. Džeriņš, K. Džonsons
Latviešu valodas tīmekļa korpuss (Tīmeklis2007)
CLARIN-LV digitālā bibliotēka, 2007
http://hdl.handle.net/20.500.12574/46
Korpusa apjoms 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādes periods 2006–2007
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots VPP "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām"
CLARIN http://hdl.handle.net/20.500.12574/46