Tīmeklis2007 Meklēt korpusā Vārdu biežuma saraksts
Latviešu valodas tīmekļa korpuss
Korpusā ir ap 700 000 tīmekļa lapu, kas publicētas pirms 2005. gada. Teikumi, kas atkārtojas, nav iekļauti korpusā.
Atsauces
Publikācija
J. Dzerins and
K. Dzonsons
Harvesting national language text corpora from the Web
2007
Harvesting national language text corpora from the Web
2007
Dati
J. Džeriņš, K. Džonsons
Latviešu valodas tīmekļa korpuss (Tīmeklis2007)
CLARIN-LV digitālā bibliotēka, 2007
http://hdl.handle.net/20.500.12574/46
Latviešu valodas tīmekļa korpuss (Tīmeklis2007)
CLARIN-LV digitālā bibliotēka, 2007
http://hdl.handle.net/20.500.12574/46
Korpusa apjoms | 99 milj. vārdlietojumu (123 milj. tekstvienību) |
Datu publicēšanas periods | 1991–2005 |
Izstrādes periods | 2006–2007 |
Izstrādātāji | Latvijas Universitātes Matemātikas un informātikas institūts |
Finansējuma avots | VPP "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām" |
CLARIN | http://hdl.handle.net/20.500.12574/46 |