Tīmeklis2020 Meklēt korpusā Vārdu biežuma saraksts
Latviešu valodas tīmekļa korpuss
Korpusā apkopotas 2013.–2020. gadā savāktās tīmekļa lapas latviešu valodā. Vērtējot vārdu lietojuma biežumu korpusā, jāņem vērā, ka no sākotnēji iegūtajiem datiem izņemtas dublējošās rindkopas. Korpuss tapis projektā CommonCrawl.
Korpusa apjoms | 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību) |
Datu publicēšanas periods | 2013–2022 |
Izstrādes periods | 2020–2022 |
Izstrādātāji | Latvijas Universitātes Matemātikas un informātikas institūts |
Finansējuma avots | VPP "Humanitāro zinātņu digitālie resursi" (VPP-IZM-DH-2020/1-0001) |