Tvitēdiens  Meklēt korpusā Vārdu biežuma saraksts

Tvitēdiena korpuss

Tvitēdiena korpuss ir sociālo mediju portāla "Twitter" ieraksti, kas saistīti ar ēdieniem, dzērieniem, ēšanu un dzeršanu. Korpuss tiek aktīvi vākts kopš 2011. gada un ietver vairāk nekā trīs miljonus tvītu, kas rakstīti latviešu valodā.

Atsauces
Publikācija
Sproģis, Uga, Rikters, Matīss
What can we learn from almost a decade of food tweets
Human Language Technologies--The Baltic Perspective, IOS Press, 2020
DOI
Korpusa apjoms 42 milj. vārdlietojumu (56 milj. tekstvienību)
Datu publicēšanas periods 2007–2025
Izstrādes periods 2020-2025
Izstrādātāji Tokijas Universitāte, Latvijas Universitātes Datorikas fakultāte, Japānas Nacionālais progresīvās rūpnieciskās zinātnes un tehnoloģiju institūts
Finansējuma avots Jaunās enerģijas un rūpniecisko tehnoloģiju attīstības organizācija (NEDO; Nr. JPNP20006), "LU doktorantūras kapacitātes stiprināšana jaunā doktorantūras modeļa ietvarā" (Nr. 8.2.2.0/20/I/006).
Mājaslapa https://twitediens.lv/
Citas publikācijas
Rikters, Matiss, Vīksna, Rinalds, Marrese-Taylor, Edison
Annotations for Exploring Food Tweets from Multiple Aspects
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, 2024
PDF