Jaunumi - 2024. gada pavasaris

2024. gada pavasaris

14.05.2024.

2024. gada pirmajā pusē lietotāju ērtībai esam veikuši dažādus uzlabojumus Korpuss.lv. Lai par to uzzinātu korpusu lietotāji un lai mēs paši nepiemirstu, esam nolēmuši periodiski īsā kopsavilkumā informēt par būtiskākajiem jauninājumiem Korpuss.lv.

Korpusu kārtošana

Tagad visus korpusus var kārtot pēc šādiem parametriem:

noklusējuma – vispirms tiks rādīti četri, mūsuprāt, populārākie vai citādi svarīgākie korpusi;
apjoma – korpusi tiks sakārtoti no lielākā uz mazāko pēc korpusā iekļauto tekstvienību skaita;
datu publicēšanas sākuma vai beigām – korpusi tiks sakārtoti pēc tā, kādā laika periodā ir publicēti korpusos iekļautie dati;
izstrādes perioda beigām – vispirms tiks rādīti paši jaunākie korpusi.

Korpusu klasifikācija

Lai korpusi būtu vieglāk pārskatāmi un tos varētu atlasīt ne tikai pēc marķējuma, bet arī citām kopīgām pazīmēm, korpusi ir grupēti, balstoties uz dažādiem parametriem un pievienojot birkas, piem., pēc valodas realizācijas formas tiek šķirti teksta un runas korpusi, pēc iekļauto datu raksturojuma – vispārīgi un specializēti korpusi. Ja birku sarakstā kursoru novieto virs kādas no birkām, parādās īss paskaidrojums par to, kādi dati konkrētajā grupā iekļauti.

Nedaudz pilnveidota birku sistēma:

seno tekstu korpusiem pievienota birka vēsturisks;
visi korpusi sadalīti vispārīgos un specializētos;
vairāki korpusi grupēti pēc kopīgām pazīmēm, piem., tīmekļa, apguvēju, literārs;
ieviesta jauna birka diahronisks, kas nozīmē, ka katram korpusā iekļautajam dokumentam norādīts tā publicēšanas gads.

Korpusos, kam pievienota birka diahronisks, noSketchEngine programmrīkā tagad var analizēt valodas vienību izplatību (absolūto un relatīvo biežumu) pa gadiem (skat. attēlu).

Vārda "krīze" biežuma izmaiņas Ziņu korpusā

Jauni korpusi un jaunas versijas

Korpuss.lv pēdējā laikā papildināts kvantitatīvi un kvalitatīvi:

pievienoti divi fundamentāli runas korpusi, kas jau tiek izmantoti runas atpazīšanas modeļu izstrādē:

LATE sarunu korpuss – 35 stundas privātu sarunu, interviju un publisku uzstāšanos ierakstu ar atšifrējumiem ortogrāfiskajā transkripcijā,
LATE plašsaziņas līdzekļu korpuss – 50 stundu spontānas vai sagatavotas runas no Latvijas sabiedrisko mediju raidījumiem;

vairākiem korpusiem izveidotas papildinātas versijas:

Balsutalka.lv runas korpuss (CV 17.0) – 277 stundas ierunātu datu,
Balsutalka.lv/ltg/ runas korpuss (CV 17.0) – 24 stundas latgaliski ierunātu un daļēji morfoloģiski (pamatformas un vārdšķiras) marķētu datu,
Latviešu valodas sintaktiski marķētais korpuss un Latviešu valodas universālo atkarību korpuss (kārtējā versija 2.14) – 18 850 sintaktiski marķētu teikumu,

LNB korpusu kolekcijai pievienoti divi jauni periodikas korpusi:

Padomju Jaunatne (138 milj. vārdlietojumu),
Cīņa (185 milj. vārdlietojumu).

Citi jaunumi

25.–26. aprīlī notika Baltijas Digitālo humanitāro zinātņu forums, kur piedalījāmies ar stenda referātiem par:

platformas Korpuss.lv sniegtajām iespējām valodas izpētē – Korpuss.lv – a versatile platform for digital humanities;
kampaņā "Balsu talka" savāktajiem latviešu un latgaliešu valodas runas datiem – Crowdsourcing Open Speech Corpora in Latvian and Latgalian;
jaunākajiem LATE runas korpusiem – Speech Corpora for Facilitating Linguistic Research and Tool Development.

Pieejama videopamācība, kā lietot Korpuss.lv, lai pārlūkotu kampaņā "Balsu talka" izveidotos runas korpusus.