2024. gada pavasaris

14.05.2024.

2024. gada pirmajā pusē lietotāju ērtībai esam veikuši dažādus uzlabojumus Korpuss.lv. Lai par to uzzinātu korpusu lietotāji un lai mēs paši nepiemirstu, esam nolēmuši periodiski (cerams, ka reizi ceturksnī) īsā kopsavilkumā informēt par būtiskākajiem jauninājumiem Korpuss.lv.

Korpusu kārtošana

Tagad visus korpusus var kārtot pēc šādiem parametriem:

  1. noklusējuma – vispirms tiks rādīti četri, mūsuprāt, populārākie vai citādi svarīgākie korpusi;
  2. apjoma – korpusi tiks sakārtoti no lielākā uz mazāko pēc korpusā iekļauto tekstvienību skaita;
  3. datu publicēšanas sākuma vai beigām – korpusi tiks sakārtoti pēc tā, kādā laika periodā ir publicēti korpusos iekļautie dati;
  4. izstrādes perioda beigām – vispirms tiks rādīti paši jaunākie korpusi.
Korpusu klasifikācija

Lai korpusi būtu vieglāk pārskatāmi un tos varētu atlasīt ne tikai pēc marķējuma, bet arī citām kopīgām pazīmēm, korpusi ir grupēti, balstoties uz dažādiem parametriem un pievienojot birkas, piem., pēc valodas realizācijas formas tiek šķirti teksta un runas korpusi, pēc iekļauto datu raksturojuma – vispārīgi un specializēti korpusi. Ja birku sarakstā kursoru novieto virs kādas no birkām, parādās īss paskaidrojums par to, kādi dati konkrētajā grupā iekļauti.

Nedaudz pilnveidota birku sistēma:

  1. seno tekstu korpusiem pievienota birka vēsturisks;
  2. visi korpusi sadalīti vispārīgos un specializētos;
  3. vairāki korpusi grupēti pēc kopīgām pazīmēm, piem., tīmekļa, apguvēju, literārs;
  4. ieviesta jauna birka diahronisks, kas nozīmē, ka katram korpusā iekļautajam dokumentam norādīts tā publicēšanas gads.

Korpusos, kam pievienota birka diahronisks, noSketchEngine programmrīkā tagad var analizēt valodas vienību izplatību (absolūto un relatīvo biežumu) pa gadiem (skat. attēlu).

Vārda "krīze" biežuma izmaiņas Ziņu korpusā
Jauni korpusi un jaunas versijas

Korpuss.lv pēdējā laikā papildināts kvantitatīvi un kvalitatīvi:

  1. pievienoti divi fundamentāli runas korpusi, kas jau tiek izmantoti runas atpazīšanas modeļu izstrādē:
  2. vairākiem korpusiem izveidotas papildinātas versijas:
  3. LNB korpusu kolekcijai pievienoti divi jauni periodikas korpusi:
Citi jaunumi

25.–26. aprīlī notika Baltijas Digitālo humanitāro zinātņu forums, kur piedalījāmies ar stenda referātiem par:

  1. platformas Korpuss.lv sniegtajām iespējām valodas izpētē – Korpuss.lv – a versatile platform for digital humanities;
  2. kampaņā "Balsu talka" savāktajiem latviešu un latgaliešu valodas runas datiem – Crowdsourcing Open Speech Corpora in Latvian and Latgalian;
  3. jaunākajiem LATE runas korpusiem – Speech Corpora for Facilitating Linguistic Research and Tool Development.

Pieejama videopamācība, kā lietot Korpuss.lv, lai pārlūkotu kampaņā "Balsu talka" izveidotos runas korpusus.