Jaunumi - 2025. gada pavasaris

2025. gada pavasaris

28.02.2025.

2025. gada pavasaris atnesis vairākus papildinājumus Korpuss.lv – gan jaunus runas un daiļliteratūras korpusus, gan paplašinātas un uzlabotas iepriekšējo korpusu versijas.

Jauni korpusi

LATE fonētiski marķēts latviešu runas korpuss (fonLATE) – fonētiski marķētu runas datu kopa (4 stundas), kas iegūta no LATE-sarunas un LATE-mediji korpusa. Fonētiskais marķējums šajā korpusā ir pieejams divos līmeņos: (1) vārda vai segmenta standartizruna, t. i., norādīta latviešu valodas pareizrunas normām atbilstoša vārda izruna, (2) vārda vai segmenta faktiskā izruna, t. i., norādīta vārda izruna saistītā runā, ņemot vērā skaņu pārmaiņas vārdu sadurā, fonēmu zudumu u. tml. Meklēšanai korpusā pieejama fonLate lietošanas pamācība, kā arī aplūkojama sīkāka informācija par korpusu.
“Satori” un “Punctum” literatūras korpuss (3,5 miljoni vārdlietojumu) – 21. gadsimta daiļliteratūra (oriģinālteksti un tulkojumi) no interneta žurnāliem “Satori” un “Punctum”.
“Mūsdienu latgaliešu runas korpuss” (MuLaR) – Rēzeknes Tehnoloģiju akadēmijas veidots runas korpuss (27 stundas), kurā iekļauta un atšifrēta gan spontāna, gan sagatavota runa latgaliešu valodā.

Jaunas, papildinātas versijas

Balsutalka.lv/ltg/ runas korpuss (galaversija, CV 19.0) – 29 stundas latgaliski ierunātu un daļēji morfoloģiski (pamatformas un vārdšķiras) marķētu datu. Šajā korpusā līdzīgi kā latviešu valodas morfoloģiski marķētajos korpusos var meklēt pēc vārda pamatformas (vairāk nekā 10 tūkstoši pamatformu) un atrast visas šī vārda leksēmas.
LATE sarunu korpuss – 44 stundas privātu sarunu, interviju un publisku uzstāšanos ierakstu ar atšifrējumiem ortogrāfiskajā transkripcijā.
LATE plašsaziņas līdzekļu korpuss – 78 stundas spontānas vai sagatavotas runas no Latvijas sabiedrisko mediju raidījumiem.
Latviešu valodas sintaktiski marķētais korpuss un Latviešu valodas universālo atkarību korpuss (kārtējā versija 2.15) – 19 367 sintaktiski marķēti teikumi, tostarp marķēti un korpusā iekļauti visi līdz šim pieejamie pasaules diktāti latviešu valodā. Meklēšanai LVTB pieejami vaicājumu paraugi, kas palīdz atrast nepieciešamo informāciju korpusā.
Latviešu senākie romāni (1879–1940) – vairāk nekā 450 latviešu romāni (30 miljoni vārdlietojumu), kas grāmatas formā pirmo reizi izdoti līdz 1940. gadam.

Citi jaunumi

LU MII top latviešu valodas rediģējumu korpuss “Norma”, kurā tiek marķēti labojumi, kas konstatēti, sastatot oriģināltekstu ar tā rediģēto versiju. Marķētos datus šajā korpusā var pārlūkot gan pēc labojumu tipiem, gan arī pēc konkrētiem vaicājumiem.
Iznākušas divas publikācijas, kurās aprakstītas Korpuss.lv izmantošanas iespējas:
Darģis, Roberts, Saulīte, Baiba. 2024. Korpuss.lv – a Versatile Platform for Digital Humanities.
Baltic Journal of Modern Computing, 12(4), 636–645;

Saulīte, Baiba, Auziņa, Ilze, Darģis, Roberts. 2023. Nacionālā korpusu kolekcija Korpuss.lv.
Linguistica Lettica, 31(1), 202–223.

Korpuss.lv marķēšanā izmantotais morfoloģijas modelis aprakstīts publikācijā:
Paikens, Pēteris, Pretkalniņa, Lauma, Rituma, Laura. 2024. A Computational Model of Latvian Morphology.
Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), 221–232.