Bonito lietošanas instrukcija

Meklēšana nemarķētā korpusā | Meklēšana marķētā korpusā: ledus, miljons-2.0m, timeklis-1.0 | Sintaktisko šablonu konstruēšana

 

Morfoloģiski nemarķētos korpusos (piem., miljons-1.0 un miljons-2.0) vaicājumus iespējams veikt tikai konkrētu vārdformu vai virspusēju vārdformu šablonu līmenī.

Neizmantojot šablonus, tiks atlasītas tikai tās konkordances rindiņas, kurās vārds parādās attiecīgajā locījumā (t.sk. daudznozīmīgie lietojumi).

Dubultklikšķis uz interesējošās konkordances rindiņas atvērs nedaudz plašāku kontekstu.

Lai iegūtu informāciju par atrasto vārdlietojumu avotiem vai citus teksta līmeņa metadatus, dodamies uz izvēlni Skatījums\Atsauces... vai nospiežam karsto taustiņu F4.

   

Izmantojot šablonus (regulārās izteiksmes) virspusēji, t.i., vārdformu, nevis morfoloģisko pazīmju līmenī, morfoloģisko analīzi iespējams simulēt, taču tas negarantē visu interesējošo vārdlietojumu atrašanu, kā arī bieži vien parādās rezultāti ar neatbilstošiem ierakstiem. Piemēram, lai atrastu "lapa" visos locījumos, varam izmantot vienkāršu šablonu: lap.+, kur . aizstāj jebkuru rakstzīmi, bet + norāda, ka "jebkurai" rakstzīmei jāparādās vienu vai vairākas reizes. Taču ar šādu vaicājumu tiks atrastas arī deminutīva formas, salikteņi u.c.

Ja tas nav iecerētais rezultāts, vaicājumu (šablonu) varam mēģināt precizēt: lap..?, norādot, ka virknītei lap seko jebkura rakstzīme un tai neobligāti vēl viena.
Taču nereti, lai iegūtu precīzu rezultātu, nākas konstruēt viltīgus un/vai neērtus šablonus vai pat šādus šablonus vispār nav iespējams līdz galam noformulēt.

Šādu "vienkāršo" meklēšanu var veikt arī jebkurā marķētā korpusā, taču..

Morfoloģiski marķētos korpusos (piem., ledus) vaicājumus ir iespējams veikt pēc būtības, veidojot uz morfoloģiskajām pazīmēm balstītus šablonus un/vai norādot pamatformas.

Piemēram, lai atrastu lietvārda "plāns" lietojumus dažādos locījumos, noteiktā pierakstā atliek norādīt tikai pamatformu: [lemma="plāns"]

Taču pat pamatforma ne vienmēr ir līdzeklis, lai iegūtu precīzu rezultātu. Šajā piemērā esam atraduši arī "plāns" homonīmus.
Lai konkordances rindiņās blakus vārdlietojumiem tiktu atainots morfoloģiskais marķējums, dodamies uz izvēlni Skatījums\Dimensijas... vai nospiežam karsto taustiņu F5.

   

Lai precizētu, ka mūs interesē "plāns" tikai kā lietvārds, jāpievieno papildu kritērijs, balstoties uz attiecīgajā korpusā izmantotajām morfoloģiskajām pazīmēm: [lemma="plāns" & tag="N.*"]
Šajā gadījumā šablonā pietiek norādīt tikai vārdšķiru (N); pārējās pazīmes nav svarīgas (.*, kur . apzīmē jebkuru pazīmes vērtību, bet * - nevienu, vienu vai vairākas, t.i., visas atlikušās pozīcijas).

Šablons var tikt līdzīgi ierobežots arī pēc citām pazīmēm, kā arī tikai pēc pazīmēm, nenorādot pamatformu.
Piemēram, lai atrastu visus ģenitīveņus, ievadām šādu vaicājumu: [tag="N.{3}G."], kur .{3} nozīmē, ka trīs secīgās pozīcijās pieļaujam jebkādas vērtības.

Meklējot automātiski marķētajā korpusā miljons-2.0m, vaicājumu pieraksts nedaudz atšķiras.

Atšķirības ir skaidrojamas ar to, ka korpusa marķēšana tika veikta pilnīgi automātiski, un morfoloģiski daudznozīmīgajām formām ir saglabāti visi tie analīzes varianti, kurus sintaktiskais analizators atzina par iespējamiem attiecīgajos konteksta fragmentos.

Piemēram, lai atrastu lietvārda "sniegs" lietojumus dažādos locījumos, pamatforma jānorāda šādi: [lemma=".*:sniegs_.*"]

Apskatot konkordances rindiņas, redzam, ka šajā vaicājumā iekļauti arī darbības vārda "sniegt" lietojumi. Par to varam pārliecināties, arī apskatot morfoloģisko marķējumu (dodamies uz izvēlni Skatījums\Dimensijas... vai nospiežam karsto taustiņu F5 un izvēlamies atainot dimensiju tag).

Redzams, ka dažos gadījumos vārdforma "sniegs" ir automātiski nomarķēta gan kā lietvārds, gan kā darbības vārds. Nekorektās rindiņas var iezīmēt ar peles kreiso taustiņu un izdzēst, izmantojot izvēlni Rediģēšana\Izmest iezīmētās rindiņas.

Lai līdzīgā gadījumā precizētu, ka mūs interesē, piemēram, lietvārda "sārts" viennozīmīgie lietojumi, jāpievieno papildu kritērijs, balstoties uz korpusā izmantotajām morfoloģiskajām pazīmēm: [lemma=".*:sārts_.*" & tag=".*:n.{5}_.*"]. Šajā gadījumā marķējuma šablonā pietiek norādīt tikai vārdšķiru (n); pārējo piecu pazīmju vērtības neierobežojam.

Vaicājuma šablons var tikt līdzīgi ierobežots arī pēc citām pazīmēm, kā arī tikai pēc morfoloģiskajām pazīmēm, nenorādot pamatformu. Piemēram, lai atrastu visus kārtas skaitļa vārdus, ievadām šādu vaicājumu: [tag=".*:mo.+_.*"] (pazīmju atšifrējumus sk. specifikācijā).

Manatee platforma nodrošina iespēju simulēt vaicājumus arī regulāru sintaktisku konstrukciju līmenī.

Piemēram, lai korpusā ledus meklētu savienojumus ar ģenitīvu, varam sākt ar šādu šablonu: [tag="N.*g."][lemma="galds"]

..bet pēc tam turpināt ar vispārīgāku šablonu: [tag="N.+g."][tag="A.+"]?[tag="N.+"]

Līdzīgi veicam vaicājumus arī korpusā miljons-2.0m. Nākamajā piemērā ir meklēti visi lietvārdi akuzatīvā, kas atrodas pa labi no darbības vārda "izraisīt": [lemma=".*:izraisīt_.*"][tag=".*:n...a._.*"], kur n apzīmē lietvārdu, . apzīmē neierobežotas vērtības nākamajās trīs pozīcijās (sugas vārds/īpašvārds, dzimte, skaitlis), a apzīmē akuzatīvu, bet pēdējais . - jebkuru deklināciju.

Savukārt, lai atrastu visus lietvārdus ģenitīvā, kas paskaidro kādu citu lietvārdu, un atļautu starp tiem arī īpašības vārdu, ievadām šādu vaicājumu: [tag=".*:n.+g._.*"][tag=".*:a.+_.*"]?[tag=".*:n.+_.*"]

Tie, kas ir gatavi eksperimentēt..

..var mēģināt izgūt interesantus datus no korpusa timeklis - Latvijas tīmekļa fragmenti, kurus ir izdevies automātiski nomarķēt, izmantojot SemTi-Kamols gramatisko analizatoru un morfoloģisko pazīmju specifikāciju. Taču jāpatur prātā, ka sintaktiskā analīze tikai daļēji ir palīdzējusi atrisināt morfoloģiskās daudznozīmības problēmas, tādēļ šajā eksperimentālajā korpusā morfoloģiskās pazīmes nereti ir izvēlētas nekorekti (katram vārdlietojumam ir paturēts tikai viens, nejauši izvēlēts, analīzes variants). Turklāt marķējums daļēji neatbilst laika gaitā uzlabotajai specifikācijai, kā arī vārdformas pagaidām nevar meklēt pēc lemmām; šīs abas problēmas tiks novērstas nākamajā tīmekļa korpusa versijā. Līdz ar to darbam ar tīmekļa korpusa pašreizējo versiju ir jāpieiet ļoti radoši un jāņem vērā, ka valodas datus analizējam kvantitatīvi, nevis kvalitatīvi.

Piemēram, lai mēģinātu noskaidrot, ko cilvēki Latvijā mēdz meklēt, varam sākt ar šādu vaicājumu: [word="meklē.*" & tag="vm.*"][tag="a...a.."]?[tag="n...a."] - verbs, kas sākas ar virknīti "meklē" plus lietvārds akuzatīvā; lietvārdu var paskaidrot īpašības vārds, bet ne obligāti.

Iepriekšminētais vaicājums atradīs arī verba lietojumus nenoteiksmē un divdabja formās. Lai no tā izvairītos, varam precizēt šablonu, norādot, ka verba pazīmju sarakstā, ceturtajā pozīcijā nedrīkst parādīties vērtības "n" (nenoteiksme) vai "p" (divdabis): [word="meklē.*" & tag="vm.[^np].*"][tag="a...a.."]?[tag="n...a."]

Citiem vārdiem sakot, pieņemsim, ka mūs interesē verba lietojumi tikai īstenības izteiksmē: [word="meklē.*" & tag="vm.i.*"][tag="a...a.."]?[tag="n...a."]

 

Detalizētāka dokumentācija ir pieejama angļu valodā.

Uzstādīšanas instrukcija

Uz sākumu