Uporaba korpusov za raziskovanje slovenščine

4 years ago

Korpusi so ogromne elektronske zbirke besedil, ki jih vedno pogosteje uporabljamo za učenje, preverjanje pravilnega zapisa, iskanje pogostih vzorcev ali kot pomoč pri pisanju. Uporabni so tako za jezikoslovce, leksikografe in druge raziskovalce kot tudi splošne uporabnike, torej govorce slovenščine, ki bi radi določen izraz bolje raziskali. Za učitelje so lahko zelo uporaben vir za pripravo učnih gradiv, iskanje vzorčnih primerov ali preverjanje pogostosti rabe.

V nasprotju s slovarji, ki ponujajo pomen iztočnice, primere rabe in nekatere slovnične informacije, korpusi omogočajo vpogled v realno rabo jezika. Besedo ali izraz tako vidimo v kontekstu, raziščemo, v katerih besedilih, v okolici katerih besed ali v kakšni obliki se pogosto pojavlja. Ponujajo torej dodatno praktično predstavo o rabi jezika. Pomemben podatek pri iskanju po korpusih je število pojavitev; na ta način preverimo, kateri zapis ali oblika je prevladujoča.

Največji korpus za slovenščino je trenutno Gigafida 2.0, ki vsebuje več kot milijon besed, dostopen pa je na povezavi https://viri.cjvt.si/gigafida/. Iskanje po korpusu je zaradi uporabniku prijaznega vmesnika zelo enostavno, deluje pa na principu iskanja ključnih besed. V okence vpišemo besedo, besedno zvezo ali celotno poved, korpus pa nam vrne t. i. konkordance – to so izseki besedil, v katerih se iskani niz pojavlja v sredini. Na ta način lahko raziščemo, v kakšnih kontekstih se določena beseda najpogosteje uporablja. Besedila vključujejo tudi podatek o letu izida, viru in vrsti besedila, kar pomeni, da lahko zadetke filtriramo glede na želene lastnosti. Priporočamo ogled posnetka Sedem minut za Gigafido.

Ena glavnih prednosti korpusov je tudi v tem, da je velika večina oblikoslovno označenih. To pomeni, da so vsaki besedi pripisane slovnične lastnosti, na primer besedna vrsta, sklon, spol, število in podobno. To je posebej uporabno pri specifičnih jezikovnih zadregah, kjer nas na primer zanima, v katerem slonu ali s katerim predlogom se določena beseda najpogosteje pojavlja.

V ta namen je zelo uporaba funkcija »okolica«, ki omogoča iskanje besed, ki se pojavljajo v okolici naše iskane iztočnice. Če nas na primer zanima, ali se »odstotek« navadno »zviša«, »poviša« ali »poveča«, vpišemo iskani niz v okence, kliknemo »okolica« in dobimo seznam besed, ki se najpogosteje pojavljajo blizu iskane besede. To »okolico« lahko filtriramo glede na besedne vrste – v našem primeru bi nas torej zanimali glagoli.

Tretja uporabna funkcija je »seznam«, ki omogoča še naprednejše iskanje po korpusu. Uporabna je predvsem za iskanje besed s skupnim korenom, končnico ali predpono. Pri iskanju uporabljamo simbole, ki nadomeščajo črke v besedi. Tako bi na primer z iskalnim nizom »*pisati« dobili seznam vseh besed, ki se končajo s »pisati«, začnejo pa s poljubnim nizom črk, na primer »napisati«, »podpisati«, »zapisati« ipd.

Korpusi omogočajo še veliko več, pri raziskovanju jezika ne poznamo meja. Vsekakor pa so veliko bolj zanesljiv, uporaben in jezikoslovno podprt vir kot preprosto iskanje niza besed v spletnem brskalniku.

Pobrskajte po korpusu Gigafida 2.0 in preverite, kaj vse najdete v tej bogati zbirki besedil.

Lansiranje korpusa Gigafida 2.0 | Facebook