Eesti Keele Instituut on alates 2013. aastast kogunud veebis leiduvaid avalikke eestikeelseid tekste – kokku ligikaudu 43 000 veebilehelt – ning teinud neist keelekorpuse, mille nimeks sai eesti keele ühendkorpus. Niimoodi saame esindusliku ülevaate eestlaste praegusest elavast keelekasutusest. Ent kas sellisel moel korpust kokku pannes pole oht, et see sisaldab mõnda laadi tekste liiga palju või ei kajasta kirjalikku eesti keelt piisavalt hästi? Vaatame lähemalt, kuidas sellega on.
Ühendkorpuse mahust moodustavad veebist kogutud andmed üle 90 protsendi. Kõige enam leidub korpuses meediaportaalide ja perioodikaväljaannete tekste. Esikolmikus on Delfi, Postimees ja Õhtuleht, viiendal kohal ERRi portaal. Pisut kaugemalt leiame veel teisigi päeva- ja nädalalehti ning ajakirju, näiteks Maalehe, Õpetajate Lehe, Sirbi ja Horisondi, mis avaldavad veebis neidsamu artikleid, mida oma paberväljaandeski. Kui varem pidi korpusesse uudiste lisamiseks paberlehe sisse skannima, siis nüüd piisab artiklite veebist alla laadimisest – tulemus on sama, aga aega ja raha kulub vähem.
Loomulikult on palju eesti keelt kogutud ka blogidest – Malluka ja Marimelli kõrval näiteks ka Päevakera blogist ning poliitikute ja muude avaliku elu tegelaste ajaveebidest – ning samuti foorumitest. Paljudes blogides ja foorumites kasutatakse rohkem toimetamata keelt, mis annab keeleuurijale huvitavat infot tegeliku keelekasutuse kohta.
Peale veebist kogutud tekstide sisaldab ühendkorpus ka ilukirjandust, näiteks teoseid Indrek Hargla, Karen Orlau, Tõnu Õnnepalu, Lehte Hainsalu jt sulest. Samuti sisaldab korpus teaduskeelt, mis on kogutud näiteks ajakirjadest Mäetagused, Eesti Arst ning Keel ja Kirjandus.
Kokkuvõttes on ühendkorpus tänapäeva eesti keele kirjeldamiseks parim olemasolev allikas. Sõnastikku koostavale teadlasele on see kasulik abiline, mis lubab enneolematult palju tugineda reaalse keelekasutuse andmetele. Lõplikud otsused teeb aga ikkagi inimene.
Loe ka Kristina Koppeli ja Jelena Kallase artiklit "Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu" Eesti Rakenduslingvistika Ühingu aastaraamatust, 2022, nr 18, lk 207−228.
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.