Oleme Eesti Keele Instituudis palju kuulnud, et ei saada aru, mis on see keelekorpus, millest me pidevalt räägime. Olen ka ise mitmes oma säutsus keele- või tekstikorpust maininud. Mis imevigur see siis on ja milleks seda kasutatakse? Lühike vastus on, et korpus on suur eestikeelsete tekstide kogu, mis on kindlate põhimõtete järgi koostatud, ja seda läheb vaja keeleteadlasel, kes tahab uurida keelt sellisena, nagu seda kasutatakse.
Suurim elektrooniliste eestikeelsete tekstide kogu, mida on keeleuurijal tänapäeval võimalus kasutada, on eesti keele ühendkorpus. Selle sisu uuendatakse iga kahe aasta tagant ja veel tänavu valmib ka uus versioon. Senine, 2019. aasta korpus sisaldab 1,5 miljardit sõna. Järgmises versioonis on sõnu veelgi rohkem – ja mida rohkem on korpuses sõnu, seda paremini keel end uurijale näitab. Korpuses on väga erisugused tekstid, näiteks avalikud ajalehe- ja teadusartiklid, eestikeelse Vikipeedia artiklid, aga ka blogid, riigikogu stenogrammid ja palju muud. Korpuse abil saab keelt mitmekülgselt uurida, muu hulgas välja selgitada sõnade kasutussageduse, sõnade sagedasemad naabrid ehk kollokatsioonid, ka sünonüümid.
Tänu korpuseandmetele saab teadusuuringutes ja sõnaraamatut koostades toetuda tegeliku keelekasutuse andmetele, mitte üksnes omaenda sisetundele. Sest iga inimese keel on pisut eripärane, aga korpuseandmed annavad infot suurema hulga inimeste keelekasutuse kohta. Neid, kellel ei ole keelekorpuse uurimiseks mahti, aitab kirjutamisel keeleportaalis Sõnaveeb asuv EKI ühendsõnastik, mis on korpuse infole toetudes koostatud. Korpuseandmeid tõlgendab aga sõnaraamatu koostaja ehk keeleekspert, näiteks sõnade tähendusi ei saa korpusest automaatselt sõnastikku üle kanda. Niisiis saab keelekasutaja ühendsõnastikust oma valikutes ajakohast tuge.
Kokkuvõttes: keelekorpust ei pea kartma, see annab keelekasutuse kohta väärt infot!
Loe ka Margit Langemetsa, Kristina Koppeli, Jelena Kallase ja Arvi Tavasti artiklit "Sõnastikukogust keeleportaaliks", mis ilmus ajakirjas Keel ja Kirjandus, 2021, nr 8–9, lk 755–770.
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.