Eesti keele ühendkorpus on mahukaim eestikeelsete digitekstide kogu ning see on väärtuslik abiline keele uurimisel ja kirjeldamisel. Ühendkorpus sisaldab suurel määral veebist kogutud tekste. Sellest, mis tüüpi tekste veebis on, rääkisin ühes oma eelmises keelesäutsus. Nüüd räägin sellest, kuidas need tekstid veebist korpusesse saavad.
Tänapäeval ongi tekstide kogumise põhiallikas internet – seal leidub eritüübilisi kirjutisi palju, nende allalaadimine on kiire ja töötlemine hõlbus. Tekste kogub veebikratt, kes liigub mööda linke aina edasi, laadides neilt alla kõik tekstid. Enne nende lisamist korpusesse eemaldatakse näiteks mittetekstiline materjal (nagu pildid ja tabelid), ent ka identsed ning teistes keeltes kirjutatud, samuti masina loodud või masina abil tõlgitud tekstid.
Tekstide kogumist veebist takistab asjaolu, et paljud uudised on tasulised ning sotsiaalmeediakontod (näiteks Twitteris ja Facebookis) pole avalikud. Neile veebikratt sisse logimata ligi ei pääse, mis tähendab seda, et ta saab kätte vaid murdosa eesti keeles kirjutatud tekstidest. Kui kõik asutused kasutaksid kodulehtede asemel sotsiaalmeediat ning uudisteportaalid muudaksid kõik artiklid tasuliseks, muutuks korpuste kogumine oluliselt kulukamaks. Keel jõuaks muutuda kiiremini kui meie EKI-s korpuste sisu uuendada ning keelemuutusi sõnastikes kirjeldada. Veebist alla laadimise asemel tuleks tekstid esmalt sisse skaneerida, et need siis arvutiga töödeldavaks muuta. See aga aeglustaks tohutult tekstide jõudmist korpusesse.
Ühendkorpuse veelgi suurema mitmekesistamise heaks kutsun kõiki kuulajaid üles avaldama oma tekste avalikus veebis.
Loe ka Kristina Koppeli ja Jelena Kallase artiklit "Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu" Eesti Rakenduslingvistika Ühingu aastaraamatust, 2022, nr 18, lk 207−228
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.