Räägin uusimast eesti keele ühendkorpusest. Korpused ehk suured tekstikogud on keeleteadlastele suureks abiks niihästi keele uurimisel kui ka uute sõnastike koostamisel. Ja eesti keele uusim korpus sisaldab ligi neli miljardit tekstisõna, mille seas on miljoneid lemmasid ehk sõnastikusõnu. Mõtisklegem, mida see õieti tähendab.
Ühes keskmise suurusega juturaamatus on ligi 63 000 sõna. Kui asetaksime selle juturaamatu meie keelekorpuse taustale, saaksime selliseid juturaamatuid umbes sama palju eksemplare, kui palju on ühes raamatus sõnu. Ehk siis samuti 63 000. Kui lugeda iga päev läbi ühe raamatu jagu teksti, kuluks ühel inimesel kogu selle tekstikogu läbilugemiseks 173 aastat.
Kui aga vaatame, kui palju on nende miljardite tekstisõnade seas päriselt erinevaid sõnu, peaksime läbi vaatama ligi 20 miljonit sõna. Ja selle peale kuluks juba vähem kui aasta jagu lugemist: selliseid sõnu on kõigest 318 raamatu jagu. Tõsi küll, päris nii lihtsalt see lugemine ei läheks, sest meile meeldib lugeda lauseid, mitte lihtsalt suvalisi sõnu. Küll aga võiksime tunda rõõmu selle üle, et iga vähimgi sõna nendes 318 raamatus on uus ja esmakordne.
Selliste lugemiseksperimentide järel peaksime tõdema Andrus Kivirähki teosest "Maailma otsas" tuttava Vooremäe kombel, et elamus oli haruldane, saime nutta ja naerda. Ja naerda saaksime päris tõsimeeli, kui oleksime leidlikud ja moodustaksime nende kahekümne miljoni hulgast valitud sõna abil näiteks lause Ülimammutlikku õnneministrit haaras armastusehõllandus, kui ta mõtteisse vupsus ringikolav unenäo-mina. Tõsi küll, need laused tuleb meil siiski igaühel endil kokku panna. Võimalusi on meil selleks kõigil küllaga.
Soovin teilegi toredaid avastusi lummavate sõnaleidude hurmaval teekonnal!
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.