Sõnastike koostamine ehk leksikograafia on paarikümne aastaga liikunud aina elektroonilisemate meetodite suunas. Sõnastikke koostatakse spetsiaalsetes veebipõhistes programmides ehk sõnastikusüsteemides ja keeleallikana kasutatakse mahukaid elektroonilisi tekstikogusid ehk korpusi. Elektroonilise leksikograafia arenguga on meile jõudnud mitmed töövahendid, mis aitavad korpusest automaatselt tuvastada ja otse sõnastikusüsteemi üle kanda eri tüüpi infot, mida sõnastiku koostaja seal siis järeltoimetab.
Nii on koostatud näiteks naabersõnade ehk sageli koos esinevate sõnade infokiht EKI ühendsõnastikus. Selleks tuvastasime korpusest esmalt 10 000 kõige sagedasemat eesti keele sõna, mille koos naabersõnade ja nende näidetega otse sõnastikusüsteemi kandsime. Sõnastiku koostajate töö oli automaatselt loodud sisu järeltoimetada ehk seda puhastada ja täiendada.
Sarnasel meetodil koostame EKI ühendsõnastikus praegu sünonüümide infokihti. Võimalikud sünonüümikandidaadid tuvastasime olemasolevate sõnastike kõrval korpusest sarnase konteksti alusel. Nende kandidaatide seast valivad sõnastiku koostajad välja sobivad, mille siis tähenduste külge lisavad.
Peatselt alustame ka inglise vastete lisamisega. Needki oleme automaatselt tuvastanud rööpkorpusest, kus ingliskeelsed originaaltekstid on joondatud eestikeelsete tõlgetega.
Niimoodi poolautomaatselt valmivad paljud tänapäeva sõnastikud, EKI ühendsõnastiku eri infokihtide kõrval näiteks ka sloveeni keele tesaurus ja naabersõnade sõnastik, suur hollandi keele sõnaraamat ja Macmillani naabersõnade sõnastik inglise keele õppijatele. Sõnastike koostamine on aga nii peen töö, et seda masinad inimeste eest kindlasti ära tegema ei hakka. Küll aga lubavad uued tehnoloogiad säästa meeletult palju keeleteadlaste aega.
Loe ka Jelena Kallase, Kristina Koppeli ja Maria Tuuliku artiklit "Korpusleksikograafia uued võimalused eesti keele kollokatsioonisõnastiku näitel" Eesti Rakenduslingvistika Ühingu aastaraamatust, 2015, nr 11, lk 75−94.
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.