Räägin Sõnaveebis olevatest veebilausetest.
Tänapäeval on sõnastike koostamine jõudnud juba niikaugele, et arvuti teeb osa tööst inimese eest ära. Näiteks saab elektroonilisest tekstide kogust ehk keelekorpusest automaatselt tuvastada sünonüüme, naabersõnu, võõrkeelseid vasteid ning näitelauseid. Sõnaveebis kuvatavad veebilaused ongi just sellised arvuti poolt automaatselt valitud näited, mis illustreerivad seda, kuidas me päriselt kirjutame ja räägime. Praegusajal näidataksegi veebilauseid paljudes keeleallikates, peale Sõnaveebi ka näiteks inglise sõnastikes Collins Dictionary, Merriam-Webster Dictionary ja Longman Dictionary of Contemporary English.
Sõnaveebis kuvatavad veebilaused pärinevad erinevatest meedia- ja teadusartiklitest, ilukirjandusest, eestikeelsest Wikipediast, aga ka blogi- ja foorumipostitustest. Veebilaused on valitud spetsiaalse programmi abil, mis hindab lause vastamist etteantud hea näitelause reeglitele. Need reeglid ütlevad kasvõi näiteks seda, et lause peab algama suure tähega ja lõppema lauselõpumärgiga.
Kuna veebilauseid valib arvuti, mitte inimene, siis võib näidete hulka sattuda ka ebatäpsusi või vigaseid lauseid. Näiteks ei oska arvuti vahet teha homonüümidel ehk sama kirjapildi, kuid erineva tähendustega sõnadel (nt tamm : tamme ja tamm : tammi), ning sama sõna erinevatel tähendustel (näiteks kuvatakse sõna leht juures nii ajalehe kui puulehe veebilauseid). Teame EKI-s, et veebilausete kvaliteediga on arenguruumi ning me tegeleme sellega tasapisi. Sellegipoolest on veebilausetest palju kasu eriti sõnade puhul, kuhu sõnastiku koostaja pole käsitsi näitelauset valida jõudnud – selliseid on EKI ühendsõnastikus umbes kolmandik. Tänu veebilausetele on aga paljude näidetega kaetud pea kõik sõnad.
Loe ka Kristina Koppeli doktoritööd "Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele", mille ta kaitses Tartu Ülikoolis 2020. aastal.
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.