Poolnaljatledes võib öelda, et praegusel ajal on A ja I meie a ja o. Nimelt räägitakse tehisintellektist ja selle arengutest iga päev, nii ka mina selles säutsus. Täpsemalt räägin ühest suurest keelemudelist, mida koos oma EKI kolleegidega küsitlesin.
Üldistatult võib öelda, et suured keelemudelid annavad oma vastuseid nii, et nad ennustavad iga järgmist sõna. Osadele mudelitele on nüüdseks sisse ehitatud ka mõtlemise funktsioon. See tähendab, et enne vastuse väljastamist arutleb ta enda sees – justnagu filosoof.
Meie küsitlesime Anthropicu suurt keelemudelit Claude 3.7 Sonnet, mille puhul saab mõtlemisfunktsiooni sisse ja välja lülitada. Vestlusroboti asemel lähenesime mudelile otse, nii põhines see vastates enda treeningandmetel ega teinud väliseid otsinguid, st see ei käinud n-ö guugeldamas. Näiteks ei läinud Claude kasutama EKI keeleportaali Sõnaveeb. Seda on oluline mainida, sest me tahtsime, et Claude peaks ennast eesti keele sõnaraamatu koostajaks ning määraks üksnes enda sees peituvate andmete põhjal meie poolt ette antud sõnade kohta, kas need esinevad pigem kõnekeelsetes või pigem neutraalsetes tekstides.
Nii Euroopa-ülesed uuringud kui ka meie oma Sõnaveebi kasutajauuring on näidanud, et sõnaraamatu puhul peetakse väga oluliseks sisu usaldusväärsust. Kas suure keelemudeli vastuseid saab aga usaldada? Claude'i arutluskäikudest leidsime me kõike: nii usutavaid pakkumisi kui ka pooleldi häid, aga pooleldi rappa minevaid ja ka suisa valeinfot sisaldavaid vastuseid. Näiteks sõna kriimsilm kohta ta küll teadis öelda, et see "on kasutusel eesti folklooris, muinasjuttudes, lastelauludes", kuid sinna otsa lisas ta jabura näite, et "Näiteks on lastelaul "Kes elab metsa sees", kus on sõnad "kriimsilm hundi näol"". No ei ole ju?
Samas aga näiteks sõna masinavärk kohta teadis ta öelda, et "Kuigi sõna ise on täiesti korrektne eesti keele sõna, on sellel teatud kõnekeelne alatoon" ja et "See ei ole väga ametlik või teaduslik termin, vaid pigem kujundlik väljend". See vastus paneb omakorda küsima, kas iga kujundlik väljendus või kõik üldkeele sõnad, mis ei ole terminid, on seepärast kohe kõnekeelsed sõnad… Näiteks fraas "kultuuritööstuse õlitatud masinavärk" võib esineda ka igati neutraalses ajakirjaartiklis.
Niisiis, kuigi Claude'i vastused eesti sõnade kohta olid isegi päris usutavad, tuleb vastuste suhtes säilitada kriitiline meel – eriti just eesti kultuurile omastes küsimustes.
Vt ka Eesti teadlaste loodud platvormi baromeeter.ai, kus saab hinnata, milline keelemudel tunneb eesti keelt ja kultuuri kõige paremini.
Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.