Räägin sellest, kas tehisaru tunneb eesti raamatuid.
Õigupoolest räägin tehisarust üsna kitsas mõttes, nimelt käsitlen suurte keelemudelite teadmisi eesti raamatutest. Suur keelemudel on näiteks USA tehisarufirma OpenAI loodud kuulus vestlusrobot ChatGPT.
Selle kohta aga, mida tehisaruga teha saab, liigub üsna palju müüte, nende seas see, justnagu saaks selle abil läbi lugeda terveid raamatuid või teha neist täiuslikke lühikokkuvõtteid.
Kas ChatGPT või teisted konkurendid teavad siis eesti raamatuid peast?
Lühike vastus on ei.
Esiteks, isegi kui välismaised arendajad tahaksid keelemudelisse salvestada näiteks kogu Anton Hansen Tammsaare loomingu ja lisaks veel miljoneid teisi eesti tüvi- ja uuemaid tekste, oleks see sama, mis üritada mahutada tervet raamatukogu tikutoosi. Sellist ambitsiooni õnneks või kahjuks tänastel keelemudelite arendajatel aga ei ole.
Teiseks, suured keelemudelid õpivad hästi ära peamiselt selle, mis sageli kordub. Seepärast võivad need osata perfektselt tsiteerida näiteks "Harry Potteri" tegelasi, keda on internetis sadu või tuhandeid kordi omakorda tsiteeritud. Seeläbi on keelemudel maailmakuulsate tegelaste ütlusi oma treeningandmetes väga palju kohanud. Ja mida palju korratakse, see jääb ju ka meil kergemini meelde.
Kuid eesti keele osakaal on mudelite treeningmaterjalis juba praegu nii tilluke, et meie kirjandusklassikat ei ole võimalik nendega sõna-sõnalt taastoota. Nii ei tea suured keelemudelid eriti midagi ka Viivi Luige või Jaan Krossi teostest.
Sellegipoolest on autorite skeptilisus arusaadav, sest suured keelemudelid kahtlemata teavad oma treeningmaterjali sisu, lihtsalt üldjuhul mitte terviklikult ja laiahaardeliselt.
Samas peavad mudelite arendajad pidevalt vaeva nägema ja kontrollima, et mudel ei toodaks pikemaid tekstilõike, mis võiks tuua kaasa autoriõiguste rikkumist levinumate teoste ja keelte puhul.
Kokkuvõttes võib öelda, et suured keelemudelid ei ole digitaalsed koopiamasinad, vaid hoopis mustrite õppijad.
Jah, näiteks ChatGPT suudab kirjutada Tammsaare stiilis, ilma et peaks "Tõde ja õigust" tervikuna läbi töötanud olema. Aga eesti raamatute põhjalikust tundmisest, tsiteerimisest ja faktitäpsusest on asi siiski veel väga kaugel.



































Kommentaarid
Alates 02.04.2020 kuvab ERR kommenteerija täisnime.