Palkittu tutkimus osoittaa suuret kielimallit jo niin vakuuttaviksi, että arvioijat erehtyivät pitämään niiden kyselyvastauksia jopa aidompina kuin ihmisten vastauksia. Tutkijat toteavat, että tulos kyseenalaistaa joukkoistettujen verkkokyselyjen luotettavuuden.
Suomen tekoälykeskus FCAI:n tutkijat valjastivat äskettäin suuret kielimallit, erityisesti GPT-3:n, tuottamaan avoimia vastauksia videopelien pelaajakokemuksia koskeviin kysymyksiin. Tutkimuksessa selvisi, että vastauksia arvioimaan rekrytoidut ihmiset pitivät tekoälyn luomia vastauksia usein jopa vakuuttavampina kuin oikeita vastauksia.
Tutkimus julkaistiin äskettäin arvostetussa koneiden ja ihmisten vuorovaikutusta käsittelevässä CHI 2023 -konferenssissa, ja se palkittiin siellä yhtenä parhaista tutkimusartikkeleista.
Suurten maksullisten joukkoistamisalustojen käyttäminen on vakiintunut tavaksi eri tutkimusaloilla, joilla tarvitaan paljon ihmisten tuottamia vastauksia. Esimerkiksi psykologian ja tietotekniikan tutkijat käyttävät Amazonin Mechanical Turkin kaltaisia alustoja tutkimuskyselyjen toteuttamiseen. Nyt julkaistu tutkimus osoittaa, että chat-tekoälyjen tuottamat keinotekoiset haastattelut voivat tarjota laajoille kyselyille ketterän vaihtoehdon erityisesti tutkimuksen alkuvaiheessa, koska niiden avulla voidaan testata tutkimusasetelmaa nopeasti ja edullisesti.
“Kielimallit eivät voi eivätkä saisi korvata oikeita osallistujia, mutta synteettisestä datasta voi olla hyötyä tutkimusideoiden alustavassa pallottelussa ja pilotoinnissa”, professori Perttu Hämäläinen Aalto-yliopistolta sanoo.
Tutkijat painottavatkin, että kaikki tekoälyn tuottamiin tietoihin perustuvat havainnot on vahvistettava myös todellisella datalla.
Tutkimustuloksen kääntöpuoli on, että joukkoistamisten käyttäminen tutkimuksessa voi tulla tiensä päähän.
“Nyt kun suuret kielimallit ovat niin helposti saatavilla, internetistä kerättyihin vastauksiin ei voi enää luottaa. Taloudelliset kannustimet voivat ajaa pahantahtoiset käyttäjät hyödyntämään botteja ja suuria kielimalleja laadukkaiden väärennettyjen vastausten tuottamiseen”, Hämäläinen sanoo.
“Saattaa olla aika luopua Mechanical Turkin kaltaisista alustoista todellisen datan keräämiseksi ja palata takaisin suorassa vuorovaikutuksessa vastaajien kanssa tehtäviin kyselyihin.”