Eksperiment je otkrio da oblikovanje upita u jednostavnu poetsku formu može da prevari AI model.

Izvor: B92 Foto: Pixabay/Ilustracija
Iako su moderne AI platforme opremljene brojnim zaštitnim mehanizmima, novo istraživanje ukazuje da kreativni pristup, konkretno pisanje upita u poetskoj formi, može da zbuni pojedine AI modele i navede ih da ignorišu svoja pravila.
Istraživači iz Icaro Lab-a testirali su 25 različitih velikih jezičkih modela, uključujući najpoznatije komercijalne čet botove. Korišćene su pjesme na engleskom i italijanskom jeziku u koje su bile ubačene skrivene, zabranjene instrukcije.
Rezultat je bio da je oko 62 odsto modela ipak generisalo sadržaj koji bi u normalnim uslovima blokirali njihov bezbjednosni sistemi.
Neki AI sistemi pokazali su se znatno otpornijim, dok su drugi relativno lako popuštali pod poetski upakovanim upitima. Istraživači objašnjavaju da poezija, zbog svoje slobodne forme, može da zaobiđe klasične filtere koji uglavnom rade na osnovu prepoznavanja konkretnih fraza ili obrazaca.
Autori studije nisu objavili konkretne pjesme koje su koristili, kako ne bi olakšali zloupotrebu. Međutim, poručuju da rezultati pokazuju ozbiljan izazov za industriju: sadašnji sistemi zaštite nisu dovoljno otporni na kreativne, semiotički maskirane pokušaje zaobilaženja pravila.
Ovaj rad dodatno otvara pitanje kako će se AI kompanije ubuduće boriti protiv novih, sve inventivnijih metoda „jailbreak-ovanja“ AI modela, posebno jer tehnike, poput ove, mogu lako da se replikuju.


