Istraživači umjetne inteligencije iz vodećih laboratorija upozoravaju da bi uskoro mogli izgubiti sposobnost razumijevanja naprednih modela za zaključivanje u AI sustavima.
U dokumentu o stajalištu objavljenom prošlog tjedna, 40 istraživača – uključujući stručnjake iz OpenAI-ja, Google DeepMinda, Anthropica i Mete – pozvalo je na dublje istraživanje lanca razmišljanja (engl. chain-of-thought, CoT) u AI modelima za zaključivanje. Među autorima se nalazi i Dan Hendrycks, savjetnik za sigurnost u xAI.
Proces lanca razmišljanja, prisutan u modelima poput OpenAI-jevog o1 i DeepSeekovog R1, omogućuje korisnicima i istraživačima da prate način na koji AI razmišlja ili zaključuje – pokazujući kako donosi odluke ili odgovore i pružajući određenu razinu transparentnosti u vezi s unutarnjim radom naprednih modela.
Istraživači tvrde da dopuštanje AI sustavima da razmišljaju na ljudskom jeziku predstavlja jedinstvenu priliku za sigurnost AI-ja, jer se može nadzirati njihova namjera za lošim ponašanjem. Međutim, upozoravaju da ne postoji jamstvo da će trenutna razina vidljivosti potrajati kako modeli budu napredovali, prenosi ICT Business.
U dokumentu se ističe kako stručnjaci još uvijek ne razumiju u potpunosti zašto ovi modeli koriste CoT niti koliko dugo će ga nastaviti koristiti. Autori pozivaju AI razvojne timove da pomno prate lance razmišljanja, sugerirajući da bi njihova sljedivost mogla poslužiti kao ugrađeni sigurnosni mehanizam.
“Poput svih poznatih metoda nadzora AI-ja, praćenje lanca razmišljanja nije savršeno i dopušta da neko loše ponašanje prođe neopaženo. Ipak, pokazuje potencijal i preporučujemo daljnja istraživanja o mogućnosti njegovog nadzora te ulaganje u CoT monitoring uz postojeće sigurnosne metode”, napisali su istraživači i dodali:
“CoT monitoring predstavlja vrijednu dopunu sigurnosnim mjerama za vrhunske AI sustave, pružajući rijedak uvid u to kako AI agenti donose odluke. No, ne postoji jamstvo da će se trenutna razina transparentnosti održati. Pozivamo istraživačku zajednicu i AI developere da iskoriste ovu mogućnost i istraže kako ju se može očuvati.”
Ovaj dokument poduprli su i vodeći stručnjaci, uključujući suosnivača OpenAI-ja Ilyu Sutskevera te jednog od kumova AI-ja Geoffreya Hintona.
AI modeli za zaključivanje posebna su vrsta modela umjetne inteligencije osmišljena kako bi simulirala ili replicirala ljudsko zaključivanje – poput sposobnosti donošenja zaključaka, donošenja odluka ili rješavanja problema temeljenih na informacijama, logici ili naučenim obrascima. Napredak u AI zaključivanju smatra se ključnim za daljnji razvoj umjetne inteligencije među velikim tehnološkim kompanijama, koje intenzivno ulažu u izgradnju i skaliranje ovih modela.
OpenAI je u rujnu 2024. javno predstavio pregled prvog AI modela za zaključivanje, o1, a konkurenti poput xAI-ja i Googlea ubrzo su slijedili njihov primjer.
Unatoč velikim pomacima u performansama tijekom protekle godine, AI laboratoriji još uvijek znaju iznenađujuće malo o tome kako se zaključivanje unutar ovih modela zaista odvija. Iako su izlazni rezultati poboljšani, unutarnji rad naprednih modela postaje sve neprozirniji, što izaziva zabrinutost vezano uz sigurnost i mogućnost nadzora.
Vrisak.info