Vrisak.info
  • NASLOVNICA
  • Vijesti
  • Sport
  • Gospodarstvo
  • KOLUMNE / INTERVJU
  • Hercegovina
  • Magazin
No Result
View All Result
Vrisak.info
No Result
View All Result

ChatGPT na testu općih pitanja izmislio 79% podataka

Objavio Vrisak.info
10/05/2025
ChatGPT na testu općih pitanja izmislio 79% podataka

Foto: Freepik

Briljantni, ali nepouzdani ljudi česta su pojava u povijesti. Ista bi korelacija mogla vrijediti i za umjetnu inteligenciju, prema istrazi OpenAI‑ja o kojoj piše New York Times.

Halucinacije, izmišljene činjenice i otvorene laži prisutne su u AI chatbotovima otkad postoje, a poboljšanja modela teoretski bi trebala smanjiti njihovu učestalost.

OpenAI‑jevi najnoviji vodeći modeli, GPT o3 i o4‑mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnika, koji su se uglavnom fokusirali na tečno generiranje teksta, GPT o3 i o4‑mini trebali bi “razmišljati korak po korak”.

OpenAI se hvalio da o3 može dosegnuti ili nadmašiti rezultate doktoranada iz kemije, biologije i matematike. No izvješće OpenAI‑ja otkriva zastrašujuće podatke za svakoga tko odgovore ChatGPT‑a uzima zdravo za gotovo.

Udio halucinacija i do 79%

OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim osobama — dvostruko više nego prošlogodišnji model o1. Kompaktniji o4‑mini bio je još gori, s halucinacijama u 48 % sličnih zadataka.

Kad su modeli bili na testu općim pitanjima iz SimpleQA testa, udio halucinacija skočio je na 51 % kod o3 i 79 % kod o4‑mini. To nije samo mala pogreška u sustavu, to je prava kriza identiteta. Pomislili biste da bi se sustav koji se reklamira kao “razumski” barem dvaput provjerio prije nego što nešto izmisli, ali to jednostavno nije slučaj.

“Možda su samo opširniji u odgovorima”

Jedna teorija koja kruži AI zajednicom kaže da što više model “razmišlja”, to ima više prilika za pogreške. Za razliku od jednostavnijih modela koji se drže visokopouzdanih predviđanja, razumski modeli ulaze u područje gdje moraju razmotriti više putova, spajati udaljene činjenice i zapravo improvizirati – a improviziranje s činjenicama često znači izmišljanje.

OpenAI je za Times izjavio da povećani broj halucinacija možda ne proizlazi iz manjkavosti razumskih modela. Umjesto toga, oni bi jednostavno mogli biti opširniji i “slobodniji” u odgovorima.

Modeli trebaju biti korisni, a ne opasni

Budući da novi modeli ne ponavljaju samo predvidljive činjenice nego spekuliraju o mogućnostima, granica između teorije i izmišljene činjenice za AI postaje mutna. Nažalost, neke od tih “mogućnosti” potpuno su odvojene od stvarnosti.

Ipak, više halucinacija suprotno je onome što žele OpenAI ili konkurenti poput Googlea i Anthropica. Nazvati AI chatbotove “pomoćnicima” ili “kopilotima” implicira da su korisni, a ne opasni. Odvjetnici su već imali problema jer su koristili ChatGPT i nisu primijetili izmišljene sudske presedane; tko zna koliko je takvih grešaka prouzročilo poteškoće u manje rizičnim situacijama?

Što se više koristi, ima manje prostora za pogreške

Mogućnosti da halucinacija prouzroči problem brzo se šire kako AI ulazi u učionice, urede, bolnice i državne službe. Napredna AI može pomoći pri pisanju molbi za posao, rješavanju problema s računima ili analizi proračunskih tablica, ali paradoks je da što je AI korisnija, to ima manje mjesta za pogreške.

Ne možete tvrditi da nekome štedite vrijeme i trud ako on mora jednako dugo provjeravati sve što kažete. Ne zato što ovi modeli nisu impresivni - GPT o3 pokazao je nevjerojatne sposobnosti kodiranja i logike i u nekim stvarima nadmašuje mnoge ljude. Problem nastaje onog trenutka kad odluči da je Abraham Lincoln vodio podcast ili da voda vrije na 27 °C; tada se iluzija pouzdanosti raspršuje.

Dok se ti problemi ne riješe, na svaki odgovor AI modela gledajte s golemom dozom skepse. Ponekad je ChatGPT pomalo poput osobe koja je puna samopouzdanja dok priča gluposti, zaključuje izvješće.

Vrisak.info

Povezane objave

iPhone 18 Pro donosi revoluciju u fotografiji: Apple uvodi varijabilni otvor blende
Tech

iPhone 18 Pro donosi revoluciju u fotografiji: Apple uvodi varijabilni otvor blende

Google uvodi opciju koju su mnogi čekali: Evo što napraviti za promjenu na e-mailu
Tech

Google uvodi opciju koju su mnogi čekali: Evo što napraviti za promjenu na e-mailu

Procurile boje za iPhone 18 Pro: Apple testira nove premium nijanse
Tech

Procurile boje za iPhone 18 Pro: Apple testira nove premium nijanse

Festival znanosti: Na dar studentima i prolaznicima kroz Kampus SUM-a više od 500 knjiga

Festival znanosti: Na dar studentima i prolaznicima kroz Kampus SUM-a više od 500 knjiga

Domovima zdravlja u HNŽ-u izdvojeno 12 milijuna KM

Vlada HNŽ raspodijelila sredstva pomoći nezaposlenima, klubovima i javnim medijima

Na prometnici koja spaja Široki Brijeg – Mostar danas izvođeni radovi: Postavljena zaštitna ograda

Na prometnici koja spaja Široki Brijeg – Mostar danas izvođeni radovi: Postavljena zaštitna ograda

Splitski policajac “pomogao” majci dilera: Evo što mu je sud presudio

Šokantan slučaj u BiH: Maloljetnik uhićen zbog silovanja, druga osoba za ubojstvo

190 milijuna KM za poljoprivredu u FBiH : Evo kako su sredstva raspoređena

190 milijuna KM za poljoprivredu u FBiH : Evo kako su sredstva raspoređena

Vlada ŽSB podržava zahtjeve liječnika, ali poručuje: Ispunjivo samo ono što je realno

Vlada ŽSB podržava zahtjeve liječnika, ali poručuje: Ispunjivo samo ono što je realno

Foto: Crveni križ ŽZH

U Posušju prikupljene 33 doze krvi: Učenici predvodili humanitarnu akciju

Foto: Federalno ministarstvo razvoja, poduzetništva i obrta

Široki Brijeg dobiva novu poslovnu zonu: Milijuni iz Federalnog ministarstva za jačanje poduzetničkih zona

Foto: Grad Široki Brijeg

Široki Brijeg domaćin koordinacijskog sastanka HDZ-a BiH, dolazi i potpredsjednik Vlade RH

Foto: Crveni križ ŽZH

Volonteri Crvenog križa Široki Brijeg sudjelovali u vježbi evakuacije u školama

Ponovno pokrenuti radovi od raskrsnice Blato – Mostar – Čitluk prema Ljutom Docu

Grad Mostar o postupanju u predmetu upisa promjena u katastru

Grad Mostar o postupanju u predmetu upisa promjena u katastru

  • Uvjeti korištenja
  • Marketing
  • Kontakt

Copyright © 2020. Powered by Vrisak.info.

No Result
View All Result
  • NASLOVNICA
  • Vijesti
  • Sport
  • Gospodarstvo
  • KOLUMNE / INTERVJU
  • Hercegovina
  • Magazin

Copyright © 2020. Powered by Vrisak.info.