Vrisak.info
  • NASLOVNICA
  • Vijesti
  • Sport
  • Gospodarstvo
  • KOLUMNE / INTERVJU
  • Hercegovina
  • Magazin
No Result
View All Result
Vrisak.info
No Result
View All Result

ChatGPT na testu općih pitanja izmislio 79% podataka

Objavio Vrisak.info
10/05/2025
ChatGPT na testu općih pitanja izmislio 79% podataka

Foto: Freepik

Briljantni, ali nepouzdani ljudi česta su pojava u povijesti. Ista bi korelacija mogla vrijediti i za umjetnu inteligenciju, prema istrazi OpenAI‑ja o kojoj piše New York Times.

Halucinacije, izmišljene činjenice i otvorene laži prisutne su u AI chatbotovima otkad postoje, a poboljšanja modela teoretski bi trebala smanjiti njihovu učestalost.

OpenAI‑jevi najnoviji vodeći modeli, GPT o3 i o4‑mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnika, koji su se uglavnom fokusirali na tečno generiranje teksta, GPT o3 i o4‑mini trebali bi “razmišljati korak po korak”.

OpenAI se hvalio da o3 može dosegnuti ili nadmašiti rezultate doktoranada iz kemije, biologije i matematike. No izvješće OpenAI‑ja otkriva zastrašujuće podatke za svakoga tko odgovore ChatGPT‑a uzima zdravo za gotovo.

Udio halucinacija i do 79%

OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim osobama — dvostruko više nego prošlogodišnji model o1. Kompaktniji o4‑mini bio je još gori, s halucinacijama u 48 % sličnih zadataka.

Kad su modeli bili na testu općim pitanjima iz SimpleQA testa, udio halucinacija skočio je na 51 % kod o3 i 79 % kod o4‑mini. To nije samo mala pogreška u sustavu, to je prava kriza identiteta. Pomislili biste da bi se sustav koji se reklamira kao “razumski” barem dvaput provjerio prije nego što nešto izmisli, ali to jednostavno nije slučaj.

“Možda su samo opširniji u odgovorima”

Jedna teorija koja kruži AI zajednicom kaže da što više model “razmišlja”, to ima više prilika za pogreške. Za razliku od jednostavnijih modela koji se drže visokopouzdanih predviđanja, razumski modeli ulaze u područje gdje moraju razmotriti više putova, spajati udaljene činjenice i zapravo improvizirati – a improviziranje s činjenicama često znači izmišljanje.

OpenAI je za Times izjavio da povećani broj halucinacija možda ne proizlazi iz manjkavosti razumskih modela. Umjesto toga, oni bi jednostavno mogli biti opširniji i “slobodniji” u odgovorima.

Modeli trebaju biti korisni, a ne opasni

Budući da novi modeli ne ponavljaju samo predvidljive činjenice nego spekuliraju o mogućnostima, granica između teorije i izmišljene činjenice za AI postaje mutna. Nažalost, neke od tih “mogućnosti” potpuno su odvojene od stvarnosti.

Ipak, više halucinacija suprotno je onome što žele OpenAI ili konkurenti poput Googlea i Anthropica. Nazvati AI chatbotove “pomoćnicima” ili “kopilotima” implicira da su korisni, a ne opasni. Odvjetnici su već imali problema jer su koristili ChatGPT i nisu primijetili izmišljene sudske presedane; tko zna koliko je takvih grešaka prouzročilo poteškoće u manje rizičnim situacijama?

Što se više koristi, ima manje prostora za pogreške

Mogućnosti da halucinacija prouzroči problem brzo se šire kako AI ulazi u učionice, urede, bolnice i državne službe. Napredna AI može pomoći pri pisanju molbi za posao, rješavanju problema s računima ili analizi proračunskih tablica, ali paradoks je da što je AI korisnija, to ima manje mjesta za pogreške.

Ne možete tvrditi da nekome štedite vrijeme i trud ako on mora jednako dugo provjeravati sve što kažete. Ne zato što ovi modeli nisu impresivni - GPT o3 pokazao je nevjerojatne sposobnosti kodiranja i logike i u nekim stvarima nadmašuje mnoge ljude. Problem nastaje onog trenutka kad odluči da je Abraham Lincoln vodio podcast ili da voda vrije na 27 °C; tada se iluzija pouzdanosti raspršuje.

Dok se ti problemi ne riješe, na svaki odgovor AI modela gledajte s golemom dozom skepse. Ponekad je ChatGPT pomalo poput osobe koja je puna samopouzdanja dok priča gluposti, zaključuje izvješće.

Vrisak.info

Povezane objave

Evo zašto je nepristojno ljudima slati AI odgovore umjesto vlastitog mišljenja
Tech

ChatGPT savjeti: Kako optimizirati svoje upite za najbolje rezultate

Svi modeli iPhonea 17 dobit će napredni Samsungov zaslon
Tech

Good Lock pretvara vaš Galaxy u uređaj skrojen po vašim pravilima

Tech

Budući iPhone Pro modeli mogli bi dobiti pametne maskice

(VIDEO) Kaos u centru Banje Luke: Policajac napadnut tijekom službe

(VIDEO) Kaos u centru Banje Luke: Policajac napadnut tijekom službe

Ljubuški dekanat ugostio svećenike iz Kraljeve Sutjesk

Ljubuški dekanat ugostio svećenike iz Kraljeve Sutjesk

Ako pijete pivo, manje su šanse da ćete doživjeti preranu smrt

Snažan rast izvoza piva: Pivari najavili zajedničke mjere za jače tržište

Veleposlanik SR Njemačke Alfred Grannas posjetio Općinu Posušje

Veleposlanik SR Njemačke Alfred Grannas posjetio Općinu Posušje

Hercegovka se požalila kako je zbog vjerskih stavova masovno brišu s društvenih mreža

Hercegovka se požalila kako je zbog vjerskih stavova masovno brišu s društvenih mreža

Foto: DOŠ Široki Brijeg

Druga osnovna škola Široki Brijeg proslavila Svjetski dan djece

Stipe Šimić iz Gruda: Kad vidim kako je oženjenima, drago mi je da se nisam ženio

Stipe Šimić iz Gruda: Kad vidim kako je oženjenima, drago mi je da se nisam ženio

Foto: Crveni križ ŽZH

Treća akcija darivanja krvi u Grafotisku: Prikupljeno 18 doza doza krvi

Vlada ŽZH imenovala predsjednika UV DZ Široki Brijeg i proglasila 25. neradnim danom

Vlada ŽZH imenovala predsjednika UV DZ Široki Brijeg i proglasila 25. neradnim danom

Vlada ŽZH: Imenovano Upravno vijeće Službe za zapošljavanje

Vlada ŽZH: Imenovano Upravno vijeće Službe za zapošljavanje

Porezna uprava u ŽZH izrekla kazne u iznosu od 19.200 KM

Velika akcija Porezne uprave FBiH: Zapečaćeno je 17 objekata, izrečeno 409.800 KM kazne

22-godišnjakinja iz BiH osuđena zbog pružanja seksualnih usluga u Zadru

  • Uvjeti korištenja
  • Marketing
  • Kontakt

Copyright © 2020. Powered by Vrisak.info.

No Result
View All Result
  • NASLOVNICA
  • Vijesti
  • Sport
  • Gospodarstvo
  • KOLUMNE / INTERVJU
  • Hercegovina
  • Magazin

Copyright © 2020. Powered by Vrisak.info.