o3 e o4-mini sono più inclini alle allucinazioni: inventano il doppio rispetto ai predecessori e OpenAI non sa perché
I nuovi modelli di intelligenza artificiale o3 e o4-mini di OpenAI, pur mostrando avanzate capacità di ragionamento e programmazione, registrano tassi di allucinazione sensibilmente superiori rispetto alle generazioni precedenti, sollevando interrogativi sulla loro affidabilità
di Andrea Bai pubblicata il 22 Aprile 2025, alle 12:21 nel canale Scienza e tecnologiaOpenAI
I modelli di intelligenza artificiale o3 e o4-mini recentemente presentati da OpenAI, stanno mostrando un comportamento che desta qualche preoccupazione, risultando maggiormente inclini ad incappare nelle cosiddette "allucinazioni" e cioè nella generazione di informazioni false o inventate, ma tali da apparire plausibili all'interno di un contesto.
Secondo i dati interni di OpenAI, sia o3 che o4-mini, progettati per ragionare in modo più approfondito prima di rispondere, producono più allucinazioni non solo rispetto ai modelli di ragionamento precedenti come o1, o1-mini e o3-mini, ma anche rispetto ai modelli tradizionali “non di ragionamento” come GPT-4o.
Il comportamento va ad invertire una tendenza che vedeva ogni nuova generazione ridurre progressivamente il fenomeno delle allucinazioni e al momento OpenAI non sembra essere in grado di spiegare con certezza le cause di questo peggioramento, limitandosi a sottolineare nei propri report tecnici che “sono necessarie ulteriori ricerche per comprendere perché le allucinazioni aumentano con la scalabilità dei modelli di ragionamento”.

E' stato il benchmark PersonQA, sviluppato dalla stessa OpenAI e utilizzato internamente per valutare la precisione delle conoscenze dei modelli sulle persone, ad evidenziare il problema: il modello o3 è incappato in allucinazioni nel 33% dei casi, circa il doppio rispetto ai predecessori o1 (16%) e o3-mini (14,8%). Ancora peggiore la performance di o4-mini, che ha raggiunto un tasso di allucinazione del 48%, ovvero quasi una risposta su due risulta inventata o errata.
Nonostante questi dati negativi, o3 si è distinto per una maggiore accuratezza complessiva rispetto a o1, ma con il rovescio della medaglia di produrre un maggior numero di affermazioni, sia corrette sia errate: “o3 tende a fare più affermazioni in generale, portando sia a più risposte accurate che a più risposte inesatte o allucinate”, si legge nel report tecnico di OpenAI.
Ci sono poi i riscontri di Transluce, un laboratorio indipendente di ricerca sull'IA, che mostrano come nel caso di o3 le allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.
Il tema delle allucinazioni nei modelli di intelligenza artificiale resta uno degli ostacoli più complessi e irrisolti del settore: se da un lato la capacità di generare contenuti originali può favorire la creatività, dall’altro rappresenta un rischio quando l'IA viene utilizzata in quei contesti che richiedono risposte affidabili e prive di errori.
OpenAI, attraverso il portavoce Niko Felix, ha dichiarato che “affrontare le allucinazioni in tutti i nostri modelli è un’area di ricerca continua e stiamo lavorando costantemente per migliorarne accuratezza e affidabilità”.










PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è
Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
L'AI agentica potrebbe trasformare Internet: il settore della pubblicità online è a rischio?
Qualcomm lancerà due chip per smartphone Android a 2 nm nel 2026: ecco le possibili differenze
Xiaomi dà i numeri: ecco come è andato il 2025 dell'azienda tra smartphone, tablet, accessori e auto elettriche
AMD annuncia Ryzen 9 9950X3D2 Dual Edition: primo Zen 5 con doppio 3D V-Cache e TDP a 200W
CyrusOne avvia la costruzione del suo primo data center in Italia, a Milano
Cloud in crescita, ma l’adozione dell’IA resta lenta. L’identikit delle PMI italiane secondo Wolters Kluwer Italia
OpenAI cancella l'adult mode di ChatGPT: il riassetto strategico miete un'altra vittima
Google Search Live arriva in Italia: la ricerca ora ci vede e ci parla
MacBook Air 15'' con chip M4 (2025) crolla su Amazon: il prezzo che stavamo cercando è finalmente realtà
Ora è possibile trasferire file tra Samsung e Apple con AirDrop e Quick Share. Ecco come fare
Apple domina con il MacBook Neo: i laptop Windows faticano a tenere il passo
Arriva la nuova gamma di PC Dell Pro per utenti aziendali: nuovi notebook, desktop e workstation portatili
DJI Avata 360: la recensione del primo drone FPV 8K con sensori da 1 pollice
Il browser di Samsung arriva su Windows, ma in Italia non c'è l'IA agentica









2 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infole allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.
Sono sempre più umani
Sembra ancora lontano il giorno in cui un'IA potrà comprendere autonomamente se quello che dice è una panzana oppure no.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".