o3 e o4-mini sono più inclini alle allucinazioni: inventano il doppio rispetto ai predecessori e OpenAI non sa perché

I nuovi modelli di intelligenza artificiale o3 e o4-mini di OpenAI, pur mostrando avanzate capacità di ragionamento e programmazione, registrano tassi di allucinazione sensibilmente superiori rispetto alle generazioni precedenti, sollevando interrogativi sulla loro affidabilità

di Andrea Bai pubblicata il 22 Aprile 2025, alle 12:21 nel canale Scienza e tecnologia
OpenAI

I modelli di intelligenza artificiale o3 e o4-mini recentemente presentati da OpenAI, stanno mostrando un comportamento che desta qualche preoccupazione, risultando maggiormente inclini ad incappare nelle cosiddette "allucinazioni" e cioè nella generazione di informazioni false o inventate, ma tali da apparire plausibili all'interno di un contesto.

Secondo i dati interni di OpenAI, sia o3 che o4-mini, progettati per ragionare in modo più approfondito prima di rispondere, producono più allucinazioni non solo rispetto ai modelli di ragionamento precedenti come o1, o1-mini e o3-mini, ma anche rispetto ai modelli tradizionali “non di ragionamento” come GPT-4o.

Il comportamento va ad invertire una tendenza che vedeva ogni nuova generazione ridurre progressivamente il fenomeno delle allucinazioni e al momento OpenAI non sembra essere in grado di spiegare con certezza le cause di questo peggioramento, limitandosi a sottolineare nei propri report tecnici che “sono necessarie ulteriori ricerche per comprendere perché le allucinazioni aumentano con la scalabilità dei modelli di ragionamento”.

E' stato il benchmark PersonQA, sviluppato dalla stessa OpenAI e utilizzato internamente per valutare la precisione delle conoscenze dei modelli sulle persone, ad evidenziare il problema: il modello o3 è incappato in allucinazioni nel 33% dei casi, circa il doppio rispetto ai predecessori o1 (16%) e o3-mini (14,8%). Ancora peggiore la performance di o4-mini, che ha raggiunto un tasso di allucinazione del 48%, ovvero quasi una risposta su due risulta inventata o errata.

Nonostante questi dati negativi, o3 si è distinto per una maggiore accuratezza complessiva rispetto a o1, ma con il rovescio della medaglia di produrre un maggior numero di affermazioni, sia corrette sia errate: “o3 tende a fare più affermazioni in generale, portando sia a più risposte accurate che a più risposte inesatte o allucinate”, si legge nel report tecnico di OpenAI.

Ci sono poi i riscontri di Transluce, un laboratorio indipendente di ricerca sull'IA, che mostrano come nel caso di o3 le allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.

Il tema delle allucinazioni nei modelli di intelligenza artificiale resta uno degli ostacoli più complessi e irrisolti del settore: se da un lato la capacità di generare contenuti originali può favorire la creatività, dall’altro rappresenta un rischio quando l'IA viene utilizzata in quei contesti che richiedono risposte affidabili e prive di errori.

OpenAI, attraverso il portavoce Niko Felix, ha dichiarato che “affrontare le allucinazioni in tutti i nostri modelli è un’area di ricerca continua e stiamo lavorando costantemente per migliorarne accuratezza e affidabilità”.

I migliori sconti su Amazon oggi

-3%

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

514.99 499.00€ Compra ora

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

-53%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

149.90 69.90€ Compra ora

CMF Phone 2 Pro svelato completamente da Nothing. 3 fotocamere ed un design unico

Omoda Jaecoo, non solo auto: il robot AiMOGA entra in servizio in concessionaria

Cfranco22 Aprile 2025, 13:47 #1

quasi una risposta su due risulta inventata o errata

le allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.

Sono sempre più umani

Mo4222 Aprile 2025, 14:16 #2

Ipotizzo sia un bias di training effettuato su contenuti a loro volta generati da IA. Ovviamente non stiamo parlando di contenuti verificati, ma molto probabilmente di dati sintetici basati su pattern inconsapevolmente allucinati (e per loro stessa natura, non verificabili).
Sembra ancora lontano il giorno in cui un'IA potrà comprendere autonomamente se quello che dice è una panzana oppure no.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

Recensione Sony Xperia 1 VII: lo smartphone per gli appassionati di fotografia Sony Xperia 1 VII propone un design sobrio e funzionale, con un comparto fotografico di ottimo livello caratterizzato da uno zoom continuo e prestazioni generali...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

o3 e o4-mini sono più inclini alle allucinazioni: inventano il doppio rispetto ai predecessori e OpenAI non sa perché

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

2 Commenti