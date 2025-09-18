Secondo un recente studio firmato da tre ricercatori di OpenAI e da un professore del Georgia Tech, i modelli linguistici producono falsi contenuti perché valutati e premiati per indovinare piuttosto che ammettere l'incertezza. La soluzione proposta: cambiare i criteri di valutazione

Le allucinazioni generate dai modelli linguistici di intelligenza artificiale non sono casuali o accidentali, ma si tratta di un meccanismo di funzionamento legato al modo con cui i sistemi vengono addestrati e valutati. Lo conferma OpenAI in un documento pubblicato nei giorni scorsi che si propone proprio di spiegare come mai, in alcune situazioni, l'AI tende ad inventarsi informazioni invece di ammettere la propria ignoranza.

Il documento "Why Language Models Hallucinate", è firmato da tre ricercatori di OpenAI, assieme al professore di informatica Santosh Vempala del Georgia Institute of Technology ed evidenzia che "la maggioranza delle valutazioni premia i comportamenti allucinatori".

La causa principale di questi comportamenti risiede nel fatto che i modelli, sin dalla fase di pretraining, vengono istruiti a indovinare piuttosto che a riconoscere i propri limiti. Questo meccanismo porta i sistemi a restituire risposte convincenti, plausibili, ma non sempre e non necessariamente esatte, corrette e attendibili. Lesempio proposto dagli autori riguarda uno degli stessi ricercatori, Adam Tauman Kalai: quando si è chiesto a un modello la sua data di nascita, lIA ha fornito tre risposte errate, dimostrando che preferisce azzardare un risultato piuttosto che ammettere di non conoscere un'informazione.

Quando nella grande mole di dati utilizzata per laddestramento si trovano molte ripetizioni di pattern chiari, come ad esempio la corretta ortografia delle parole, il modello apprende dal numero elevato di esempi. Ma in assenza di regole generalizzabili - come nel caso delle date di compleanno, spesso presenti una sola volta nei dati raccolti - lIA tende a «tirare a indovinare». Nel paper si legge: «Il tasso di allucinazioni dopo il pretraining dovrebbe essere almeno pari alla porzione di fatti presenti una sola volta nel set di addestramento. Se, ad esempio, il 20% dei compleanni appare solo una volta, ci si aspetta che i modelli base allucinino almeno sul 20% di essi».

Ma non finisce qui: la fase di post-training, invece di azzerare il fenomeno, può addirittura peggiorarlo. «Molti benchmark per modelli linguistici ricalcano esami standardizzati, con metriche binarie di accuratezza o tasso di successo», osservano gli autori. Ottimizzare le performance su questi test incentiva lIA a non mostrare incertezza, perché le risposte esitanti vengono penalizzate, mentre le risposte decise ma errate possono favorire un punteggio complessivo maggiore. In questo modo si incentiva un comportamento di bluff che porta a generare contenuti inesatti ma convincenti. E' esattamente quanto avviene nel caso degli esami a scelta multipla, dove una risposta dubbia può essere considerata migliore di nessuna risposta. Gli autori osservano che la scelta casuale di opzioni plausibili può aumentare la probabilità di punteggio rispetto al non rispondere.

Secondo lo studio non basteranno, per ridurre le allucinazioni, nuovi benchmark progettati ad hoc: è necessario riformare le metriche attuali, modificando i sistemi di valutazione per premiare anche risposte come "Non lo so", piuttosto che penalizzarle. Così facendo si potrebbero riallineare gli incentivi e incoraggiare i modelli a comunicare lincertezza quando necessario. In teoria, precisa lo studio, un dataset privo di errori eliminerebbe il problema, ma data la mole immensa delle informazioni usate nelladdestramento una simile ipotesi è irrealistica. Una soluzione più concreta consiste nel far sì che i modelli dichiarino più spesso di non conoscere l'informazione. Secondo OpenAI, ChatGPT-5 sarebbe già stato addestrato per gestire meglio queste situazioni, anche se, come osservano gli stessi autori, resta possibile che produca «clamorose inesattezze».