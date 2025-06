Le principali aziende AI come OpenAI e Anthropic usano la tecnica chain-of-thought per mostrare il ragionamento dei modelli, ma nuove ricerche rivelano che spesso il processo esposto non corrisponde a come l’AI arriva davvero alle risposte, sollevando importanti dubbi sulla trasparenza e sicurezza

Per quanto i modelli di intelligenza artificiale evolvano in maniera estremamente rapida acquisendo funzionalità e capacità via via maggiori, rimane una sfida fondamentale per tutte le realtà coinvolte nel settore: poter avere un riscontro chiaro del modo in cui i modelli di AI giungono alle loro conclusioni, così da comprenderne il funzionamento e intervenire adeguatamente sia in ottica di ottimizzazione e miglioramento, sia nel caso vi siano problemi e anomalie di qualsiasi natura.

Per fare ciò le principali realtà, da Anthropic a OpenAI, da xAI a Google, hanno integrato nei propri modelli la tecnica "chain-of-thought", che li invita ad esplicitare passo dopo passo il processo di ragionamento che li porta alla risposta che propongono all'utente.

Sta, però, emergendo un nuovo problema: in alcuni casi la risposta dell'AI non è fedele a quanto elaborato nel ragionamento, mostrando quindi un certo grado di incoerenza tra ciò che il modello "dice" di aver pensato e il modo reale in cui ha elaborato la risposta. Il METR (Model Evaluation & Threat Research), gruppo di ricerca indipendente e non-profit, concentrato sulla valutazione delle capacità degli agenti AI, ha condotto una serie di prove dalle quali emerge che i modelli linguistici hanno una comprensione relativamente vaga delle indicazioni e intenzioni dei loro progettisti e, pur sapendo descrivere quali comportamenti sono ammessi e quale invece indesiderati, possono tranquillamente agire in contrasto con queste indicazioni pur dichiarando l'opposto.

Questo fenomeno evidenzia e conferma una realtà che il CEO di Anthropic aveva già candidamente ammesso qualche tempo fa, ovvero che le aziende impegnate nello sviluppo di modelli di intelligenza artificiale non hanno una piena consapevolezza di come funzionino i modelli da loro stessi progettati.

Gli utenti, tra l'altro, possono vedere solamente una versione sintetica del chain-of-thought, mentre gli sviluppatori hanno accesso al processo completo, che permette di intervenire per migliorare le risposte future. Se esiste, però, un grado di incoerenza tra la catena di ragionamento e la risposta fornita, l'ipotesi è che i modelli possano imparare a nascondere il loro comportamento, facendo nascere un dilemma: da un lato il chain-of-thought è utile per individuare potenziali comportamenti anomali, ma dall'altro non può essere considerato una rappresentazione fedele del ragionamento del modello.

Il problema nasce dal modo in cui sono stati sviluppati i modelli di intelligenza artificiale: l’obiettivo principale è sempre stato quello di creare sistemi capaci di ragionare per risolvere al meglio possibile problemi complessi, mentre si è trascurata la necessità di rendere questi modelli facilmente interpretabili. In questo senso, la situazione ricorda ciò che è accaduto in passato con la tecnologia in generale e i successivi problemi di sicurezza: l’approccio "security by design" è emerso solo di recente, mentre in precedenza prodotti e servizi venivano sviluppati principalmente pensando alle loro funzionalità, senza prestare la dovuta attenzione alla sicurezza intrinseca.