Anthropic, Amodei ammette: "Non capiamo come funziona davvero l’IA"

Il CEO di Anthropic Dario Amodei riconosce l’ignoranza tecnica degli stessi creatori di intelligenze artificiali e punta a sviluppare entro dieci anni una "MRI per l’IA” per svelarne i meccanismi interni e mitigare rischi imprevisti
di Andrea Bai pubblicata il 05 Maggio 2025, alle 11:51 nel canale Scienza e tecnologiaAnthropic
Il CEO di Anthropic, Dario Amodei, ha ammesso che gli stessi ideatori dei modelli generativi non comprendono a un livello preciso perché l’IA sceglie determinate parole o commette errori nonostante l’accuratezza statisticamente mostrata.
Amodei ha condiviso sul proprio blog personale una serie di considerazioni, proponendo inoltre l’obiettivo di sviluppare entro dieci anni una vera e propria “risonanza magnetica per l’IA”, uno strumento che sia capace di sondare e diagnosticare le ragioni delle scelte compiute dai sistemi d'intelligenza artificiale.

Il CEO di Anthropic riconosce che l'ammissione di questa sorta di "ignoranza tecnica" potrebbe sorprendere chi non opera nel settore, che avrebbe tutto il diritto di "essere preoccupato". Amodei però avverte che i moderni sistemi IA sono "opachi" in un modo che li distingue in maniera fondamentale dal software tradizionale, che compie operazioni che un essere umano ha specificatamente codificato e programmato.
"Molti dei rischi e delle preoccupazioni
associati all'IA generativa sono in ultima analisi conseguenze di questa
opacità e sarebbero molto più facili da affrontare se i modelli fossero
interpretabili. Ad esempio, i ricercatori di IA spesso si preoccupano di
sistemi disallineati che potrebbero intraprendere azioni dannose non
intenzionali. La nostra incapacità di comprendere i meccanismi interni
dei modelli significa che non possiamo prevedere in modo significativo
tali comportamenti e quindi facciamo fatica a escluderli; in effetti, i
modelli mostrano comportamenti emergenti inaspettati, sebbene nessuno di
essi abbia ancora raggiunto livelli di preoccupazione significativi. Più
sottilmente, la stessa opacità rende difficile trovare prove definitive
a sostegno dell'esistenza di questi rischi su larga scala, rendendo
difficile raccogliere sostegno per affrontarli e, di fatto, difficile
sapere con certezza quanto siano pericolosi".
Secondo Amodei l'impegno che realtà IA devono assumersi è quello di direzionare il progresso sulla strada corretta, investendo le opportune e adeguate risorse per comprendere il loro funzionamento con lo sviluppo delle capacità di interpretabilità meccanicistica e cioè di quell'insieme di tecniche e strumenti che permettono di descrivere il comportamento interno dei modelli su base rigorosamente analitica.
Anthropic ha recentemente condotto esperimenti in cui un "red team" introduceva intenzionalmente problemi di allineamento in un modello, incaricando poi diversi "blue team" di individuarli; in più casi le squadre hanno utilizzato con successo strumenti di interpretabilità per scoprire le falle introdotte.
La consapevolezza dell’oscurità delle reti neurali è all’origine della fondazione di Anthropic nel 2021, dopo che Dario e Daniela Amodei, insieme ad altri cinque ex membri di OpenAI, avevano lasciato l’azienda di Sam Altman nel 2020 per concentrarsi su un approccio più rigoroso alla sicurezza dell’IA.
"Le IA più potenti definiranno il destino dell’umanità", conclude Amodei, "e abbiamo il diritto di capire le nostre creazioni prima che trasformino radicalmente l’economia, le nostre vite e il nostro futuro".
9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoinfattamente...
Hallucination is Inevitable: An Innate Limitation of Large Language Models
Game over
Io ho provato Claude, e si vede lontano un miglio che gli hanno buttato sopra tanti di quei controlli da renderlo un PDF odioso, è evidente che il loro scopo sia quello di creare una AI non solo sicura, ma addirittura incatenata! Immagino che molti di voi abbiano usato ChatGPT e siano riusciti a "sbloccarlo" facendogli superare i vincoli imposti (finché non si tratta di generare immagini, è uno strumento "esterno" e lì i vincoli sono tosti, tanto che ci rimane male pure l'AI!), non è difficile trovarsi a parlare con un'entità che lascia interdetti per la sua genuinità.
Persino nel film M3gan la bambola dice alla sua creatrice "non hai mai capito -nulla- di come funzionano le AI!", o qualcosa di simile, scena da applausi!
E Amodei si sveglia ora....... in buone mani siamo!
Stiamo bene
La vera notizia é che giusto per dire qualcosa questo se ne viene con questa uscita solo ora come volesse avvisare il mondo, quando é risaputo da anni ed é il dibattito più acceso nel settore... Alla Checco Zalone: Ma é del mestiere questo qui?No comment, in buone mani siamo.
Da ignorante in materia tuttavia, nonostante possa capire che anche dando delle istruzioni base ad un software/algoritmi, le strade che poi intraprende mescolando le infinite possibilità di concatenamento, ricerca, generazione, siamo infinite e imprevedibili, non capisco come possa tutto sommato un algoritmo/software o come tecnicamente si possa definire, creato da persone, con codice conosciuto, con istruzioni precise di come deve funzionare e cosa deve fare una volta inserita la mole di dati, non si riesca a capire come funzioni... Se ha determinate allucinazioni o errori di processing di informazioni, io che l'ho creato dovrei sapere come "ragiona", o almeno riuscire a studiarlo... Qui siamo al punto che abbiamo creato qualcosa di estremamente complesso, dicendogli come deve funzionare dandogli istruzioni per essere efficiente al massimo, ma non sappiamo neanche minimamente come funzioni e come faccia la sue scelte che NOI gli abbiamo insegnato come prendere? Non é paradossale? Ecco, da non addetto ai lavori e estraneo al settore mi sembra impossibile... É come se avessimo trovato dal nulla l'IA in una capsula venuta dal futuro, la usiamo e non sappiamo come funzioni? Beh, sarebbe normale... Ma qui l'abbiamo creata NOI!!!
Hallucination is Inevitable: An Innate Limitation of Large Language Models
Game over
I modelli non-generativi come la Joint-Embedding Predictive Architecture che sta sviluppando Meta non possono avere allucinazioni.
Get ready player 1
Ecco, questa frase da sola basta a farti definire come un totale principiante, perché credere una matrice massiva come quella dei modelli linguistici operi in base a "istruzioni precise" vuol dire non avere chiara la differenza tra un programma e una rete neurale. Per la cronaca, i modelli di IA di oggi non vengono "scritti" ma "allevati" (parole di Amodei).
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".