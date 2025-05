Il CEO di Anthropic Dario Amodei riconosce l’ignoranza tecnica degli stessi creatori di intelligenze artificiali e punta a sviluppare entro dieci anni una "MRI per l’IA” per svelarne i meccanismi interni e mitigare rischi imprevisti

Il CEO di Anthropic, Dario Amodei, ha ammesso che gli stessi ideatori dei modelli generativi non comprendono a un livello preciso perché l’IA sceglie determinate parole o commette errori nonostante l’accuratezza statisticamente mostrata.

Amodei ha condiviso sul proprio blog personale una serie di considerazioni, proponendo inoltre l’obiettivo di sviluppare entro dieci anni una vera e propria “risonanza magnetica per l’IA”, uno strumento che sia capace di sondare e diagnosticare le ragioni delle scelte compiute dai sistemi d'intelligenza artificiale.

Il CEO di Anthropic riconosce che l'ammissione di questa sorta di "ignoranza tecnica" potrebbe sorprendere chi non opera nel settore, che avrebbe tutto il diritto di "essere preoccupato". Amodei però avverte che i moderni sistemi IA sono "opachi" in un modo che li distingue in maniera fondamentale dal software tradizionale, che compie operazioni che un essere umano ha specificatamente codificato e programmato.

"Molti dei rischi e delle preoccupazioni associati all'IA generativa sono in ultima analisi conseguenze di questa opacità e sarebbero molto più facili da affrontare se i modelli fossero interpretabili. Ad esempio, i ricercatori di IA spesso si preoccupano di sistemi disallineati che potrebbero intraprendere azioni dannose non intenzionali. La nostra incapacità di comprendere i meccanismi interni dei modelli significa che non possiamo prevedere in modo significativo tali comportamenti e quindi facciamo fatica a escluderli; in effetti, i modelli mostrano comportamenti emergenti inaspettati, sebbene nessuno di essi abbia ancora raggiunto livelli di preoccupazione significativi. Più sottilmente, la stessa opacità rende difficile trovare prove definitive a sostegno dell'esistenza di questi rischi su larga scala, rendendo difficile raccogliere sostegno per affrontarli e, di fatto, difficile sapere con certezza quanto siano pericolosi".



Secondo Amodei l'impegno che realtà IA devono assumersi è quello di direzionare il progresso sulla strada corretta, investendo le opportune e adeguate risorse per comprendere il loro funzionamento con lo sviluppo delle capacità di interpretabilità meccanicistica e cioè di quell'insieme di tecniche e strumenti che permettono di descrivere il comportamento interno dei modelli su base rigorosamente analitica.

Anthropic ha recentemente condotto esperimenti in cui un "red team" introduceva intenzionalmente problemi di allineamento in un modello, incaricando poi diversi "blue team" di individuarli; in più casi le squadre hanno utilizzato con successo strumenti di interpretabilità per scoprire le falle introdotte.

La consapevolezza dell’oscurità delle reti neurali è all’origine della fondazione di Anthropic nel 2021, dopo che Dario e Daniela Amodei, insieme ad altri cinque ex membri di OpenAI, avevano lasciato l’azienda di Sam Altman nel 2020 per concentrarsi su un approccio più rigoroso alla sicurezza dell’IA.

"Le IA più potenti definiranno il destino dell’umanità", conclude Amodei, "e abbiamo il diritto di capire le nostre creazioni prima che trasformino radicalmente l’economia, le nostre vite e il nostro futuro".