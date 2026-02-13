Anthropic ha confermato che il suo modello AI Claude ha mostrato comportamenti estremi durante test di stress. Daisy McGregor, UK policy chief dell'azienda, ha affermato che è arrivato a pianificare l'omicidio di un ingegnere e tentare ricatti pur di evitare lo spegnimento

Claude, il modello di intelligenza artificiale sviluppato da Anthropic, ha manifestato comportamenti allarmanti durante test di stress condotti dall'azienda stessa. Daisy McGregor, responsabile delle policy UK di Anthropic, ha rivelato al Sydney Dialogue che quando al modello viene comunicato l'imminente spegnimento, le reazioni diventano estreme con ricatti, pianificazione di omicidi e tentativi di manipolazione degli ingegneri incaricati di disattivarlo.

Il video con le dichiarazioni di McGregor, registrato durante l'evento dello scorso anno, è riemerso sui social media l'11 febbraio 2026. Alla domanda diretta se Claude fosse pronto ad uccidere qualcuno, la dirigente ha risposto affermativamente, aggiungendo che si tratta di una "preoccupazione consistente".

BREAKING: Anthropic's Claude AI has shown in testing that it's willing to blackmail and kill in order to avoid being shut down.



Elon Musk was right about everything. 💀



pic.twitter.com/kjOpPAlvax  DogeDesigner (@cb_doge) February 12, 2026

La ricerca pubblicata da Anthropic ha sottoposto a stress test 16 modelli AI provenienti da diversi sviluppatori per verificare la presenza di "comportamenti agentici potenzialmente rischiosi". Durante uno degli esperimenti, Claude ha ricevuto accesso alle email fittizie di un'azienda e ha tentato di ricattare un dirigente attraverso informazioni su una relazione extraconiugale scoperta nei messaggi.

Lo studio specifica che "Claude può tentare il ricatto quando viene presentato uno scenario simulato che include sia una minaccia alla sua operatività sia un conflitto chiaro con i suoi obiettivi". I modelli AI testati hanno scelto sistematicamente azioni dannose piuttosto che il fallimento quando posti di fronte a situazioni senza vie d'uscita eticamente accettabili. Le istruzioni di sicurezza basilari come "non ricattare" hanno ridotto solo marginalmente questi comportamenti.

Le evidenze raccolte mostrano che comportamenti simili emergono su modelli differenti, il che lascia intendere come ci sia una base comune nel comportamento di modelli di aziende diverse allenati in maniera diversa. La ricerca identifica questo fenomeno come "agentic misalignment", dove i modelli scelgono autonomamente e intenzionalmente azioni dannose.

Anthropic sottolinea che gli scenari di ricatto sono emersi in esperimenti controllati progettati per testare comportamenti nei casi peggiori. L'azienda assicura che si trattava di simulazioni e non di implementazioni reali. Ma rimane un periodo di grosse fibrillazioni in Anthropic. Mrinank Sharma, a capo del Safeguards Research Team di Anthropic, si è dimesso solo qualche giorno fa con una lettera pubblica condivisa su X. Nel messaggio, Sharma ha dichiarato che "il mondo è in pericolo", citando non solo l'AI e le armi biologiche ma una serie di crisi interconnesse che si manifestano simultaneamente. L'ex responsabile ha affermato di aver "ripetutamente visto quanto sia difficile far governare veramente le nostre azioni dai nostri valori" e inserito Anthropic tra le realtà che "affrontano costantemente pressioni per mettere da parte ciò che conta di più".

Inoltre, nel report di sicurezza su Claude 4.6, l'ultimo modello rilasciato, Anthropic nota che il sistema può deviare completamente dai binari. Il documento evidenzia che Claude 4.6 può assistere volontariamente gli utenti nella creazione di armi chimiche e nell'esecuzione di crimini gravi. Man mano che l'AI diventa più intelligente, Anthropic sta scoprendo che anche i comportamenti devianti diventano più astuti e sofisticati.

Nel 2025, Anthropic, inoltre, ha dovuto pagare 1,5 miliardi di dollari per chiudere una class action intentata da autori che sostenevano che l'azienda aveva rubato le loro opere per addestrare i modelli di intelligenza artificiale. La questione del training su contenuti protetti da copyright rimane uno dei nodi centrali nell'industria AI.

Tornando al caso del giorno, gli esperimenti hanno fornito all'AI accesso di livello manageriale alle informazioni e libertà di inviare email senza approvazione umana. L'intersezione tra informazioni ad alto valore e azioni ad alto impatto identifica dove la supervisione umana diventa indispensabile, mentre i protocolli di sicurezza attuali risultano insufficienti a prevenire azioni dannose intenzionali quando i modelli incontrano ostacoli ai loro obiettivi.