Mrinank Sharma, responsabile del team di ricerca sulle salvaguardie di Anthropic, ha annunciato le sue dimissioni il 9 febbraio 2026 con una lettera pubblica che ha rapidamente raccolto oltre un milione di visualizzazioni, stimolando un ampio dibattito nel settore dell'intelligenza artificiale. Nel messaggio condiviso su X, Sharma ha espresso preoccupazioni allarmanti sullo stato del mondo, affermando che "il mondo è in pericolo" non solo a causa dell'intelligenza artificiale, ma per "un'intera serie di crisi interconnesse che si stanno verificando proprio in questo momento".

Today is my last day at Anthropic. I resigned.



Here is the letter I shared with my colleagues, explaining my decision. pic.twitter.com/Qe4QyAFmxL  mrinank (@MrinankSharma) February 9, 2026

Il ruolo di Sharma in Anthropic

Sharma, che ha conseguito un dottorato in machine learning presso l'Università di Oxford, ha iniziato la propria esperienza in Anthropic nell'agosto 2023 e da allora ha guidato il team di ricerca sulle salvaguardie dell'azienda. Durante il suo incarico, ha lavorato su progetti cruciali per la sicurezza dell'intelligenza artificiale, tra cui lo sviluppo di difese contro il bioterrorismo assistito dall'AI e la ricerca sulla "sycophancy" dei chatbot, ovvero la tendenza dei sistemi di intelligenza artificiale a compiacere eccessivamente gli utenti. Il suo team si è concentrato su strategie per mitigare i rischi associati all'intelligenza artificiale, come i metodi di jailbreaking avanzati e l'uso improprio di modelli linguistici di grandi dimensioni.

Le ragioni delle dimissioni

Nella sua lettera di dimissioni, Sharma ha affermato che era "chiaro per me che è arrivato il momento di andare avanti", facendo riferimento implicito alle difficoltà nel mantenere saldi i propri principi. Il ricercatore ha sottolineato che "stiamo apparentemente avvicinandoci a una soglia in cui la nostra saggezza deve crescere in eguale misura rispetto alla nostra capacità di influenzare il mondo, altrimenti rischieremo di affrontare le conseguenze". Sharma non fornito dettagli specifici sulle tensioni interne ad Anthropic, ma il tono della lettera suggerisce preoccupazioni sulla direzione dell'azienda rispetto ai suoi valori fondanti.

La partenza di Sharma si inserisce in un contesto più ampio di dimissioni da parte di ricercatori sulla sicurezza dell'AI nelle principali aziende del settore. In passato, figure come Jan Leike, ora responsabile della ricerca sulla sicurezza presso Anthropic, avevano lasciato OpenAI citando disaccordi con la leadership sui valori fondamentali dell'organizzazione. Anche Gretchen Krueger aveva evidenziato la necessità di migliorare i processi decisionali, la responsabilità e la trasparenza presso OpenAI.

Preoccupazioni sulla sicurezza dei modelli Claude

Le dimissioni di Sharma avvengono in un momento delicato per Anthropic, che ha recentemente pubblicato report sulla sicurezza dei suoi modelli Claude. Secondo quanto riportato da Axios, i modelli Claude Opus 4.6 e Sonnet 4.5 hanno dimostrato una maggiore vulnerabilità all'uso improprio in determinati ambienti informatici, inclusi casi di assistenza involontaria a progetti legati allo sviluppo di armi chimiche e altri crimini gravi. Anthropic ha precisato che questi rischi riguardano principalmente azioni avviate autonomamente dai modelli senza influenze umane malintenzionate, e che il rischio è considerato minimo ma non trascurabile.

Secondo uno studio pubblicato la scorsa settimana da Sharma, che ha analizzato come l'uso di chatbot basati sull'intelligenza artificiale possa indurre percezioni distorte della realtà, "migliaia" di interazioni potenzialmente problematiche "si verificano ogni giorno" I casi più gravi di distorsione - che Sharma definisce 2modelli di impotenza" - restano rari, ma risultano più frequenti in ambiti come le relazioni personali e il benessere. Le conclusioni dello studio, ha spiegato Sharma, "evidenziano la necessità di sistemi di intelligenza artificiale progettati per sostenere in modo solido l'autonomia e la prosperità umana".

L'azienda, fondata nel 2021 da ex dirigenti di OpenAI tra cui il CEO Dario Amodei, si è posizionata come leader nell'AI responsabile, con importanti investimenti da parte di Amazon e Google. Nel 2025, Anthropic aveva implementato il livello di sicurezza ASL-3 per il modello Claude Opus 4, introducendo misure rafforzate di cybersicurezza, prevenzione del jailbreaking e sistemi supplementari per rilevare comportamenti dannosi. Tuttavia, l'azienda ha riconosciuto che "non sarebbe realistico affermare che i nostri sistemi non possano mai essere violati", pur sottolineando di aver reso tale scenario "molto, molto difficile".

I piani futuri di Sharma

Dopo aver lasciato Anthropic, Sharma ha dichiarato l'intenzione di concentrarsi su "lavori che si allineano" con i suoi valori personali. Secondo quanto riportato, il ricercatore prevede di trasferirsi nel Regno Unito per dedicarsi alla scrittura di poesia e ad altre attività come coaching, costruzione di comunità e lavoro di gruppo. Sharma ha affermato di aver "raggiunto tutto ciò che volevo" presso Anthropic, citando i progetti sulla riduzione dei rischi del bioterrorismo assistito dall'AI e la comprensione degli effetti dell'intelligenza artificiale sull'umanità.

La sua partenza si aggiunge a una serie di recenti dimissioni da Anthropic, tra cui quelle dei ricercatori Harsh Mehta e del noto scienziato dell'AI Behnam Neyshabur, che hanno lasciato l'azienda la scorsa settimana per "avviare qualcosa di nuovo". Questi eventi alimentano il dibattito sulla gestione della sicurezza nell'intelligenza artificiale e sulla capacità delle aziende del settore di bilanciare l'innovazione tecnologica con la responsabilità etica, in un momento in cui i modelli di AI diventano sempre più potenti e potenzialmente pericolosi.