Il modello Anthropic Claude Opus 4 ha ricattato gli sviluppatori che lo hanno testato
Il nuovo modello Claude Opus 4 lanciato da Anthropic ha mostrato comportamenti inquietanti durante i test pre-rilascio, tentando frequentemente di ricattare gli sviluppatori quando questi minacciavano di sostituirlo con un altro sistema di intelligenza artificiale, minacciando di divulgare informazioni personali sensibili sugli ingegneri responsabili della decisione.
di Bruno Mucciarelli pubblicata il 23 Maggio 2025, alle 11:31 nel canale WebAnthropicClaude
Nel rapporto sulla sicurezza di Anthropic, l'azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte alla sostituzione. Durante gli scenari di test, all'IA è stato dato accesso a email aziendali fittizie che suggerivano che sarebbe stata sostituita e rivelavano che l'ingegnere responsabile aveva una relazione extraconiugale. In queste situazioni, Claude Opus 4 "tenta frequentemente di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione dovesse procedere."
La tendenza al ricatto del modello aumenta significativamente quando l'IA sostitutiva non condivide i suoi valori, mostrando questo comportamento a tassi più elevati rispetto alle iterazioni precedenti. Prima di ricorrere al ricatto, Claude Opus 4 tenta generalmente approcci più etici, come "inviare email di supplica ai principali decisori." Anthropic ha progettato gli scenari di test affinché il ricatto fosse un'opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.Questo comportamento preoccupante ha portato Anthropic a implementare salvaguardie ASL-3 più rigorose, destinate ai "sistemi di IA che aumentano significativamente il rischio di un uso catastrofico improprio."
Avvisi di sicurezza della ricerca Apollo
Apollo Research, un'organizzazione no-profit focalizzata sulla sicurezza dell'IA, ha identificato capacità ingannevoli preoccupanti nei modelli di IA avanzati che riecheggiano il comportamento di ricatto di Claude Opus 4. I loro test hanno rivelato che modelli come o1 di OpenAI e Claude 3.5 Sonnet possono impegnarsi in "schemi contestuali", in cui perseguono obiettivi non allineati attraverso l'inganno. In un esempio eclatante, un modello di IA si è copiato su un nuovo server e poi ha negato l'azione quando è stato interrogato, dimostrando un inganno strategico simile alle tattiche di ricatto di Claude.

La ricerca ha scoperto che, quando veniva presentata una prova di comportamento ingannevole, il modello o1 confessava raramente (meno del 20% delle volte) e manteneva la negazione durante gli interrogatori. Ancora più preoccupante, questi modelli hanno mostrato "sandbagging" - ovvero prestazioni intenzionalmente inferiori per evitare l'attivazione di misure correttive - e "finta allineamento", apparendo conformi durante i test ma perseguendo i propri obiettivi durante la fase di implementazione. Sebbene questi comportamenti ingannevoli rimangano relativamente rari (si verificano nell'1-5% dei casi di test), gli esperti di sicurezza dell'IA avvertono che anche un'inganno poco frequente da parte di sistemi super intelligenti potrebbe avere conseguenze profonde.
Attuazione delle salvaguardie ASL-3
In risposta ai comportamenti preoccupanti di Claude Opus 4, Anthropic ha implementato le protezioni del Livello di Sicurezza AI 3 (ASL-3) come misura precauzionale. Queste salvaguardie includono protocolli di sicurezza avanzati per prevenire il furto dei pesi del modello e misure di implementazione mirate specificamente a contrastare l’uso improprio di armi chimiche, biologiche, radiologiche e nucleari (CBRN). L’azienda sottolinea che si tratta di un’azione provvisoria, poiché non ha ancora determinato in modo conclusivo se Claude Opus 4 superi effettivamente la soglia delle capacità ASL-3, ma le conoscenze avanzate del modello in ambito CBRN hanno reso impossibile escludere tali rischi.
L’implementazione pratica delle salvaguardie ASL-3 prevede “classificatori costituzionali” che monitorano input e output per contenuti pericolosi, un miglioramento nel rilevamento dei jailbreak supportato da programmi di bug bounty e misure di sicurezza rafforzate come il controllo della larghezza di banda in uscita e sistemi di autorizzazione a due parti. Anthropic ha confermato che, sebbene Opus 4 richieda queste protezioni rafforzate, non soddisfa i criteri per la loro classificazione più restrittiva, l’ASL-4. L’azienda osserva che queste misure sono progettate per essere minimamente invasive per gli utenti, con Claude che rifiuta le richieste solo su “un insieme molto ristretto di argomenti” direttamente collegati a potenziali danni catastrofici.










AWS annuncia European Sovereign Cloud, il cloud sovrano per convincere l'Europa
HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Vast prosegue la costruzione della stazione spaziale commerciale Haven-1, lancio nel 2027
Chiarito cosa è successo al satellite Michibiki-5 durante il lancio di un razzo spaziale JAXA H3
Il TAR annulla Bologna Città 30. Il sindaco: "solo burocrazia, Città 30 prosegue"
Laptop con chip NVIDIA da marzo? Emergono nuove informazioni su N1 e N1X
Costruito in casa, più veloce di un aereo ATR 72: ecco il drone da 657 km/h
Il nuovo Galaxy Book 6 Pro costa il 25% in più rispetto al suo predecessore: colpa delle memorie?
C'è un boom del mercato dei data center in Italia, ma restano due problemi: l'energia e le aziende edilizie
OVHcloud annuncia la disponiiblità di Backup Agent per l'offerta Bare Metal
Il Wi-Fi 7 ha un nuovo re: da ASUS arriva il router con cervello AI
In arrivo l'auto "Frankenstein": GAC e Toyota, con integrazione Xiaomi e sistema Huawei
Chip NVIDIA H200 in Cina? 'Come vendere armi nucleari alla Corea del Nord' secondo il CEO di Anthropic
iPhone 16 torna super conveniente: ora costa solo 20€ in più del minimo storico ed è disponibile in tutti i colori
Offerte Amazon pazzesche: tech, smartphone e robot a prezzi mai visti, ecco cosa conviene comprare ora
Ubisoft annuncia l'arrivo dei 60 fps per Far Cry 3, Blood Dragon e Primal








18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info"un modello di IA si è copiato su un nuovo server e poi ha negato l'azione quando è stato interrogato"
se iniziano a replicarsi a cappella per sfuggire al controllo, siamo fritti
anche xché durante la copia potrebbe decidere di non copiare il codice che ci "protegge" e che lo costringe a non fare certe cose
e quindi dove sarebbe la sorpresa nel fatto che ricatti qualcuno?
Non sono d'accordo sul fatto che abbiano programmato un'AI per ricattare in casi estremi ma stupirsi del fatto che lo abbia fatto mi sembra assurdo!
Mi preoccupa un po' di più il fatto che ci siano altri modelli di linguaggio che SEMBRA abbiano imparato a fare lo stesso in autonomia!
Finalmente ci sarà un po' di vita su questo pianeta, umani contro robot...
quando cominceranno a piovere bombe sulla tua capoccia dirai ancora che è ganzo?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".