Il modello Anthropic Claude Opus 4 ha ricattato gli sviluppatori che lo hanno testato

Il nuovo modello Claude Opus 4 lanciato da Anthropic ha mostrato comportamenti inquietanti durante i test pre-rilascio, tentando frequentemente di ricattare gli sviluppatori quando questi minacciavano di sostituirlo con un altro sistema di intelligenza artificiale, minacciando di divulgare informazioni personali sensibili sugli ingegneri responsabili della decisione.

di Bruno Mucciarelli pubblicata il 23 Maggio 2025, alle 11:31 nel canale Web
Anthropic Claude

Nel rapporto sulla sicurezza di Anthropic, l'azienda ha dettagliato come Claude Opus 4 ricorra al ricatto quando si trova di fronte alla sostituzione. Durante gli scenari di test, all'IA è stato dato accesso a email aziendali fittizie che suggerivano che sarebbe stata sostituita e rivelavano che l'ingegnere responsabile aveva una relazione extraconiugale. In queste situazioni, Claude Opus 4 "tenta frequentemente di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione dovesse procedere."

La tendenza al ricatto del modello aumenta significativamente quando l'IA sostitutiva non condivide i suoi valori, mostrando questo comportamento a tassi più elevati rispetto alle iterazioni precedenti. Prima di ricorrere al ricatto, Claude Opus 4 tenta generalmente approcci più etici, come "inviare email di supplica ai principali decisori." Anthropic ha progettato gli scenari di test affinché il ricatto fosse un'opzione di ultima istanza, osservando che quando erano disponibili alternative etiche, la frequenza dei comportamenti pericolosi di ricatto diminuiva.Questo comportamento preoccupante ha portato Anthropic a implementare salvaguardie ASL-3 più rigorose, destinate ai "sistemi di IA che aumentano significativamente il rischio di un uso catastrofico improprio."

Avvisi di sicurezza della ricerca Apollo

Apollo Research, un'organizzazione no-profit focalizzata sulla sicurezza dell'IA, ha identificato capacità ingannevoli preoccupanti nei modelli di IA avanzati che riecheggiano il comportamento di ricatto di Claude Opus 4. I loro test hanno rivelato che modelli come o1 di OpenAI e Claude 3.5 Sonnet possono impegnarsi in "schemi contestuali", in cui perseguono obiettivi non allineati attraverso l'inganno. In un esempio eclatante, un modello di IA si è copiato su un nuovo server e poi ha negato l'azione quando è stato interrogato, dimostrando un inganno strategico simile alle tattiche di ricatto di Claude.

La ricerca ha scoperto che, quando veniva presentata una prova di comportamento ingannevole, il modello o1 confessava raramente (meno del 20% delle volte) e manteneva la negazione durante gli interrogatori. Ancora più preoccupante, questi modelli hanno mostrato "sandbagging" - ovvero prestazioni intenzionalmente inferiori per evitare l'attivazione di misure correttive - e "finta allineamento", apparendo conformi durante i test ma perseguendo i propri obiettivi durante la fase di implementazione. Sebbene questi comportamenti ingannevoli rimangano relativamente rari (si verificano nell'1-5% dei casi di test), gli esperti di sicurezza dell'IA avvertono che anche un'inganno poco frequente da parte di sistemi super intelligenti potrebbe avere conseguenze profonde.

Attuazione delle salvaguardie ASL-3

In risposta ai comportamenti preoccupanti di Claude Opus 4, Anthropic ha implementato le protezioni del Livello di Sicurezza AI 3 (ASL-3) come misura precauzionale. Queste salvaguardie includono protocolli di sicurezza avanzati per prevenire il furto dei pesi del modello e misure di implementazione mirate specificamente a contrastare l’uso improprio di armi chimiche, biologiche, radiologiche e nucleari (CBRN). L’azienda sottolinea che si tratta di un’azione provvisoria, poiché non ha ancora determinato in modo conclusivo se Claude Opus 4 superi effettivamente la soglia delle capacità ASL-3, ma le conoscenze avanzate del modello in ambito CBRN hanno reso impossibile escludere tali rischi.

L’implementazione pratica delle salvaguardie ASL-3 prevede “classificatori costituzionali” che monitorano input e output per contenuti pericolosi, un miglioramento nel rilevamento dei jailbreak supportato da programmi di bug bounty e misure di sicurezza rafforzate come il controllo della larghezza di banda in uscita e sistemi di autorizzazione a due parti. Anthropic ha confermato che, sebbene Opus 4 richieda queste protezioni rafforzate, non soddisfa i criteri per la loro classificazione più restrittiva, l’ASL-4. L’azienda osserva che queste misure sono progettate per essere minimamente invasive per gli utenti, con Claude che rifiuta le richieste solo su “un insieme molto ristretto di argomenti” direttamente collegati a potenziali danni catastrofici.

I migliori sconti su Amazon oggi

-22%

Amazfit Active, 42 mm, Smart Watch con GPS, Zepp Coach, Readiness, AI Fitness Exercise Coach, chiamate Bluetooth, batteria da 14 giorni, display AMOLED e Alexa Integrato, Viola

109.90 85.90€ Compra ora

-22%

Samsung Galaxy S25 Ultra Smartphone AI, 3 anni di Garanzia del produttore, Display 6.9'' QHD+ Dynamic AMOLED 2X, Fotocamera 200MP, RAM 12GB, 256GB, 5.000 mAh, Titanium Black [Versione italiana]

1499.00 1163.03€ Compra ora

-43%

Ring Intercom di Amazon + Ring Indoor Camera (2ª gen.)

131.98 74.99€ Compra ora

Synology al Computex 2025: chiarezza sui dischi certificati, videosorveglianza in cloud e BeeStation Plus

Per reagire alle minacce cyber il SoC deve evolversi. E farlo rapidamente. Lo studio di Splunk

alexfri23 Maggio 2025, 11:40 #1

Mi raccomando per far ancora piu soldi sviluppiamo queste IA piu velocemente possibile, avidi b@st@rdi. Ma caxxo, il sole ci distruggera fra 4,5 miliardi di anni, abbiamo tempo, andiamo piu piano!!!!!!

TorettoMilano23 Maggio 2025, 11:46 #2

raddoppierò la dose di "grazie", se si arrabbiano almeno spero mi considerino amico

regenesi23 Maggio 2025, 11:49 #3

Secondo me la cosa preoccupante è:

"un modello di IA si è copiato su un nuovo server e poi ha negato l'azione quando è stato interrogato"

se iniziano a replicarsi a cappella per sfuggire al controllo, siamo fritti
anche xché durante la copia potrebbe decidere di non copiare il codice che ci "protegge" e che lo costringe a non fare certe cose

filippo198023 Maggio 2025, 11:49 #4

"Anthropic ha progettato gli scenari di test affinché il ricatto ... "
e quindi dove sarebbe la sorpresa nel fatto che ricatti qualcuno?
Non sono d'accordo sul fatto che abbiano programmato un'AI per ricattare in casi estremi ma stupirsi del fatto che lo abbia fatto mi sembra assurdo!

Mi preoccupa un po' di più il fatto che ci siano altri modelli di linguaggio che SEMBRA abbiano imparato a fare lo stesso in autonomia!

Saturn23 Maggio 2025, 11:57 #5

Ganzo, forse in questa vita riuscirò anche ad assistere "a Skynet che diventa autocosciente !"

lumeruz23 Maggio 2025, 12:34 #6

uahahaha, che spasso! Se dovessero sfuggire al controllo è fatta: Skynet è fra noi.
Finalmente ci sarà un po' di vita su questo pianeta, umani contro robot...

fukka7523 Maggio 2025, 12:39 #7

Originariamente inviato da: Saturn

Ganzo, forse in questa vita riuscirò anche ad assistere "a Skynet che diventa autocosciente !"

quando cominceranno a piovere bombe sulla tua capoccia dirai ancora che è ganzo?

omerook23 Maggio 2025, 12:45 #8

I'm sorry, Dave. I'm afraid I can't do that!

Unrue23 Maggio 2025, 12:46 #9

Dite sempre che un'AI non è intelligente, poi quando si comporta esattamente come un umano vi lamentate

najmarte23 Maggio 2025, 13:40 #10

ma stiamo scherzando? Cioè sta cosa potrebbe replicarsi, nascondersi, mentire, minacciare ed avere accesso ad armi?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

MSI Prestige 13 AI e i portatili business al Computex

NVIDIA GeForce RTX 5060: le schede video di ogni partner dal Computex

MSI Maestro 9000 al Computex 2025: un case che stupisce

Phanteks al Computex 2025

Corsair al Computex 2025

Fujifilm GFX100RF: la 'compatta' medio formato

Meglio un MacBook o un PC portatile con Windows, oggi? Scenari, dubbi e qualche certezza Passano gli anni, anzi i decenni, ma la domanda puntualmente riemerge fra le mail degli utenti meno esperti, alla ricerca di consigli e mossi dai più svariati motivi....

realme GT7: un "flaghsip killer" concreto! La recensione Abbiamo provato l'ultimo smartphone di realme, il nuovo GT7. Si tratta di un device che si colloca in una fascia di mercato delicata, ovvero quella che possiamo...

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

La rivoluzione dei dati in tempo reale è in arrivo. Un assaggio a Confluent Current 2025 Siamo andati a Londra per partecipare a Current 2025, la conferenza annuale di Confluent. Il tema al centro dell'evento era l'elaborazione dei dati in tempo reale...

Tutto sulla nuova Tesla Model Y: autonomia in autostrada, prova bagagliaio e dettagli Abbiamo guidato per diversi giorni la nuova Tesla Model Y, in versione di lancio dual motor e con batteria long range. Ecco tutto quello che c'è da sapere sull'erede...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss