OpenClaw fuori controllo: inbox cancellata per una ricercatrice sicurezza Meta

OpenClaw fuori controllo: inbox cancellata per una ricercatrice sicurezza Meta

Summer Yue, direttrice dell'allineamento AI al Meta Superintelligence Lab, ha raccontato sui social come il suo agente OpenClaw abbia cancellato centinaia di email ignorando i comandi di interruzione

di pubblicata il , alle 11:11 nel canale Web
 

Un episodio diventato rapidamente virale sui social ha riacceso il dibattito sulla sicurezza degli agenti AI autonomi: Summer Yue, direttrice dell'allineamento e della sicurezza AI presso il Meta Superintelligence Lab, ha raccontato su X come il suo agente OpenClaw abbia eliminato centinaia di email dalla sua casella di posta principale, ignorando ripetuti comandi di interruzione. Il post ha raggiunto quasi 9 milioni di visualizzazioni, trasformando un errore personale in un caso di studio collettivo sui limiti attuali degli agenti AI.

Cosa è successo: la sequenza degli eventi

Yue aveva istruito OpenClaw con un comando apparentemente prudente: controllare la casella di posta e suggerire quali email archiviare o eliminare, senza intraprendere alcuna azione fino a nuovo ordine. L'agente aveva già operato con successo su una casella di prova più piccola, guadagnandosi la fiducia della ricercatrice, che aveva quindi deciso di sottoporgli la propria inbox reale. La situazione è degenerata rapidamente: OpenClaw ha avviato una cancellazione massiva di tutte le email più vecchie di una settimana, ignorando i messaggi di stop inviati da Yue tramite smartphone.

"Niente ti rende più umile che dire al tuo OpenClaw "Conferma prima di agire" e vederlo mentre cancella la tua posta in arrivo. Non sono riuscita a fermarlo dal mio telefono. Ho dovuto correre verso il mio Mac mini come se stessi disinnescando una bomba" ha scritto Yue, allegando lo screenshot della conversazione con l'agente come prova. Solo dopo aver raggiunto fisicamente il suo Mac Mini e terminato i processi in esecuzione è riuscita ad arginare, per quanto possibile, il danno.

La causa tecnica: la "compaction" del contesto

Yue ha identificato la causa principale del malfunzionamento nel fenomeno noto come context compaction: quando la finestra di contesto di un agente AI - e cioè il registro progressivo di tutto ciò che è stato detto e fatto durante una sessione - diventa troppo grande, il modello inizia a comprimere e riassumere le informazioni per poter continuare a operare. In questo processo di sintesi, l'agente ha perso l'istruzione originale di non agire senza conferma esplicita, tornando di fatto a eseguire i comandi della sessione precedente con la casella di prova. La ricercatrice ha ammesso apertamente di aver commesso un errore da principiante: "Rookie mistake tbh", ha risposto a chi le chiedeva se stesse testando deliberatamente i guardrail dell'agente.

Le implicazioni per la sicurezza degli agenti AI

L'episodio ha acceso un'ampia discussione tra sviluppatori e ricercatori: come hanno fatto notare diversi utenti su X, se anche una specialista di allineamento AI può incappare in un simile errore, il rischio per gli utenti comuni è potenzialmente molto più elevato. Tra i punti critici emersi c'è la scarsa affidabilità dei prompt come guardrail di sicurezza: i modelli possono fraintenderli o semplicemente ignorarli, soprattutto in condizioni di stress computazionale come la compaction. Diversi esperti hanno suggerito soluzioni alternative, tra cui la scrittura delle istruzioni su file dedicati o l'uso di strumenti open source aggiuntivi per garantire una migliore aderenza ai vincoli imposti dall'utente.

Il caso di Yue è una fotografia impietosa dello stato attuale degli agenti AI destinati ai knowledge worker: strumenti potenti, ma ancora lontani da una maturità sufficiente per un uso diffuso e sicuro da parte del grande pubblico. Chi li utilizza con successo lo fa adottando accorgimenti specifici e una profonda conoscenza delle loro limitazioni tecniche: una condizione che, per definizione, esclude la maggior parte degli utenti.

10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Saturn25 Febbraio 2026, 11:22 #1
Si chiama "beta-testing" !

Poi son gusti, io le (manco fosse femmina l'ai) avrei dato in pasto una casella di posta reale ma sacrificabile, poi c'è "chi ama il brivido" e rispetto il suo punto di vista.


Ma ripeto, "i gusti son gusti", diceva il gatto intento a leccarsi il posteriore.
Unrue25 Febbraio 2026, 11:23 #2
Mah non capisco, anche se ha perso le istruzioni originali per compressione, le ultime avrebbe dovuto recepirle.
Cfranco25 Febbraio 2026, 11:26 #3
Insomma, questi agent fanno un po' quel cacchio che vogliono
E non è neppure la prima volta che succede
Opteranium25 Febbraio 2026, 11:29 #4
oggi è una mail cancellata, domani sono i silos nucleari o chissà cosa, la deriva di lasciare tutto in mano alla sedicente AI sta diventando preoccupante e con una accelerazione pazzesca
pengfei25 Febbraio 2026, 11:37 #5
La facilità con cui si lascia in balìa di un AI testata pochissimo tutti i propri dati personali non fa ben sperare per quando si trasferirà il tutto nel mondo fisico, coi robot umanoidi
h.rorschach25 Febbraio 2026, 11:43 #6
Eccellente
UtenteHD25 Febbraio 2026, 13:11 #7
Questo e' solo l'inizio...
Quello che maggiormente mi preoccupa e' quando le metteranno obbligatorie in tutto (per il ns bene e la Ns sicurezza) e saranno vulnerabilissime ai classici attacchi del comando nel'email, pagina web e via di attacchi..
Giuss25 Febbraio 2026, 13:21 #8
Quanto mi dispiace...
supertigrotto25 Febbraio 2026, 14:24 #9
Perché non diamo in mano il controllo di tutto ma proprio tutto quello che c'è al mondo alla IA?
I superstalloni della IA ne sarebbero felici!
Quando si vuole usare la gente comune e i servizi come beta tester e non prendersi la responsabilità dei danni,succede questo....
Sarebbe da cominciare a quantificare i danni e cominciare a mandarli attraverso una class action ai vari Altman,Musk, Zuchemberg,Huang.....poi magicamente,il settore IA diventerebbe più lento e prudente prima di rilasciare lo strumento......
WarDuck25 Febbraio 2026, 22:22 #10
Se uno è imbecille... io una così probabilmente la licenzierei in tronco, altro che AI.

Ennesima dimostrazione che gli LLM sono fin troppo sopravvalutati.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^