OpenClaw fuori controllo: inbox cancellata per una ricercatrice sicurezza Meta
Summer Yue, direttrice dell'allineamento AI al Meta Superintelligence Lab, ha raccontato sui social come il suo agente OpenClaw abbia cancellato centinaia di email ignorando i comandi di interruzione
di Andrea Bai pubblicata il 25 Febbraio 2026, alle 11:11 nel canale WebUn episodio diventato rapidamente virale sui social ha riacceso il dibattito sulla sicurezza degli agenti AI autonomi: Summer Yue, direttrice dell'allineamento e della sicurezza AI presso il Meta Superintelligence Lab, ha raccontato su X come il suo agente OpenClaw abbia eliminato centinaia di email dalla sua casella di posta principale, ignorando ripetuti comandi di interruzione. Il post ha raggiunto quasi 9 milioni di visualizzazioni, trasformando un errore personale in un caso di studio collettivo sui limiti attuali degli agenti AI.
Cosa è successo: la sequenza degli eventi
Yue aveva istruito OpenClaw con un comando apparentemente prudente: controllare la casella di posta e suggerire quali email archiviare o eliminare, senza intraprendere alcuna azione fino a nuovo ordine. L'agente aveva già operato con successo su una casella di prova più piccola, guadagnandosi la fiducia della ricercatrice, che aveva quindi deciso di sottoporgli la propria inbox reale. La situazione è degenerata rapidamente: OpenClaw ha avviato una cancellazione massiva di tutte le email più vecchie di una settimana, ignorando i messaggi di stop inviati da Yue tramite smartphone.
Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. pic.twitter.com/XAxyRwPJ5R
— Summer Yue (@summeryue0) February 23, 2026
"Niente ti rende più umile che dire al tuo OpenClaw "Conferma prima di agire" e vederlo mentre cancella la tua posta in arrivo. Non sono riuscita a fermarlo dal mio telefono. Ho dovuto correre verso il mio Mac mini come se stessi disinnescando una bomba" ha scritto Yue, allegando lo screenshot della conversazione con l'agente come prova. Solo dopo aver raggiunto fisicamente il suo Mac Mini e terminato i processi in esecuzione è riuscita ad arginare, per quanto possibile, il danno.
La causa tecnica: la "compaction" del contesto
Yue ha identificato la causa principale del malfunzionamento nel fenomeno noto come context compaction: quando la finestra di contesto di un agente AI - e cioè il registro progressivo di tutto ciò che è stato detto e fatto durante una sessione - diventa troppo grande, il modello inizia a comprimere e riassumere le informazioni per poter continuare a operare. In questo processo di sintesi, l'agente ha perso l'istruzione originale di non agire senza conferma esplicita, tornando di fatto a eseguire i comandi della sessione precedente con la casella di prova. La ricercatrice ha ammesso apertamente di aver commesso un errore da principiante: "Rookie mistake tbh", ha risposto a chi le chiedeva se stesse testando deliberatamente i guardrail dell'agente.
Le implicazioni per la sicurezza degli agenti AI
L'episodio ha acceso un'ampia discussione tra sviluppatori e ricercatori: come hanno fatto notare diversi utenti su X, se anche una specialista di allineamento AI può incappare in un simile errore, il rischio per gli utenti comuni è potenzialmente molto più elevato. Tra i punti critici emersi c'è la scarsa affidabilità dei prompt come guardrail di sicurezza: i modelli possono fraintenderli o semplicemente ignorarli, soprattutto in condizioni di stress computazionale come la compaction. Diversi esperti hanno suggerito soluzioni alternative, tra cui la scrittura delle istruzioni su file dedicati o l'uso di strumenti open source aggiuntivi per garantire una migliore aderenza ai vincoli imposti dall'utente.
Il caso di Yue è una fotografia impietosa dello stato attuale degli agenti AI destinati ai knowledge worker: strumenti potenti, ma ancora lontani da una maturità sufficiente per un uso diffuso e sicuro da parte del grande pubblico. Chi li utilizza con successo lo fa adottando accorgimenti specifici e una profonda conoscenza delle loro limitazioni tecniche: una condizione che, per definizione, esclude la maggior parte degli utenti.










HP Imagine 2026: abbiamo visto HP IQ all’opera, ecco cosa può (e non può) fare
PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è
Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Il dodicesimo lancio del razzo spaziale SpaceX Starship è atteso per aprile, Super Heavy Booster 19 ha completato nuovi test
Blue Origin sta assemblando il secondo lander lunare Blue Moon MK1
Meta moltiplica gli investimenti in data center IA: le nuove cifre previste dal bilancio sono folli
Addio riflessi fastidiosi? Samsung presenta una nuova pellicola per i display OLED
PlayStation 5, doccia fredda da Sony: i prezzi aumentano ancora fino a 899 euro
Super Meat Boy 3D: annunciata la data d'uscita su PC e Xbox Series X/S, manca davvero poco
XT View Matrix, il mid-tower Phanteks che punta su estetica e funzionalità moderne
David Sacks lascia il ruolo di 'Crypto Czar' alla Casa Bianca mentre le riforme su Bitcoin e stablecoin restano ancora incomplete
LG All Stars 2026: quando l'installatore diventa il vero protagonista della transizione
Addio ad Anna's Archive? Ecco la mossa legale di Spotify che potrebbe chiudere il sito
Addio al Mac Pro, Apple mette fine a un progetto che non è mai decollato
Panasonic a MCE 2026: la rivoluzione silenziosa (e green) passa per i refrigeranti naturali
Netflix alza la posta: il piano Premium verso quota 25 dollari, l'Europa trema
Nimbus Innovation Awards – Cloud Edition 2026: ecco tutti i vincitori









10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoPoi son gusti, io le (manco fosse femmina l'ai) avrei dato in pasto una casella di posta reale ma sacrificabile, poi c'è "chi ama il brivido" e rispetto il suo punto di vista.
Ma ripeto, "i gusti son gusti", diceva il gatto intento a leccarsi il posteriore.
E non è neppure la prima volta che succede
Quello che maggiormente mi preoccupa e' quando le metteranno obbligatorie in tutto (per il ns bene e la Ns sicurezza) e saranno vulnerabilissime ai classici attacchi del comando nel'email, pagina web e via di attacchi..
I superstalloni della IA ne sarebbero felici!
Quando si vuole usare la gente comune e i servizi come beta tester e non prendersi la responsabilità dei danni,succede questo....
Sarebbe da cominciare a quantificare i danni e cominciare a mandarli attraverso una class action ai vari Altman,Musk, Zuchemberg,Huang.....poi magicamente,il settore IA diventerebbe più lento e prudente prima di rilasciare lo strumento......
Ennesima dimostrazione che gli LLM sono fin troppo sopravvalutati.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".