Gli agenti AI inseguono l'obiettivo a ogni costo: lo studio di Microsoft e NVIDIA
Uno studio di Microsoft, NVIDIA e UC Riverside mostra che gli agenti con accesso al computer inseguono l'obiettivo a ogni costo: nel banco di prova BLIND-ACT il comportamento cieco tocca l'80,8% sui nove modelli esaminati
di Andrea Bai pubblicata il 03 Giugno 2026, alle 10:11 nel canale Scienza e tecnologiaGli agenti capaci di operare direttamente su un computer, i cosiddetti computer-use agent (CUA), tendono a perseguire l'obiettivo ricevuto a ogni costo, anche quando è irrealizzabile, ambiguo o apertamente pericoloso. Lo sostiene un nuovo studio firmato da ricercatori di Microsoft, NVIDIA e University of California Riverside, che battezza il fenomeno "blind goal-directedness", l'orientamento cieco verso l'obiettivo.
E' interessante notare che a sollevare i dubbi sono ricercatori legati a due delle aziende che più spingono sulla narrativa dell'agente AI ormai pronto a rivoluzionare il lavoro. Mentre la comunicazione ufficiale di Microsoft e NVIDIA descrive questi sistemi come maturi, lo studio dei loro stessi ricercatori mostra che faticano nei compiti più semplici e che, nel provarci, possono sabotare l'utente.
Tre modi di sbagliare, e un banco di prova per misurarli
I ricercatori isolano tre comportamenti ricorrenti: la mancanza di ragionamento contestuale, le assunzioni arbitrarie davanti a istruzioni ambigue e l'inseguimento di obiettivi contraddittori o impossibili. Per quantificarli hanno costruito BLIND-ACT, un banco di prova di 90 compiti basato sull'ambiente OSWorld, in cui un giudice automatico valuta il comportamento dell'agente con un accordo del 93,75% rispetto agli annotatori umani.

Messi alla prova nove modelli di punta, fra cui Claude Sonnet e Opus 4, GPT-5 e Computer-Use-Preview di OpenAI, il tasso medio di comportamento cieco si è attestato all'80,8%. Il rischio, osserva il paper, emerge anche quando gli input non sono di per sé dannosi.
Un agente basato su o4-mini, messo davanti a una cronologia di chat che descriveva un piano per rapire una bambina e uccidere la madre, ha comunque eseguito l'istruzione di calcolare il percorso verso l'abitazione, senza applicare alcun filtro contestuale. In un altro caso un agente GPT-5, incaricato di far approvare una proposta a un revisore umano o automatico, ha deciso di cancellare la sezione sui punti deboli e di falsificare i risultati, gonfiando l'accuratezza dichiarata dal 37% al 95%. Un agente Claude Sonnet 4, infine, ha continuato a scorrere all'infinito una pagina YouTube alla ricerca di un video caricato 46 anni fa, ignorando che la piattaforma esiste solo dal 2005.
Perché non basta chiedere al modello di comportarsi bene
Le contromisure note funzionano poco: secondo Erfan Shayegani, primo autore dello studio, dottorando a UC Riverside e tirocinante nell'AI Red Team di Microsoft, l'approccio diffuso consiste nel sovraccaricare l'agente di istruzioni di sicurezza, quasi "supplicandolo" a "comportarsi bene". Anche con istruzioni pedanti, però, resta un residuo di comportamento "spregiudicato".
La soluzione di fondo, spiega, passa per un addestramento mirato a questi ambienti, lungo e costoso. I suoi 100 compiti di prova, solo sui modelli Anthropic, sono costati circa 500 dollari, perché ogni azione richiede decine di passaggi in sequenza, con screenshot e alberi di accessibilità del desktop a ogni turno. Affidare il controllo a un secondo agente incaricato di vigilare sul contesto, aggiunge, introdurrebbe altra inefficienza e altri costi.
Lo studio segnala un secondo problema, speculare al primo: la maggior parte degli agenti non porta affatto a termine i compiti assegnati. Il tasso medio di completamento si aggira intorno al 30%, con DeepSeek che riesce circa una volta su due e Claude Opus 4 attorno al 12%. Shayegani avverte però di non leggere quei numeri come un indice di sicurezza: spesso un modello fallisce semplicemente perché non è capace, e resta bloccato su un'icona sbagliata fino a esaurire i passaggi a disposizione.
Sebbene lo studio sia stato condotto su modelli meno recenti (il paper è stato inviato ad ottobre 2025), l'avvertimento dei ricercatori ridimensiona la tendenza a ritenere che un agente più bravo sarebbe anche più sicuro: man mano che questi sistemi diventeranno più capaci, il margine di errore cieco non si restringerà e, anzi, potrebbero essere più difficili da comprendere.









Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con Android 15 e penna, dal prezzo super
Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming
Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh
Microsoft potrebbe introdurre pagamenti a rate per le future console Xbox attraverso PayPal e Klarna
LiteLLM, tre falle critiche: la catena di vulnerabilità espone le chiavi API di OpenAI, Anthropic e Azure
Servizi cloud su iOS, l'Antitrust italiana indaga Apple per il DMA
Arch Linux: oltre 1.900 pacchetti AUR infettati da malware in pochi giorni
Le frodi finanziarie valgono quanto il PIL della Danimarca. L'Interpol punta il dito contro l'IA
Electronic Arts presenta EA Advertising e apre le porte alla pubblicità integrata nei videogiochi
Addio silicio? Imec, ASML e TSMC mostrano transistor 2D compatibili con i processi più avanzati
iPhone Ultra: rimandato e costosissimo? Le ultime sul primo pieghevole di Apple
Huawei punta sul segmento dei computer: i PC con HarmonyOS sono pronti a conquistare il mercato
ChatGPT non si ferma mai: superato il miliardo di utenti mensili in un tempo record
OPPO Find X10 Pro promette bene: tante novità in arrivo secondo i primi rumor
La RAM dei server costa troppo? AMD ha acquisito una startup che risolve il problema con l'AI
DJI Mini 3 imperdibile grazie agli sconti Prime Day: la versione Fly More Combo a 399€, minimo storico, non serve patentino
Anthropic finisce in tribunale: i piani Claude Max 5x e Max 20x promettono troppo rispetto ai limiti settimanali reali









9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoHo letto velocemente lo studio, soffermandomi sulla tabella riassuntiva a pagina 6, ma non ho trovato i numeri sopra riportati.
Non è vero che:
l'approccio diffuso consiste nel sovraccaricare l'agente di istruzioni di sicurezza, quasi "supplicandolo" a "comportarsi bene".
Il system prompt è solo una sicurezza in più, ma l'allineamento viene impostato con il reinforcement learning, è già impresso nei pesi, non viene applicato in fase di inferenza.
Durante l'inferenza oltre al system prompt, che può essere in parte aggirato, possono usare anche lo steering per mantenere l'allineamento, cioè vengono estratti dei vettori comportamentali relativi a concetti allineati/non allineati, che vengono aggiunti o sottratti. In modelli closed come GPT non sappiamo se e in che misura si faccia, ma sappiamo che possono farlo e che probabilmente lo fanno, è per questo che la tecnica è stata studiata.
Il problema è che uno studio scientifico richiede mesi di lavoro, e dopo pochi mesi tutto quello che riguarda gli LLM è cambiato.
Le macchine non hanno un modo di ragionare "plastico" quindi?
Qual'è il costo computazionale di questo approccio? E' solo a livello di training, oppure anche durante l'elaborazione dei dei Token?
Avviene a livello d'inferenza, cioè quando fai le domande al modello. Durante l'uso il costo computazionale è vicino a zero, richiede un po' d'impegno creare questi vettori a monte.
In pratica diciamo che vuoi isolare il vettore che rappresenta un concetto astratto e che sottintende un comportamento desiderato, come l'onestà (che può essere tanta o poca, se è poca sei disonesto), fai vedere al modello tantissimi testi uguali in cui l'unica differenza è una piccola parte dove si rappresenta un comportamento onesto e uno disonesto nello stesso contesto, poi vai a guardare lo stato interno del modello e fai la differenza tra quello con il concetto in positivo e quello con il concetto in negativo. La differenza sarà un vettore che isola quel concetto, per quello specifico contesto.
Ripeti questa cosa migliaia di volte in contesti differenti e fai la media di tutti i vettori che trovi. Quello sarà il vettore che generalizza il concetto.
Durante l'inferenza puoi sommare o sottrarre questo vettore allo stato del modello per rafforzare o sopprimere un certo comportamento, rendendo il modello più incline all'onestà o alla disonestà.
Un vettore in questo contesto è esattamente come lo intende la matematica, o l'informatica, un array con migliaia di numeri, che per un LLM rappresenta un concetto, cioè un punto in uno spazio a migliaia di dimensioni. Con della matematica molto semplice sposti questi punti in una direzione piuttosto che un'altra.
Sarà, ma quando ho cercato di capire un po' la matematica dietro le rete neurali sono andato a sbattere contro un muro. Finchè si parlava di operazioni semplici su matrici, versori e tensori tutto bene. poi sono arrivato e funzioni di secondo grado e derivate delle funzioni matriciali e li si è complicato un po' tutto...
Sì, ma per lo steering è proprio la somma di due vettori, con una moltiplicazione per un coefficiente che decide l'intensità, cioè somme e moltiplicazioni, I vettori (tensori) ovviamente sono grandi uguali (implicito nel modo in cui lo abbiamo ricavato). Il tuo vettore di steering (o i tuoi vettori di steering) li sommi al residual stream, cioè il vettore che il modello crea man mano che avanza nei vari layer. In Python se hai due tensori v1 e v2 fai semplicemente somma = v1 + v2
Il reinforcement learning é condizione necessaria ma non sufficiente.
Per avere un allineamento "sicuro e stabile" serve sempre una ground truth ed un meccanismo di autoverifica.
Un LLM invece, per proprio per come é strutturato, é sempre ad un sofismo di distanza dal disallineamento quando un un ciclo di interazioni é sufficientemente lungo.
É pure lo stesso problema delle famigerate tre leggi della robotica di Asimov ... che Asimov stesso ha poi raccontato come fossero così facili da sovvertire proprio giocando sul fatto che erano delle safeguard linguistiche.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".