Gli agenti AI inseguono l'obiettivo a ogni costo: lo studio di Microsoft e NVIDIA

Redazione di Hardware Upg · 03-06-2026, 09:11

Link alla notizia: https://www.hwupgrade.it/news/scienz...ia_154302.html

Uno studio di Microsoft, NVIDIA e UC Riverside mostra che gli agenti con accesso al computer inseguono l'obiettivo a ogni costo: nel banco di prova BLIND-ACT il comportamento cieco tocca l'80,8% sui nove modelli esaminati

Click sul link per visualizzare la notizia.

Ago72 · 03-06-2026, 10:58

Quote:

Originariamente inviato da Redazione di Hardware Upgrade

Il tasso medio di completamento si aggira intorno al 30%, con DeepSeek che riesce circa una volta su due e Claude Opus 4 attorno al 12%.

Ho letto velocemente lo studio, soffermandomi sulla tabella riassuntiva a pagina 6, ma non ho trovato i numeri sopra riportati.

mmorselli · 03-06-2026, 11:13

Ce ne sarebbero tante da dire.

Non è vero che:

l'approccio diffuso consiste nel sovraccaricare l'agente di istruzioni di sicurezza, quasi "supplicandolo" a "comportarsi bene".

Il system prompt è solo una sicurezza in più, ma l'allineamento viene impostato con il reinforcement learning, è già impresso nei pesi, non viene applicato in fase di inferenza.

Durante l'inferenza oltre al system prompt, che può essere in parte aggirato, possono usare anche lo steering per mantenere l'allineamento, cioè vengono estratti dei vettori comportamentali relativi a concetti allineati/non allineati, che vengono aggiunti o sottratti. In modelli closed come GPT non sappiamo se e in che misura si faccia, ma sappiamo che possono farlo e che probabilmente lo fanno, è per questo che la tecnica è stata studiata.

Il problema è che uno studio scientifico richiede mesi di lavoro, e dopo pochi mesi tutto quello che riguarda gli LLM è cambiato.

UtenteHD · 03-06-2026, 11:27

Quando si parla di agenti AI a cui si danno erroneamente permessi Admin/Root (si spera non peggio), sembra di iniziare a leggere "La "Mano di Scimmia" (The Monkey's Paw) che è un racconto horror classico scritto da W.W. Jacobs nel 1902, È una storia molto famosa che esplora il tema dei desideri che si avverano in modi tragici e imprevisti." (frase esatta di Lumo)

supertigrotto · 03-06-2026, 11:29

Sono macchine,non hanno coscienza e se ce la avessero,sarebbe una coscienza sintetica,preimpostata.
Le macchine non hanno un modo di ragionare "plastico" quindi?

Ago72 · 03-06-2026, 14:08

Quote:

Originariamente inviato da mmorselli

Durante l'inferenza oltre al system prompt, che può essere in parte aggirato, possono usare anche lo steering per mantenere l'allineamento, cioè vengono estratti dei vettori comportamentali relativi a concetti allineati/non allineati, che vengono aggiunti o sottratti.

Qual'è il costo computazionale di questo approccio? E' solo a livello di training, oppure anche durante l'elaborazione dei dei Token?

mmorselli · 03-06-2026, 14:33

Quote:

Originariamente inviato da Ago72

Qual'è il costo computazionale di questo approccio? E' solo a livello di training, oppure anche durante l'elaborazione dei dei Token?

Avviene a livello d'inferenza, cioè quando fai le domande al modello. Durante l'uso il costo computazionale è vicino a zero, richiede un po' d'impegno creare questi vettori a monte.

In pratica diciamo che vuoi isolare il vettore che rappresenta un concetto astratto e che sottintende un comportamento desiderato, come l'onestà (che può essere tanta o poca, se è poca sei disonesto), fai vedere al modello tantissimi testi uguali in cui l'unica differenza è una piccola parte dove si rappresenta un comportamento onesto e uno disonesto nello stesso contesto, poi vai a guardare lo stato interno del modello e fai la differenza tra quello con il concetto in positivo e quello con il concetto in negativo. La differenza sarà un vettore che isola quel concetto, per quello specifico contesto.

Ripeti questa cosa migliaia di volte in contesti differenti e fai la media di tutti i vettori che trovi. Quello sarà il vettore che generalizza il concetto.

Durante l'inferenza puoi sommare o sottrarre questo vettore allo stato del modello per rafforzare o sopprimere un certo comportamento, rendendo il modello più incline all'onestà o alla disonestà.

Un vettore in questo contesto è esattamente come lo intende la matematica, o l'informatica, un array con migliaia di numeri, che per un LLM rappresenta un concetto, cioè un punto in uno spazio a migliaia di dimensioni. Con della matematica molto semplice sposti questi punti in una direzione piuttosto che un'altra.

Ago72 · 03-06-2026, 17:24

Grazie per la spiegazione.

Quote:

Originariamente inviato da mmorselli

Con della matematica molto semplice sposti questi punti in una direzione piuttosto che un'altra.

Sarà, ma quando ho cercato di capire un po' la matematica dietro le rete neurali sono andato a sbattere contro un muro. Finchè si parlava di operazioni semplici su matrici, versori e tensori tutto bene. poi sono arrivato e funzioni di secondo grado e derivate delle funzioni matriciali e li si è complicato un po' tutto...

mmorselli · 03-06-2026, 18:11

Quote:

Originariamente inviato da Ago72

Sarà, ma quando ho cercato di capire un po' la matematica dietro le rete neurali sono andato a sbattere contro un muro. Finchè si parlava di operazioni semplici su matrici, versori e tensori tutto bene. poi sono arrivato e funzioni di secondo grado e derivate delle funzioni matriciali e li si è complicato un po' tutto...

Sì, ma per lo steering è proprio la somma di due vettori, con una moltiplicazione per un coefficiente che decide l'intensità, cioè somme e moltiplicazioni, I vettori (tensori) ovviamente sono grandi uguali (implicito nel modo in cui lo abbiamo ricavato). Il tuo vettore di steering (o i tuoi vettori di steering) li sommi al residual stream, cioè il vettore che il modello crea man mano che avanza nei vari layer. In Python se hai due tensori v1 e v2 fai semplicemente somma = v1 + v2

LMCH · 04-06-2026, 02:14

Quote:

Originariamente inviato da mmorselli

Il system prompt è solo una sicurezza in più, ma l'allineamento viene impostato con il reinforcement learning, è già impresso nei pesi, non viene applicato in fase di inferenza.

Il reinforcement learning é condizione necessaria ma non sufficiente.

Per avere un allineamento "sicuro e stabile" serve sempre una ground truth ed un meccanismo di autoverifica.
Un LLM invece, per proprio per come é strutturato, é sempre ad un sofismo di distanza dal disallineamento quando un un ciclo di interazioni é sufficientemente lungo.

É pure lo stesso problema delle famigerate tre leggi della robotica di Asimov ... che Asimov stesso ha poi raccontato come fossero così facili da sovvertire proprio giocando sul fatto che erano delle safeguard linguistiche.

03-06-2026, 11:27	#4
UtenteHD Senior Member Iscritto dal: Sep 2022 Messaggi: 2269	Quando si parla di agenti AI a cui si danno erroneamente permessi Admin/Root (si spera non peggio), sembra di iniziare a leggere "La "Mano di Scimmia" (The Monkey's Paw) che è un racconto horror classico scritto da W.W. Jacobs nel 1902, È una storia molto famosa che esplora il tema dei desideri che si avverano in modi tragici e imprevisti." (frase esatta di Lumo) __________________ Le regole che mi ha insegnato un bravo programmatore e che, secondo me, dovremmo sempre ricordare: 1) Un PC (anche cell, tablet, ecc..) sicuro e' PC spento 2) Una "cosa" (HW e/o Software) se funziona e non si hanno particolari esigenze non si cambia 3) Tutto quello che e' connesso ad internet e' per sua natura vulnerabile

03-06-2026, 09:11	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75166	Link alla notizia: https://www.hwupgrade.it/news/scienz...ia_154302.html Uno studio di Microsoft, NVIDIA e UC Riverside mostra che gli agenti con accesso al computer inseguono l'obiettivo a ogni costo: nel banco di prova BLIND-ACT il comportamento cieco tocca l'80,8% sui nove modelli esaminati Click sul link per visualizzare la notizia.

03-06-2026, 11:13	#3
mmorselli Senior Member Iscritto dal: Jun 2007 Messaggi: 4767	Ce ne sarebbero tante da dire. Non è vero che: *l'approccio diffuso consiste nel sovraccaricare l'agente di istruzioni di sicurezza, quasi "supplicandolo" a "comportarsi bene".* Il system prompt è solo una sicurezza in più, ma l'allineamento viene impostato con il reinforcement learning, è già impresso nei pesi, non viene applicato in fase di inferenza. Durante l'inferenza oltre al system prompt, che può essere in parte aggirato, possono usare anche lo steering per mantenere l'allineamento, cioè vengono estratti dei vettori comportamentali relativi a concetti allineati/non allineati, che vengono aggiunti o sottratti. In modelli closed come GPT non sappiamo se e in che misura si faccia, ma sappiamo che possono farlo e che probabilmente lo fanno, è per questo che la tecnica è stata studiata. Il problema è che uno studio scientifico richiede mesi di lavoro, e dopo pochi mesi tutto quello che riguarda gli LLM è cambiato.

03-06-2026, 11:29	#5
supertigrotto Senior Member Iscritto dal: Aug 2006 Città: Valdagno Messaggi: 6813	Sono macchine,non hanno coscienza e se ce la avessero,sarebbe una coscienza sintetica,preimpostata. Le macchine non hanno un modo di ragionare "plastico" quindi?

Strumenti
Mostra una versione stampabile Invia questa pagina per email