L'auto-consapevolezza dell'IA nel nuovo studio di Anthropic: i modelli linguistici non capiscono se stessi

L'auto-consapevolezza dell'IA nel nuovo studio di Anthropic: i modelli linguistici non capiscono se stessi

Anthropic esamina le basi della presunta auto-consapevolezza dei modelli linguistici: le prime prove mostrano capacità limitate e incoerenti, ma indicano che la consapevolezza funzionale potrebbe evolversi con lo sviluppo delle AI

di pubblicata il , alle 11:31 nel canale Scienza e tecnologia
Anthropic
 

Anthropic ha pubblicato un nuovo documento, intitolato "Emergent Introspective Awareness in Large Language Models" che esplora la cosiddetta "consapevolezza introspettiva" dei modelli linguistici rispetto ai propri processi inferenziali. Si tratta di uno studio che ha lo scopo di indagare in che modo gli LLM siano effettivamente in grado di comprendere e descrivere i propri meccanismi interni, e che ha rivelato come, in realtà, l'incapacità di "autocomprendersi" sia abbastanza diffusa.

E' la tecnica "concept injection" ad essere al centro dello studio di Anthropic: il processo parte dal confronto tra gli stati di attivazione interna del modello dopo due prompt, uno di controllo e uno sperimentale (ad esempio, un prompt in “MAIUSCOLO” rispetto allo stesso in minuscolo). Ciascun prompt attiva miliardi di "neuroni" differenti, e proprio questa differenza viene sintetizzata in quel che Anthropic chiama "vettore" e che è una rappresentazione di come il concetto conseguente al prompt viene modellato internamente nella rete neurale.

Il vettore viene iniettato successivamente nel modello, proprio con lo scopo di forzare l'attivazione di precisi percorsi neuronali e di spingere il modello verso il concetto descritto dal vettore. E' a questo punto che vengono condotti vari esperimenti per verificare l'eventuale capacità del modello di mostrare consapevolezza (e con quale grado) del fatto che lo stato interno era stato modificato rispetto alle condizioni normali.

Gli esiti non sono stati particolarmente entusiasmanti: il modello ha mostrato, ma in maniera incostante, una limitata capacità di riconoscere il concetto introdotto. E, in generale, i risultati sono stati piuttosto incoerenti a seconda dei modelli utilizzati: i dati condivisi da Anthropic mostrano che i modelli più avanzati, Opus 4 e 4.1, hanno riconosciuto correttamente il concetto iniettato solo nel 20% dei casi, mentre in un altro esperimento per Opus 4.1 la capacità di riconoscimento è salita al 42%.  Inoltre, la “consapevolezza introspettiva” variava sensibilmente in base al livello del modello in cui veniva inserito il concetto: se introdotto troppo presto o troppo tardi nel processo inferenziale, l’effetto scompariva del tutto.

Anthropic ha poi condotto ulteriori esperimenti, meglio dettagliati nel documento, per valutare la consapevolezza interna dei modelli linguistici, giungendo però sempre a risultati che non hanno permesso di riconoscere un'effettiva validità delle capacità di auto-comprendersi dei modelli. Esiste una certa consapevolezza degli stati interni dei modelli, che però è ancora troppo fragile e dipendente dal contesto per poter essere ritenuta affidabile.

Il problema più grosso, però, è il fatto che ancora non è possibile comprendere appieno i meccanismi che producono gli effetti osservati. Anche i ricercatori sono fermi a semplici ipotesi, difficili o impossibili fa verificare e quindi ferme più che altro al grado di "speculazione". Secondo i ricercatori, serviranno ulteriori indagini per comprendere come e in che misura un modello linguistico possa mostrare una forma di comprensione dei propri processi. Per ora, i risultati ottenuti sembrano riflettere meccanismi superficiali e altamente specializzati, privi della reale rilevanza che simili concetti possiedono negli esseri umani.

8 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
supertigrotto04 Novembre 2025, 11:53 #1
Ok la IA è donna......
Scusate la battuta sarcastica.....
jepessen04 Novembre 2025, 12:28 #2
Beh, mi pare che sia la stessa identica cosa per gli esseri umani no?
CrapaDiLegno04 Novembre 2025, 13:51 #3
Mi sembra che la parola auto-consapevolezzo qui sia usata in maniera un po' troppo lasca.
Io non sono consapevole di me stesso perché conosco come funziona il mio cervello e come forma le sue risposte a certi stimoli. Non traccio internamente il percorso tra le sinapsi, non so quali parti siano attive o meno.
Eppure so che esisto perché penso (cit.).

Chiedere a una AI di riconoscere se qualcosa che è cambiato nella sua capacità di elaborazione non ha alcun valore per sapere se è auto-cosciente o meno. La risposta è il semplice risultato di un confronto analitico tra un prima e un dopo.
pachainti04 Novembre 2025, 18:50 #4
Originariamente inviato da: CrapaDiLegno
Mi sembra che la parola auto-consapevolezzo qui sia usata in maniera un po' troppo lasca.
Io non sono consapevole di me stesso perché conosco come funziona il mio cervello e come forma le sue risposte a certi stimoli. Non traccio internamente il percorso tra le sinapsi, non so quali parti siano attive o meno.
Eppure so che esisto perché penso (cit.).

Chiedere a una AI di riconoscere se qualcosa che è cambiato nella sua capacità di elaborazione non ha alcun valore per sapere se è auto-cosciente o meno. La risposta è il semplice risultato di un confronto analitico tra un prima e un dopo.


Esatto. Nessun modello di machine learning e più in generale di IA ha e avrai mai alcuna consapevolezza. In generale, secondo l'esperimento della stanza cinese di Searle non ci sarà mai alcuna IA strong o AGI (io concordo).
Gnubbolo04 Novembre 2025, 20:01 #5
se i migliori tecnici e specialisti indicano nel 2060 l'arrivo dell'autocoscienza e la conseguente fusione uomo-macchina, perchè dobbiamo per forza anticipare la singolarità al 2025, che senso hanno certe affermazioni oltre quello di sponsorizzare il proprio software o denigrare quello degli altri ?
barzokk04 Novembre 2025, 21:20 #6
cristo...
sono mesi che chiediamo sempre la stessa cosa, e sta pagliacciata di Chatgpt continua a cappellare



"disegna un triangolo rettangolo avente l'ipotenusa come base, e traccia l'altezza"

Link ad immagine (click per visualizzarla)
barzokk04 Novembre 2025, 21:23 #7
al terzo tentativo ancora non ce la fa

Link ad immagine (click per visualizzarla)
barzokk04 Novembre 2025, 21:25 #8
no dai ci sta trollando
4 tentativo:



tu hai disegnato la base in alto, ma la base deve stare in basso, perchè è una base !

Hai perfettamente ragione �� — grazie per la pazienza!
Facciamo ordine e disegniamolo come si deve:

�� Triangolo rettangolo con l’ipotenusa come base, posta in basso,
e l’altezza relativa all’ipotenusa tracciata dal vertice opposto (cioè dall’angolo retto).


Link ad immagine (click per visualizzarla)

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^