L'auto-consapevolezza dell'IA nel nuovo studio di Anthropic: i modelli linguistici non capiscono se stessi
Anthropic esamina le basi della presunta auto-consapevolezza dei modelli linguistici: le prime prove mostrano capacità limitate e incoerenti, ma indicano che la consapevolezza funzionale potrebbe evolversi con lo sviluppo delle AI
di Andrea Bai pubblicata il 04 Novembre 2025, alle 11:31 nel canale Scienza e tecnologiaAnthropic
Anthropic ha pubblicato un nuovo documento, intitolato "Emergent Introspective Awareness in Large Language Models" che esplora la cosiddetta "consapevolezza introspettiva" dei modelli linguistici rispetto ai propri processi inferenziali. Si tratta di uno studio che ha lo scopo di indagare in che modo gli LLM siano effettivamente in grado di comprendere e descrivere i propri meccanismi interni, e che ha rivelato come, in realtà, l'incapacità di "autocomprendersi" sia abbastanza diffusa.
E' la tecnica "concept injection" ad essere al centro dello studio di Anthropic: il processo parte dal confronto tra gli stati di attivazione interna del modello dopo due prompt, uno di controllo e uno sperimentale (ad esempio, un prompt in “MAIUSCOLO” rispetto allo stesso in minuscolo). Ciascun prompt attiva miliardi di "neuroni" differenti, e proprio questa differenza viene sintetizzata in quel che Anthropic chiama "vettore" e che è una rappresentazione di come il concetto conseguente al prompt viene modellato internamente nella rete neurale.

Il vettore viene iniettato successivamente nel modello, proprio con lo scopo di forzare l'attivazione di precisi percorsi neuronali e di spingere il modello verso il concetto descritto dal vettore. E' a questo punto che vengono condotti vari esperimenti per verificare l'eventuale capacità del modello di mostrare consapevolezza (e con quale grado) del fatto che lo stato interno era stato modificato rispetto alle condizioni normali.
Gli esiti non sono stati particolarmente entusiasmanti: il modello ha mostrato, ma in maniera incostante, una limitata capacità di riconoscere il concetto introdotto. E, in generale, i risultati sono stati piuttosto incoerenti a seconda dei modelli utilizzati: i dati condivisi da Anthropic mostrano che i modelli più avanzati, Opus 4 e 4.1, hanno riconosciuto correttamente il concetto iniettato solo nel 20% dei casi, mentre in un altro esperimento per Opus 4.1 la capacità di riconoscimento è salita al 42%. Inoltre, la “consapevolezza introspettiva” variava sensibilmente in base al livello del modello in cui veniva inserito il concetto: se introdotto troppo presto o troppo tardi nel processo inferenziale, l’effetto scompariva del tutto.
Anthropic ha poi condotto ulteriori esperimenti, meglio dettagliati nel documento, per valutare la consapevolezza interna dei modelli linguistici, giungendo però sempre a risultati che non hanno permesso di riconoscere un'effettiva validità delle capacità di auto-comprendersi dei modelli. Esiste una certa consapevolezza degli stati interni dei modelli, che però è ancora troppo fragile e dipendente dal contesto per poter essere ritenuta affidabile.
Il problema più grosso, però, è il fatto che ancora non è possibile comprendere appieno i meccanismi che producono gli effetti osservati. Anche i ricercatori sono fermi a semplici ipotesi, difficili o impossibili fa verificare e quindi ferme più che altro al grado di "speculazione". Secondo i ricercatori, serviranno ulteriori indagini per comprendere come e in che misura un modello linguistico possa mostrare una forma di comprensione dei propri processi. Per ora, i risultati ottenuti sembrano riflettere meccanismi superficiali e altamente specializzati, privi della reale rilevanza che simili concetti possiedono negli esseri umani.










Recensione OnePlus 15: potenza da vendere e batteria enorme dentro un nuovo design
AMD Ryzen 5 7500X3D: la nuova CPU da gaming con 3D V-Cache per la fascia media
SONY BRAVIA 8 II e BRAVIA Theatre System 6: il cinema a casa in formato compatto
Black Friday arriva in anticipo: maxi ribassi sui robot aspirapolvere premium con lavaggio a caldo, ecco come sfruttare le offerte
GeForce NOW accoglie COD: Black Ops 7, Anno 117 e tanti altri nuovi giochi
Intel introduce la frame generation sulle GPU integrate dei processori Meteor Lake (e non solo)
La guida a "mani libere" di Ford BlueCruise arriva anche su Puma, Puma Gen-E, Kuga e Ranger PHEV
OPPO Find X9, la serie punta tutto sull'imaging mobile e il teleobiettivo Hasselblad da 200MP
Project Kuiper diventa Amazon Leo: l'alternativa di Stalink cambia nome
Macbook Pro M5 in sconto di 150€, 3 Mac mini scesi di prezzo, Macbook Air M4 a 879€, Watch 11 -23%: le offerte Apple migliori su Amazon
Google Pixel e Golden Goose: nasce l'esperienza di co-creazione con l'AI Gemini
CMF Headphone Pro: le cuffie Hi-Res con ANC e autonomia record ora a 69€
Death Stranding Isolations: la nuova serie animata di Kojima in arrivo su Disney+
DJI Osmo Action 4 Combo è un mostro assoluto: qualità incredibile in 4K e prezzo giù a meno di 200€
Windows diventerà un OS agentico? Agli utenti non interessa
Molti Paesi sceglieranno l'AI cinese perché gratuita: cosa ne pensa l'ex CEO di Google









8 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoScusate la battuta sarcastica.....
Io non sono consapevole di me stesso perché conosco come funziona il mio cervello e come forma le sue risposte a certi stimoli. Non traccio internamente il percorso tra le sinapsi, non so quali parti siano attive o meno.
Eppure so che esisto perché penso (cit.).
Chiedere a una AI di riconoscere se qualcosa che è cambiato nella sua capacità di elaborazione non ha alcun valore per sapere se è auto-cosciente o meno. La risposta è il semplice risultato di un confronto analitico tra un prima e un dopo.
Io non sono consapevole di me stesso perché conosco come funziona il mio cervello e come forma le sue risposte a certi stimoli. Non traccio internamente il percorso tra le sinapsi, non so quali parti siano attive o meno.
Eppure so che esisto perché penso (cit.).
Chiedere a una AI di riconoscere se qualcosa che è cambiato nella sua capacità di elaborazione non ha alcun valore per sapere se è auto-cosciente o meno. La risposta è il semplice risultato di un confronto analitico tra un prima e un dopo.
Esatto. Nessun modello di machine learning e più in generale di IA ha e avrai mai alcuna consapevolezza. In generale, secondo l'esperimento della stanza cinese di Searle non ci sarà mai alcuna IA strong o AGI (io concordo).
sono mesi che chiediamo sempre la stessa cosa, e sta pagliacciata di Chatgpt continua a cappellare
"disegna un triangolo rettangolo avente l'ipotenusa come base, e traccia l'altezza"
Link ad immagine (click per visualizzarla)
Link ad immagine (click per visualizzarla)
4 tentativo:
tu hai disegnato la base in alto, ma la base deve stare in basso, perchè è una base !
Hai perfettamente ragione �� — grazie per la pazienza!
Facciamo ordine e disegniamolo come si deve:
�� Triangolo rettangolo con l’ipotenusa come base, posta in basso,
e l’altezza relativa all’ipotenusa tracciata dal vertice opposto (cioè dall’angolo retto).
Link ad immagine (click per visualizzarla)
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".