Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT
La capacità di produrre testi e codice di programmazione non è necessariamente testimonianza di una reale comprensione della realtà
di Andrea Bai pubblicata il 11 Novembre 2024, alle 12:11 nel canale Scienza e tecnologiaI Large Language Model (LLM) alla base degli strumenti di intelligenza artificiale generativa hanno mostrato interessanti capacità di produzione di output testuali e codice di programmazione, ma ciò non significa che essi siano in grado di comprendere in maniera coerente il mondo reale. Un gruppo di ricercatori del MIT ha condotto uno studio che ha mostrato come un LLM possa facilmente perdersi in un bicchiere d'acqua quando vengono modificati improvvisamente alcuni elementi di un contesto di base.
Secondo lo studio un modello di IA generativa è stato in grado di fornire indicazioni stradali dettagliate per muoversi a New York City con un alto grado di precisione. Tuttavia, quando i ricercatori hanno introdotto delle deviazioni chiudendo alcune strade, le prestazioni del modello sono drasticamente peggiorate. Questo risultato ha evidenziato che il modello non aveva formato una mappa interna accurata della città e che, invece, le sue indicazioni si basavano su una rappresentazione distorta della griglia stradale, con strade inesistenti e collegamenti errati tra incroci distanti.
Il team di ricerca, coordinato da Ashesh Rambachan, professore assistente di economia al MIT e ricercatore principale presso il Laboratory for Information and Decision Systems (LIDS), ha sottolineato che queste scoperte sollevano questioni importanti sull'affidabilità dei modelli di IA generativa in contesti reali: "Poiché gli LLM possono compiere tutte queste cose straordinarie nel linguaggio, una speranza è di poterli utilizzare anche in altri ambiti scientifici, ma è cruciale determinare se questi modelli stiano effettivamente apprendendo rappresentazioni coerenti del mondo se li vogliamo utilizzare per fare nuove scoperte".

Per valutare se un modello di IA generativa ha formato una
rappresentazione accurata del mondo è stato necessario ideare due nuove
metriche, che sono poi state applicate ad un tipo specifico di problemi
noti che ncludono scenari con sequenze di stati ben definiti e regole
concrete da seguire e vanno sotto il nome di Deterministic Finite
Automation. Il team ha scelto due esempi per testare i modelli: la già
citata navigazione nelle strade di New York City e il gioco da tavolo
Othello. La prima metrica, chiamata distinzione delle sequenze,
valuta se il modello è in grado di riconoscere differenze tra stati
distinti (ad esempio, diverse configurazioni della tavola di Othello). La
seconda metrica, compressione delle sequenze, misura la capacità del
modello di riconoscere stati identici e trattarli allo stesso modo.
I ricercatori hanno testato due classi comuni di transformer: uno
addestrato su dati generati casualmente e l'altro su dati generati
seguendo strategie specifiche. I risultati hanno mostrato che i
transformer addestrati su dati casuali tendevano a formare modelli più
accurati del mondo rispetto a quelli addestrati su strategie più
strutturate. Questo potrebbe essere dovuto al fatto che i modelli
casuali incontrano una gamma più ampia di possibili scenari durante
l'addestramento. In particolare, nel gioco Othello, i transformer
addestrati su mosse casuali tendevano a vedere l'intero insieme delle
mosse possibili, comprese quelle meno ottimali che giocatori esperti non
farebbero mai.
Nonostante i transformer riuscissero a generare mosse valide nella maggior parte dei casi e fornire indicazioni stradali quasi sempre accurate, le nuove metriche sviluppate dai ricercatori hanno permesso di scoprire che solo uno dei modelli è stato in grado di formare una rappresentazione coerente delle mosse in Othello, mentre invece nessuno dei modelli testati è riuscito a costruire un modello coerente della rete stradale durante la navigazione a New York.
Quando i ricercatori hanno introdotto deviazioni nella mappa della città chiudendo solo l'1% delle strade disponibili, la precisione dei modelli è crollata dal 100% al 67%. Le mappe generate dai modelli contenevano numerose anomalie: strade inesistenti sovrapposte alla griglia urbana e collegamenti impossibili tra incroci distanti.
I risultati di questo studio hanno permesso ai ricercatori di mostrare che i modelli di intelligenza artificiale possono avere la capacità di eseguire compiti complessi, ma senza necessariamente comprendere le regole sottostanti e ancor di meno di avere una piena comprensione e consapevolezza della realtà. I ricercatori prevedono di estendere le proprie ricerche applicando le nuove metriche a una gamma più ampia di problemi scientifici reali e affrontando scenari in cui le regole sono solo parzialmente note.










Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Display, mini PC, periferiche e networking: le novità ASUS al CES 2026
ESA presenta ASTRIS, per rendere più versatile il razzo spaziale europeo Ariane 6
Ryanair non utilizzerà Starlink sui suoi aerei per via delle tratte brevi e dei consumi superiori
Prince of Persia Remake potrebbe essere vicinissimo: classificato dall'ESRB
Fujifilm annuncia la nuova stampante istantanea per smartphone instax mini Link+, da 169,99 euro
Arriva Red Hat Enterprise Linux for NVIDIA, distribuzione ottimizzata per le nuove architetture IA di NVIDIA
Il marchio Volkswagen Jetta torna, ma ora è un'azienda cinese in joint venture
L'odio verso Electronic Arts è sproporzionato secondo il creatore di Split Fiction
HONOR Magic 8 Pro: promosso da DXOMARK ma è un gradino sotto i migliori
instax mini Evo Cinema: la nuova soluzione di Fujifilm in arrivo a 389,99 euro in Italia
YouTube mette un freno agli Shorts: i genitori ora possono bloccarli del tutto
Dreame L40 Ultra AE di nuovo a 499€ su Amazon: aspirazione da 19.000 Pa e lavaggio a 75°C per il più conveniente tra i robot aspirapolvere
I consigli per l'upgrade del proprio PC: una GeForce RTX 5060 a poco più di 300€ e molto altro
Il cloud per i criminali? Si chiamava RedVDS, ed è stato messo offline grazie anche a Microsoft
SpaceX si aggiudica un contratto da 739 milioni di dollari dalla Space Force per 9 lanci spaziali









18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoPer ora,la cosa migliore è la guida umana aiutata da questi llm,l'essere umano per adesso ha ancora un peso.
https://www.youtube.com/watch?v=dIpsvF50yps
Peccato se ne fossero accorti praticamente tutti...tranne chi non ha ancora capito come funzionino.
ChatGPT is bullshit
Pappagalli stocastici e il potere delle big tech
Generatori di stronzate e sciacquoni
Stronzate Artificiali
Ma soprattutto Searle.
Per quelli bastano i gatti, come fanno già da tempo all'Hermitage
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".