Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT

La capacità di produrre testi e codice di programmazione non è necessariamente testimonianza di una reale comprensione della realtà

di Andrea Bai pubblicata il 11 Novembre 2024, alle 12:11 nel canale Scienza e tecnologia

I Large Language Model (LLM) alla base degli strumenti di intelligenza artificiale generativa hanno mostrato interessanti capacità di produzione di output testuali e codice di programmazione, ma ciò non significa che essi siano in grado di comprendere in maniera coerente il mondo reale. Un gruppo di ricercatori del MIT ha condotto uno studio che ha mostrato come un LLM possa facilmente perdersi in un bicchiere d'acqua quando vengono modificati improvvisamente alcuni elementi di un contesto di base.

Secondo lo studio un modello di IA generativa è stato in grado di fornire indicazioni stradali dettagliate per muoversi a New York City con un alto grado di precisione. Tuttavia, quando i ricercatori hanno introdotto delle deviazioni chiudendo alcune strade, le prestazioni del modello sono drasticamente peggiorate. Questo risultato ha evidenziato che il modello non aveva formato una mappa interna accurata della città e che, invece, le sue indicazioni si basavano su una rappresentazione distorta della griglia stradale, con strade inesistenti e collegamenti errati tra incroci distanti.

Il team di ricerca, coordinato da Ashesh Rambachan, professore assistente di economia al MIT e ricercatore principale presso il Laboratory for Information and Decision Systems (LIDS), ha sottolineato che queste scoperte sollevano questioni importanti sull'affidabilità dei modelli di IA generativa in contesti reali: "Poiché gli LLM possono compiere tutte queste cose straordinarie nel linguaggio, una speranza è di poterli utilizzare anche in altri ambiti scientifici, ma è cruciale determinare se questi modelli stiano effettivamente apprendendo rappresentazioni coerenti del mondo se li vogliamo utilizzare per fare nuove scoperte".

Per valutare se un modello di IA generativa ha formato una rappresentazione accurata del mondo è stato necessario ideare due nuove metriche, che sono poi state applicate ad un tipo specifico di problemi noti che ncludono scenari con sequenze di stati ben definiti e regole concrete da seguire e vanno sotto il nome di Deterministic Finite Automation. Il team ha scelto due esempi per testare i modelli: la già citata navigazione nelle strade di New York City e il gioco da tavolo Othello. La prima metrica, chiamata distinzione delle sequenze, valuta se il modello è in grado di riconoscere differenze tra stati distinti (ad esempio, diverse configurazioni della tavola di Othello). La seconda metrica, compressione delle sequenze, misura la capacità del modello di riconoscere stati identici e trattarli allo stesso modo.

I ricercatori hanno testato due classi comuni di transformer: uno addestrato su dati generati casualmente e l'altro su dati generati seguendo strategie specifiche. I risultati hanno mostrato che i transformer addestrati su dati casuali tendevano a formare modelli più accurati del mondo rispetto a quelli addestrati su strategie più strutturate. Questo potrebbe essere dovuto al fatto che i modelli casuali incontrano una gamma più ampia di possibili scenari durante l'addestramento. In particolare, nel gioco Othello, i transformer addestrati su mosse casuali tendevano a vedere l'intero insieme delle mosse possibili, comprese quelle meno ottimali che giocatori esperti non farebbero mai.

Nonostante i transformer riuscissero a generare mosse valide nella maggior parte dei casi e fornire indicazioni stradali quasi sempre accurate, le nuove metriche sviluppate dai ricercatori hanno permesso di scoprire che solo uno dei modelli è stato in grado di formare una rappresentazione coerente delle mosse in Othello, mentre invece nessuno dei modelli testati è riuscito a costruire un modello coerente della rete stradale durante la navigazione a New York.

Quando i ricercatori hanno introdotto deviazioni nella mappa della città chiudendo solo l'1% delle strade disponibili, la precisione dei modelli è crollata dal 100% al 67%. Le mappe generate dai modelli contenevano numerose anomalie: strade inesistenti sovrapposte alla griglia urbana e collegamenti impossibili tra incroci distanti.

I risultati di questo studio hanno permesso ai ricercatori di mostrare che i modelli di intelligenza artificiale possono avere la capacità di eseguire compiti complessi, ma senza necessariamente comprendere le regole sottostanti e ancor di meno di avere una piena comprensione e consapevolezza della realtà. I ricercatori prevedono di estendere le proprie ricerche applicando le nuove metriche a una gamma più ampia di problemi scientifici reali e affrontando scenari in cui le regole sono solo parzialmente note.

I migliori sconti su Amazon oggi

-14%

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

699.00 599.00€ Compra ora

-43%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

149.90 85.03€ Compra ora

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

Apple ha capito come guadagnare con l'IA, senza far pagare gli utenti (quasi)

Nintendo fa causa a uno streamer: trasmetteva giochi pirata prima dell'uscita

supertigrotto11 Novembre 2024, 13:19 #1

Gli llm sono potentissimi pappagalli,molto utili,ti possono sveltire il lavoro ma per adesso sono solo pappagalli.
Per ora,la cosa migliore è la guida umana aiutata da questi llm,l'essere umano per adesso ha ancora un peso.

Unax11 Novembre 2024, 13:53 #2

come fottere una intelligenza artificiale

https://www.youtube.com/watch?v=dIpsvF50yps

Opteranium11 Novembre 2024, 13:56 #3

beh, mi pare ovvio che non comprendano, anche perché diversamente sarebbero già vere e proprie intelligenze artificiali

h.rorschach11 Novembre 2024, 14:18 #4

Gli LLM non comprendono, non possono comprendere

TorettoMilano11 Novembre 2024, 14:20 #5

vabbè l'anno prossimo avremo l'AGI, poi valutiamo

pachainti11 Novembre 2024, 15:58 #6

La scoperta dell'acqua calda.
Peccato se ne fossero accorti praticamente tutti...tranne chi non ha ancora capito come funzionino.

ChatGPT is bullshit
Pappagalli stocastici e il potere delle big tech
Generatori di stronzate e sciacquoni
Stronzate Artificiali

Ma soprattutto Searle.

omerook11 Novembre 2024, 16:37 #7

l'importante è che prenda i topi!

Nui_Mg11 Novembre 2024, 17:36 #8

Originariamente inviato da: omerook

l'importante è che prenda i topi!

Per quelli bastano i gatti, come fanno già da tempo all'Hermitage

PierPang11 Novembre 2024, 20:31 #9

Il paper originale non dice che gli LLM non hanno comprensione del mondo, ma che in determinati casi il modello che si costruiscono è fragile e non del tutto coerente. Lo scopo dei ricercatori, con buona pace dei negazionisti, non era quello di dimostrae che l'AI non esiste, ma di trovare metriche migliori per misurare la qualità del modello implicito che gli LLM si costruiscono in modo da poterli rendere più accurati.

polkaris12 Novembre 2024, 09:49 #10

@PierPang sono assolutamente d'accordo, il lavoro originale è interessante perché parla di nuove metriche...stavo proprio per fare un intervento analogo al tuo. Il titolo dell'articolo è fuorviante e lo sono anche buona parte dei commenti.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

18 Commenti