Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT

Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT

La capacità di produrre testi e codice di programmazione non è necessariamente testimonianza di una reale comprensione della realtà

di pubblicata il , alle 12:11 nel canale Scienza e tecnologia
 

I Large Language Model (LLM) alla base degli strumenti di intelligenza artificiale generativa hanno mostrato interessanti capacità di produzione di output testuali e codice di programmazione, ma ciò non significa che essi siano in grado di comprendere in maniera coerente il mondo reale. Un gruppo di ricercatori del MIT ha condotto uno studio che ha mostrato come un LLM possa facilmente perdersi in un bicchiere d'acqua quando vengono modificati improvvisamente alcuni elementi di un contesto di base.

Secondo lo studio un modello di IA generativa è stato in grado di fornire indicazioni stradali dettagliate per muoversi a New York City con un alto grado di precisione. Tuttavia, quando i ricercatori hanno introdotto delle deviazioni chiudendo alcune strade, le prestazioni del modello sono drasticamente peggiorate. Questo risultato ha evidenziato che il modello non aveva formato una mappa interna accurata della città e che, invece, le sue indicazioni si basavano su una rappresentazione distorta della griglia stradale, con strade inesistenti e collegamenti errati tra incroci distanti.

Il team di ricerca, coordinato da Ashesh Rambachan, professore assistente di economia al MIT e ricercatore principale presso il Laboratory for Information and Decision Systems (LIDS), ha sottolineato che queste scoperte sollevano questioni importanti sull'affidabilità dei modelli di IA generativa in contesti reali: "Poiché gli LLM possono compiere tutte queste cose straordinarie nel linguaggio, una speranza è di poterli utilizzare anche in altri ambiti scientifici, ma è cruciale determinare se questi modelli stiano effettivamente apprendendo rappresentazioni coerenti del mondo se li vogliamo utilizzare per fare nuove scoperte".

Per valutare se un modello di IA generativa ha formato una rappresentazione accurata del mondo è stato necessario ideare due nuove metriche, che sono poi state applicate ad un tipo specifico di problemi noti che ncludono scenari con sequenze di stati ben definiti e regole concrete da seguire e vanno sotto il nome di Deterministic Finite Automation. Il team ha scelto due esempi per testare i modelli: la già citata navigazione nelle strade di New York City e il gioco da tavolo Othello. La prima metrica, chiamata distinzione delle sequenze, valuta se il modello è in grado di riconoscere differenze tra stati distinti (ad esempio, diverse configurazioni della tavola di Othello). La seconda metrica, compressione delle sequenze, misura la capacità del modello di riconoscere stati identici e trattarli allo stesso modo.

I ricercatori hanno testato due classi comuni di transformer: uno addestrato su dati generati casualmente e l'altro su dati generati seguendo strategie specifiche. I risultati hanno mostrato che i transformer addestrati su dati casuali tendevano a formare modelli più accurati del mondo rispetto a quelli addestrati su strategie più strutturate. Questo potrebbe essere dovuto al fatto che i modelli casuali incontrano una gamma più ampia di possibili scenari durante l'addestramento. In particolare, nel gioco Othello, i transformer addestrati su mosse casuali tendevano a vedere l'intero insieme delle mosse possibili, comprese quelle meno ottimali che giocatori esperti non farebbero mai.

Nonostante i transformer riuscissero a generare mosse valide nella maggior parte dei casi e fornire indicazioni stradali quasi sempre accurate, le nuove metriche sviluppate dai ricercatori hanno permesso di scoprire che solo uno dei modelli è stato in grado di formare una rappresentazione coerente delle mosse in Othello, mentre invece nessuno dei modelli testati è riuscito a costruire un modello coerente della rete stradale durante la navigazione a New York.

Quando i ricercatori hanno introdotto deviazioni nella mappa della città chiudendo solo l'1% delle strade disponibili, la precisione dei modelli è crollata dal 100% al 67%. Le mappe generate dai modelli contenevano numerose anomalie: strade inesistenti sovrapposte alla griglia urbana e collegamenti impossibili tra incroci distanti.

I risultati di questo studio hanno permesso ai ricercatori di mostrare che i modelli di intelligenza artificiale possono avere la capacità di eseguire compiti complessi, ma senza necessariamente comprendere le regole sottostanti e ancor di meno di avere una piena comprensione e consapevolezza della realtà. I ricercatori prevedono di estendere le proprie ricerche applicando le nuove metriche a una gamma più ampia di problemi scientifici reali e affrontando scenari in cui le regole sono solo parzialmente note.

18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
supertigrotto11 Novembre 2024, 13:19 #1
Gli llm sono potentissimi pappagalli,molto utili,ti possono sveltire il lavoro ma per adesso sono solo pappagalli.
Per ora,la cosa migliore è la guida umana aiutata da questi llm,l'essere umano per adesso ha ancora un peso.
Unax11 Novembre 2024, 13:53 #2
come fottere una intelligenza artificiale

https://www.youtube.com/watch?v=dIpsvF50yps
Opteranium11 Novembre 2024, 13:56 #3
beh, mi pare ovvio che non comprendano, anche perché diversamente sarebbero già vere e proprie intelligenze artificiali
h.rorschach11 Novembre 2024, 14:18 #4
Gli LLM non comprendono, non possono comprendere
TorettoMilano11 Novembre 2024, 14:20 #5
vabbè l'anno prossimo avremo l'AGI, poi valutiamo
pachainti11 Novembre 2024, 15:58 #6
La scoperta dell'acqua calda.
Peccato se ne fossero accorti praticamente tutti...tranne chi non ha ancora capito come funzionino.

ChatGPT is bullshit
Pappagalli stocastici e il potere delle big tech
Generatori di stronzate e sciacquoni
Stronzate Artificiali

Ma soprattutto Searle.

omerook11 Novembre 2024, 16:37 #7
l'importante è che prenda i topi!
Nui_Mg11 Novembre 2024, 17:36 #8
Originariamente inviato da: omerook
l'importante è che prenda i topi!

Per quelli bastano i gatti, come fanno già da tempo all'Hermitage
PierPang11 Novembre 2024, 20:31 #9
Il paper originale non dice che gli LLM non hanno comprensione del mondo, ma che in determinati casi il modello che si costruiscono è fragile e non del tutto coerente. Lo scopo dei ricercatori, con buona pace dei negazionisti, non era quello di dimostrae che l'AI non esiste, ma di trovare metriche migliori per misurare la qualità del modello implicito che gli LLM si costruiscono in modo da poterli rendere più accurati.
polkaris12 Novembre 2024, 09:49 #10
@PierPang sono assolutamente d'accordo, il lavoro originale è interessante perché parla di nuove metriche...stavo proprio per fare un intervento analogo al tuo. Il titolo dell'articolo è fuorviante e lo sono anche buona parte dei commenti.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^