Gli LLM non comprendono il mondo in maniera coerente: lo studio del MIT

La capacità di produrre testi e codice di programmazione non è necessariamente testimonianza di una reale comprensione della realtà
di Andrea Bai pubblicata il 11 Novembre 2024, alle 12:11 nel canale Scienza e tecnologiaI Large Language Model (LLM) alla base degli strumenti di intelligenza artificiale generativa hanno mostrato interessanti capacità di produzione di output testuali e codice di programmazione, ma ciò non significa che essi siano in grado di comprendere in maniera coerente il mondo reale. Un gruppo di ricercatori del MIT ha condotto uno studio che ha mostrato come un LLM possa facilmente perdersi in un bicchiere d'acqua quando vengono modificati improvvisamente alcuni elementi di un contesto di base.
Secondo lo studio un modello di IA generativa è stato in grado di fornire indicazioni stradali dettagliate per muoversi a New York City con un alto grado di precisione. Tuttavia, quando i ricercatori hanno introdotto delle deviazioni chiudendo alcune strade, le prestazioni del modello sono drasticamente peggiorate. Questo risultato ha evidenziato che il modello non aveva formato una mappa interna accurata della città e che, invece, le sue indicazioni si basavano su una rappresentazione distorta della griglia stradale, con strade inesistenti e collegamenti errati tra incroci distanti.
Il team di ricerca, coordinato da Ashesh Rambachan, professore assistente di economia al MIT e ricercatore principale presso il Laboratory for Information and Decision Systems (LIDS), ha sottolineato che queste scoperte sollevano questioni importanti sull'affidabilità dei modelli di IA generativa in contesti reali: "Poiché gli LLM possono compiere tutte queste cose straordinarie nel linguaggio, una speranza è di poterli utilizzare anche in altri ambiti scientifici, ma è cruciale determinare se questi modelli stiano effettivamente apprendendo rappresentazioni coerenti del mondo se li vogliamo utilizzare per fare nuove scoperte".

Per valutare se un modello di IA generativa ha formato una
rappresentazione accurata del mondo è stato necessario ideare due nuove
metriche, che sono poi state applicate ad un tipo specifico di problemi
noti che ncludono scenari con sequenze di stati ben definiti e regole
concrete da seguire e vanno sotto il nome di Deterministic Finite
Automation. Il team ha scelto due esempi per testare i modelli: la già
citata navigazione nelle strade di New York City e il gioco da tavolo
Othello. La prima metrica, chiamata distinzione delle sequenze,
valuta se il modello è in grado di riconoscere differenze tra stati
distinti (ad esempio, diverse configurazioni della tavola di Othello). La
seconda metrica, compressione delle sequenze, misura la capacità del
modello di riconoscere stati identici e trattarli allo stesso modo.
I ricercatori hanno testato due classi comuni di transformer: uno
addestrato su dati generati casualmente e l'altro su dati generati
seguendo strategie specifiche. I risultati hanno mostrato che i
transformer addestrati su dati casuali tendevano a formare modelli più
accurati del mondo rispetto a quelli addestrati su strategie più
strutturate. Questo potrebbe essere dovuto al fatto che i modelli
casuali incontrano una gamma più ampia di possibili scenari durante
l'addestramento. In particolare, nel gioco Othello, i transformer
addestrati su mosse casuali tendevano a vedere l'intero insieme delle
mosse possibili, comprese quelle meno ottimali che giocatori esperti non
farebbero mai.
Nonostante i transformer riuscissero a generare mosse valide nella maggior parte dei casi e fornire indicazioni stradali quasi sempre accurate, le nuove metriche sviluppate dai ricercatori hanno permesso di scoprire che solo uno dei modelli è stato in grado di formare una rappresentazione coerente delle mosse in Othello, mentre invece nessuno dei modelli testati è riuscito a costruire un modello coerente della rete stradale durante la navigazione a New York.
Quando i ricercatori hanno introdotto deviazioni nella mappa della città chiudendo solo l'1% delle strade disponibili, la precisione dei modelli è crollata dal 100% al 67%. Le mappe generate dai modelli contenevano numerose anomalie: strade inesistenti sovrapposte alla griglia urbana e collegamenti impossibili tra incroci distanti.
I risultati di questo studio hanno permesso ai ricercatori di mostrare che i modelli di intelligenza artificiale possono avere la capacità di eseguire compiti complessi, ma senza necessariamente comprendere le regole sottostanti e ancor di meno di avere una piena comprensione e consapevolezza della realtà. I ricercatori prevedono di estendere le proprie ricerche applicando le nuove metriche a una gamma più ampia di problemi scientifici reali e affrontando scenari in cui le regole sono solo parzialmente note.
18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoPer ora,la cosa migliore è la guida umana aiutata da questi llm,l'essere umano per adesso ha ancora un peso.
https://www.youtube.com/watch?v=dIpsvF50yps
Peccato se ne fossero accorti praticamente tutti...tranne chi non ha ancora capito come funzionino.
ChatGPT is bullshit
Pappagalli stocastici e il potere delle big tech
Generatori di stronzate e sciacquoni
Stronzate Artificiali
Ma soprattutto Searle.
Per quelli bastano i gatti, come fanno già da tempo all'Hermitage
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".