LLM forti solo nel linguaggio? Non proprio: c'è chi li sta allenando nel ragionamento non verbale

Un recente studio di Meta, insieme a UC San Diego, rivela come l'elaborazione nello spazio latente possa rivoluzionare il modo in cui i modelli linguistici affrontano problemi logici complessi, superando le limitazioni dell'elaborazione del linguaggio naturale.
di Nino Grasso pubblicata il 14 Dicembre 2024, alle 08:01 nel canale WebMeta
I modelli linguistici di grandi dimensioni (LLM) continuano a dimostrare capacità sorprendenti nel comprendere e generare linguaggio. Tuttavia, quando si tratta di affrontare compiti di ragionamento complessi che richiedono una logica astratta, anche gli LLM di dimensioni superiori faticano a offrire risposte sempre coerenti e corrette. Secondo Meta, potrebbe essere l'approccio a essere sbagliato e con un nuovo metodo è possibile ottenere risultati sensibilmente superiori in diversi campi.
Durante la scorsa settimana, un team di ricercatori dell'azienda e dell'Università della California, San Diego, ha proposto un sistema innovativo per affrontare queste difficoltà, spostando l'attenzione dall'elaborazione verbale a quella non verbale attraverso l'uso dello "spazio latente". Questo metodo, descritto in un nuovo articolo sul modello COCONUT (Chain Of CONtinUous Thought), potrebbe rappresentare un cambiamento fondamentale nella progettazione e nell'implementazione dei modelli di intelligenza artificiale.
Meta vuole andare oltre le limitazioni dei modelli tradizionali: ecco in che modo
I modelli attuali utilizzano una "catena di pensiero" per elaborare le informazioni, processo che implica che ogni fase del ragionamento venga espressa attraverso una sequenza di token in linguaggio naturale. Sebbene questo approccio abbia portato a risultati notevoli in molte applicazioni, presenta anche dei limiti che sono sempre più evidenti man mano che il prompt diventa più complesso e estratto. La necessità di tradurre ogni passaggio in linguaggio naturale può ostacolare la capacità dei modelli di gestire situazioni complesse che richiedono un ragionamento più profondo e articolato prima di essere messo per iscritto.
I ricercatori hanno identificato questa dipendenza dal linguaggio come un "vincolo fondamentale", suggerendo che il ragionamento potrebbe beneficiare di un'elaborazione più diretta e meno influenzata dalla verbalizzazione. Il modello COCONUT si propone come una soluzione a questa problematica: l'idea centrale è quella di consentire agli LLM di operare nello spazio latente, dove le informazioni vengono elaborate prima della loro traduzione in linguaggio naturale. Così facendo, i modelli possono ragionare senza essere vincolati dalla necessità di esprimere ogni passaggio in forma verbale, caratteristica che consente una maggiore libertà e flessibilità nel processo decisionale.
COCONUT introduce il concetto di "pensieri latenti" nell'IA generativa, ovvero stati nascosti che sostituiscono i singoli passaggi scritti in una sequenza logica. Questo approccio evita la necessità di convertire continuamente da e verso il linguaggio naturale, liberando il ragionamento dai vincoli imposti dalla verbalizzazione. I ricercatori hanno scoperto che questa modalità di elaborazione consente ai modelli di mantenere simultaneamente più opzioni logiche e percorsi potenziali, facilitando un processo decisionale più efficiente. In particolare, il modello è in grado di eseguire una sorta di "backtracking" istantaneo, ovvero una sorta di monitoraggio a ritroso fra tutte le soluzioni possibili per la scelta di un'unica opzionale finale. Il modello può, quindi, esplorare diverse opzioni logiche contemporaneamente e scartare quelle errate senza dover completare ogni percorso fino alla fine. Questa proprietà emerge anche se il modello non è esplicitamente addestrato a farlo, suggerendo che l'elaborazione nello spazio latente possa favorire un tipo di ragionamento multi-percorso più naturale ed efficace.
I test condotti fino ad oggi con COCONUT hanno mostrato risultati interessanti, soprattutto su compiti complessi che coinvolgono condizioni logiche intricate. Ad esempio, durante le prove di ragionamento generico su query generate casualmente, il modello ha dimostrato una capacità superiore rispetto ai tradizionali sistemi basati sulla catena di pensiero. I modelli standard, infatti, spesso si bloccano in percorsi senza uscita o generano regole inesistenti durante la risoluzione delle catene logiche, COCONUT è riuscito a mantenere una coerenza logica anche in situazioni complicate. Tuttavia, è importante notare che il modello non ha mostrato miglioramenti significativi nelle valutazioni standardizzate come GSM8K (problemi matematici) o ProntoQA rispetto ai metodi tradizionali.
Al momento, quindi, l'approccio nello spazio latente offre vantaggi per compiti complessi, ma potrebbe non essere necessariamente superiore per problemi più semplici o diretti. L'obiettivo dello studio è comprendere le dinamiche interne dei modelli linguistici e sfruttarne le potenzialità per migliorare le prestazioni generali, con la possibilità di addestrare modelli con pensieri continui fin dall'inizio che potrebbe consentire loro di generalizzare meglio su una gamma più ampia di scenari logici. Con ulteriori sviluppi e ottimizzazioni, l'approccio alla base di COCONUT potrebbe diventare uno standard per la progettazione futura degli LLM.
Inoltre, l'esplorazione dello spazio latente offre nuove prospettive anche in settori come la robotica e la pianificazione automatica, dove la capacità dei modelli di operare al di fuori del vincolo linguistico potrebbe rivelarsi cruciale per sviluppare sistemi sempre più autonomi e intelligenti. Con ulteriori sviluppi e applicazioni pratiche, il nuovo metodo potrebbe rappresentare una base concreta sia nel modo in cui noi ci approcciamo alla tecnologia, sia come la tecnologia affronta le sfide del mondo reale.
6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoQuest'altro paper di un paio di giorni fa da Meta FAIR esplora altre idee in quel senso; un'architettura dove non viene predetta solo la successiva parola (o token), ma un intero concetto/frase:
Large Concept Models: Language Modeling in a Sentence Representation Space
https://arxiv.org/abs/2412.08821
Tuttavia, dopo il flop di Galactica, non c'è da aspettarsi nulla. Anzi, il contrario.
Why Meta’s latest large language model survived only three days online
Tuttavia, dopo il flop di Galactica, non c'è da aspettarsi nulla. Anzi, il contrario.
Archeologia nel campo; cambia disco.
Se vogliamo parlare di archeologia, dobbiamo andare ai tempi dei "padri" dell'IA, anni 70.
In 1958, Herbert Simon and Allen Newell wrote, “within ten years a digital computer will be the world’s chess champion”, and “within ten years a digital computer will discover and prove an important new mathematical theorem.”
In 1965, Herbert Simon predicted that “machines will be capable, within twenty years, of doing any work a man can do.”
In 1967, Marvin Minsky predicted that “Within a generation . . . the problem of creating `artificial intelligence’ will substantially be solved.”
In 1970, Marvin Minsky, in an interview with Life Magazine, stated “In from three to eight years we will have a machine with the general intelligence of an average human being.”
Come vedi ci hanno preso pienamente
Io mi baso sull'evidenza dei fatti, al momento gli LLM e chatGPT sono generatori di stronzate, come dimostrato anche da accademici: chatGPT is bullshit (archeologia di giugno-luglio 2024).
Se in futuro le cose cambieranno, poco probabile visto il funzionamento intrinseco degli algoritmi, potrò cambiare idea.
Comunque già allo stato attuale ci sono diversi compiti che sono molto ben serviti da specifici llm, per esempio nella ricerca semantica e infatti per i segnalibri la uso sempre più al posto dei tag strutturati.
Si, in casi particolari, contesti limitati qualcosa funziona. Tuttavia, non c'è niente di intelligente, come spiegato praticamente ovunque.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".