Il MIT ha scoperto il trucco per rendere i modelli AI più veloci del 200%
Un team del Massachusetts Institute of Technology ha sviluppato TLT, un sistema che sfrutta il tempo di calcolo inutilizzato durante il reinforcement learning per accelerare l'addestramento dei "reasoning LLM" fino al 210% senza perdita di accuratezza. La tecnica riduce costi ed energia migliorando l'efficienza complessiva del training.
di Manolo De Agostini pubblicata il 03 Marzo 2026, alle 07:01 nel canale Scienza e tecnologiaL'addestramento degli LLM con capacità di ragionamento rappresenta oggi una delle sfide più onerose in termini di calcolo ed energia. Questi modelli, progettati per scomporre problemi complessi in passaggi intermedi - non a caso si parla di catena di pensiero - richiedono cicli di apprendimento per rinforzo estremamente intensivi.
Un gruppo di ricercatori del Massachusetts Institute of Technology, in collaborazione con NVIDIA, ETH Zurich, MIT-IBM Watson AI Lab e University of Massachusetts Amherst, ha proposto una soluzione che punta a migliorare radicalmente l'efficienza del processo senza compromettere l'accuratezza dei modelli.

Nell'addestramento dei "reasoning LLM" tramite addestramento per rinforzo, il modello genera molteplici risposte candidate per ogni query (fase di rollout), riceve una ricompensa per la migliore e aggiorna i propri parametri di conseguenza. Questo ciclo viene ripetuto migliaia di volte.
Secondo i ricercatori, fino all'85% del tempo di esecuzione è assorbito proprio dalla generazione delle risposte, non dall'aggiornamento dei pesi del modello. Inoltre, l'architettura distribuita del training impone che tutti i processori coinvolti attendano il completamento delle risposte più lunghe prima di procedere allo step successivo. Di conseguenza, parte delle risorse di calcolo resta inutilizzata.
Per affrontare il problema, il team ha esteso il concetto di speculative decoding - che già aveva dimostrato i suoi vantaggi. La tecnica prevede l'impiego di un modello più piccolo - definito "drafter" - che anticipa le possibili uscite del modello principale. Quest'ultimo verifica in parallelo le previsioni, accettando quelle corrette e scartando le altre, con un'accelerazione rispetto alla generazione sequenziale.
Tuttavia, nei contesti di reinforcement learning tradizionali il modello principale viene aggiornato continuamente: un drafter statico diventerebbe rapidamente obsoleto. La soluzione proposta, denominata "Taming the Long Tail" (TLT), introduce un meccanismo adattivo su due livelli:
- Adaptive drafter trainer: utilizza i processori inattivi per aggiornare dinamicamente il modello ausiliario, mantenendolo allineato al modello principale senza richiedere risorse aggiuntive
- Adaptive rollout engine: regola automaticamente la configurazione dello speculative decoding in base al carico di lavoro e alle percentuali di accettazione delle previsioni
Il modello ausiliario è progettato per essere leggero e riutilizza componenti del processo di training del modello principale, massimizzando così l'efficienza.
TLT ha permesso di accelerare il training tra il 70% e il 210%, mantenendo invariata l'accuratezza finale dei modelli.
L'approccio non introduce overhead computazionale aggiuntivo, in quanto sfrutta esclusivamente il tempo di inattività già presente nell'infrastruttura di training. Questo aspetto potrebbe tradursi in una riduzione significativa dei costi operativi e dei consumi energetici, soprattutto in applicazioni critiche come la previsione di tendenze finanziarie o l'analisi dei rischi nelle reti elettriche.










Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
PC Specialist Lafité 14 AI AMD: assemblato come vuoi tu
L'esperimento BASE del CERN è riuscito a trasportare dell'antimateria
Afeela è morta: chiusa definitivamente la collaborazione tra Sony e Honda per gli EV premium
Intel BOT altera i risultati, Geekbench invita a non fidarsi dei risultati delle CPU che lo supportano
Intel e AMD faticano a soddisfare la domanda consumer: CPU introvabili e attese fino a sei mesi
Microsoft e NVIDIA insieme per dare una scossa allo sviluppo del nucleare: l'IA per accelerare i tempi
Ring rinnova l'intera gamma video: 4K su batteria, PoE e nuovo caricatore solare tra le novità
Recensione Galaxy Buds4 Pro: le cuffie Samsung più belle e intelligenti
Spotify si arricchisce ancora: arriva SongDNA, tutto sulla tua musica preferita
I digital twin di AVEVA a supporto delle AI Factory di NVIDIA
Iliad non si ferma: clienti in crescita sia sul mobile sia per la fibra
XuanTie C950, il chip IA di Alibaba basato su RISC-V sarà prodotto a 5 nm
Volkswagen richiama 94.000 auto elettriche per rischio incendio nei moduli batteria
Le nuove LaserJet di HP portano la crittografia quantum-resistant su tutte le stampanti, dalle Pro alle Enterprise
FSR 4 gira sulla GPU di PS5 Pro, ma non sulle vecchie Radeon: AMD cosa aspetti?









1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".