Gemma 4 corre su hardware consumer: i nuovi drafter di Google triplicano la velocità

Gemma 4 corre su hardware consumer: i nuovi drafter di Google triplicano la velocità

Google ha rilasciato i nuovi drafter Multi-Token Prediction per la famiglia Gemma 4, una soluzione software capace di triplicare le prestazioni in inferenza locale tramite speculative decoding, garantendo massima qualità e zero latenza

di pubblicata il , alle 12:31 nel canale Web
Google
 

Google ha rilasciato i Multi-Token Prediction (MTP) drafters per la famiglia di modelli open Gemma 4, con la novità che promette un incremento della velocità di generazione fino a tre volte superiore rispetto agli standard attuali. Il principale vantaggio è che il boost prestazionale avviene senza alcuna degradazione della qualità dell'output o delle capacità di ragionamento del modello.

Il problema risiede storicamente nell'architettura stessa dei Large Language Models, che generano testo un frammento (token) alla volta. Questo processo costringe l'hardware a spostare miliardi di parametri dalla memoria alle unità di calcolo per ogni singolo token prodotto, rendendo l'esperienza su PC consumer spesso frustrante e caratterizzata da lunghe attese. Mentre finora l'unica via d'uscita era l'utilizzo di modelli più piccoli o compressi, la mossa di Mountain View punta tutto sull'ottimizzazione del processo di serving.

Google c'è riuscita, in particolare, attraverso lo speculative decoding, un concetto che l'azienda esplora dal 2022 ma che trova oggi la sua massima espressione applicativa. Il sistema accoppia il modello principale, potente e denso, con un "drafter" estremamente leggero che agisce come un predittore veloce: ipotizza una sequenza di più token contemporaneamente in una frazione del tempo che il modello target impiegherebbe per produrne uno solo.

Successivamente, il modello principale interviene per verificare l'intera sequenza in un unico passaggio parallelo. Se le previsioni del drafter sono corrette, l'intera stringa viene accettata istantaneamente, sfruttando cicli di calcolo della GPU che altrimenti resterebbero inutilizzati durante i tempi morti dell'inferenza tradizionale. In questo scenario, il modello target può persino generare un token aggiuntivo proprio durante la fase di convalida, massimizzando l'efficienza temporale.

I dati diffusi da Google mostrano benefici evidenti su diverse architetture hardware. Una configurazione basata su NVIDIA RTX Pro 6000 che esegue Gemma 4 26B ha registrato un raddoppio netto dei token per secondo attivando il drafter MTP. Sul fronte Apple Silicon, i test indicano uno speedup di circa 2.2x con batch size compresi tra 4 e 8 richieste. Sebbene il tetto teorico del 3x non sia costante in ogni scenario d'uso, il passaggio trasforma modelli precedentemente al limite dell'usabilità in strumenti fluidi e pronti per l'integrazione in flussi di lavoro professionali.

A differenza di approcci sperimentali come i modelli di diffusione applicati al linguaggio (che soffrono ancora di lacune qualitative rispetto ai transformer), lo speculative decoding non altera i pesi o l'architettura del modello originale ma esegue un'ottimizzazione puramente logica della gestione dei carichi. Per affinare ulteriormente il processo, Google ha implementato una gestione condivisa della KV cache (Key-Value cache), evitando che il drafter debba ricalcolare contesti già elaborati dal modello principale.

L'ecosistema IA sta vivendo una fase in cui l'efficienza software pesa quanto, se non più, della potenza hardware bruta. L'esempio di DeepSeek ha già dimostrato come l'ottimizzazione dei costi di addestramento e inferenza possa scuotere i mercati e le valutazioni dei giganti del silicio come Nvidia. Con i drafter MTP, Google si posiziona strategicamente nel segmento dell'IA locale, dove la latenza è il fattore determinante per il successo di assistenti al coding, interfacce vocali e agenti autonomi.

I nuovi drafter sono già accessibili tramite i principali repository del settore, inclusi Hugging Face, Kaggle e Ollama, distribuiti con licenza Apache 2.0. Il supporto nativo è garantito per i framework più diffusi come vLLM, MLX, SGLang e la libreria Transformers di Hugging Face, quindi Big G intende offrire un'adozione immediata per chiunque stia già utilizzando la famiglia Gemma 4 nei propri applicativi locali o in ambiente cloud ottimizzato.

4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Unrue08 Maggio 2026, 13:45 #1
Questo processo costringe l'hardware a spostare miliardi di parametri dalla memoria alle unità di calcolo per ogni singolo token prodotto


Questa non l'ho capita, una volta che i pesi sono caricati in memoria lì restano, non vanno da nessuna parte.
pengfei08 Maggio 2026, 15:06 #2
Originariamente inviato da: Unrue
Questa non l'ho capita, una volta che i pesi sono caricati in memoria lì restano, non vanno da nessuna parte.


Beh devono essere trasmessi alla GPU per i calcoli, piú volte per i vari token predetti uno ad uno con la tecnica tradizionale
Rubberick08 Maggio 2026, 21:32 #3
per usarli direttamente si può passare per ollama come varianti del modello ?
blackshard08 Maggio 2026, 22:24 #4
Originariamente inviato da: Unrue
Questa non l'ho capita, una volta che i pesi sono caricati in memoria lì restano, non vanno da nessuna parte.


Vanno dalla memoria alla cpu/gpu a mano a mano che avviene l'inferenza

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^