Gemma 4 corre su hardware consumer: i nuovi drafter di Google triplicano la velocità
Google ha rilasciato i nuovi drafter Multi-Token Prediction per la famiglia Gemma 4, una soluzione software capace di triplicare le prestazioni in inferenza locale tramite speculative decoding, garantendo massima qualità e zero latenza
di Nino Grasso pubblicata il 08 Maggio 2026, alle 12:31 nel canale WebGoogle ha rilasciato i Multi-Token Prediction (MTP) drafters per la famiglia di modelli open Gemma 4, con la novità che promette un incremento della velocità di generazione fino a tre volte superiore rispetto agli standard attuali. Il principale vantaggio è che il boost prestazionale avviene senza alcuna degradazione della qualità dell'output o delle capacità di ragionamento del modello.
Il problema risiede storicamente nell'architettura stessa dei Large Language Models, che generano testo un frammento (token) alla volta. Questo processo costringe l'hardware a spostare miliardi di parametri dalla memoria alle unità di calcolo per ogni singolo token prodotto, rendendo l'esperienza su PC consumer spesso frustrante e caratterizzata da lunghe attese. Mentre finora l'unica via d'uscita era l'utilizzo di modelli più piccoli o compressi, la mossa di Mountain View punta tutto sull'ottimizzazione del processo di serving.
Google c'è riuscita, in particolare, attraverso lo speculative decoding, un concetto che l'azienda esplora dal 2022 ma che trova oggi la sua massima espressione applicativa. Il sistema accoppia il modello principale, potente e denso, con un "drafter" estremamente leggero che agisce come un predittore veloce: ipotizza una sequenza di più token contemporaneamente in una frazione del tempo che il modello target impiegherebbe per produrne uno solo.
Successivamente, il modello principale interviene per verificare l'intera sequenza in un unico passaggio parallelo. Se le previsioni del drafter sono corrette, l'intera stringa viene accettata istantaneamente, sfruttando cicli di calcolo della GPU che altrimenti resterebbero inutilizzati durante i tempi morti dell'inferenza tradizionale. In questo scenario, il modello target può persino generare un token aggiuntivo proprio durante la fase di convalida, massimizzando l'efficienza temporale.
I dati diffusi da Google mostrano benefici evidenti su diverse architetture hardware. Una configurazione basata su NVIDIA RTX Pro 6000 che esegue Gemma 4 26B ha registrato un raddoppio netto dei token per secondo attivando il drafter MTP. Sul fronte Apple Silicon, i test indicano uno speedup di circa 2.2x con batch size compresi tra 4 e 8 richieste. Sebbene il tetto teorico del 3x non sia costante in ogni scenario d'uso, il passaggio trasforma modelli precedentemente al limite dell'usabilità in strumenti fluidi e pronti per l'integrazione in flussi di lavoro professionali.
A differenza di approcci sperimentali come i modelli di diffusione applicati al linguaggio (che soffrono ancora di lacune qualitative rispetto ai transformer), lo speculative decoding non altera i pesi o l'architettura del modello originale ma esegue un'ottimizzazione puramente logica della gestione dei carichi. Per affinare ulteriormente il processo, Google ha implementato una gestione condivisa della KV cache (Key-Value cache), evitando che il drafter debba ricalcolare contesti già elaborati dal modello principale.
L'ecosistema IA sta vivendo una fase in cui l'efficienza software pesa quanto, se non più, della potenza hardware bruta. L'esempio di DeepSeek ha già dimostrato come l'ottimizzazione dei costi di addestramento e inferenza possa scuotere i mercati e le valutazioni dei giganti del silicio come Nvidia. Con i drafter MTP, Google si posiziona strategicamente nel segmento dell'IA locale, dove la latenza è il fattore determinante per il successo di assistenti al coding, interfacce vocali e agenti autonomi.
I nuovi drafter sono già accessibili tramite i principali repository del settore, inclusi Hugging Face, Kaggle e Ollama, distribuiti con licenza Apache 2.0. Il supporto nativo è garantito per i framework più diffusi come vLLM, MLX, SGLang e la libreria Transformers di Hugging Face, quindi Big G intende offrire un'adozione immediata per chiunque stia già utilizzando la famiglia Gemma 4 nei propri applicativi locali o in ambiente cloud ottimizzato.









NL-LC1 è il primo dissipatore a liquido AIO di Noctua: silenzio è la parola d'ordine
Boox Go 10.3 (Gen II) Lumi: il tablet e-ink con Android 15 e penna, dal prezzo super
Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming
TIMVISION: rincaro di 2 euro al mese in arrivo per questi pacchetti mensili
Apple: nuovo dominio condiviso per Sign in with Apple e Hide My Email da estate 2026
XBOX, terremoto in vista: incerto il futuro di alcuni studi, tra cui Ninja Theory
Salesforce compra Fin per 3,6 miliardi di dollari: arriva l'agente AI per il supporto clienti
Tenstorrent potrebbe finire nelle mani di Qualcomm: fino a 10 miliardi per l'azienda di Jim Keller
Beatbot porta la manutenzione smart in piscina: meno lavoro manuale, più automazione e pulizia completa
Microsoft potrebbe introdurre pagamenti a rate per le future console Xbox attraverso PayPal e Klarna
LiteLLM, tre falle critiche: la catena di vulnerabilità espone le chiavi API di OpenAI, Anthropic e Azure
Servizi cloud su iOS, l'Antitrust italiana indaga Apple per il DMA
Arch Linux: oltre 1.900 pacchetti AUR infettati da malware in pochi giorni
Le frodi finanziarie valgono quanto il PIL della Danimarca. L'Interpol punta il dito contro l'IA
Electronic Arts presenta EA Advertising e apre le porte alla pubblicità integrata nei videogiochi
Addio silicio? Imec, ASML e TSMC mostrano transistor 2D compatibili con i processi più avanzati
iPhone Ultra: rimandato e costosissimo? Le ultime sul primo pieghevole di Apple









4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoQuesta non l'ho capita, una volta che i pesi sono caricati in memoria lì restano, non vanno da nessuna parte.
Beh devono essere trasmessi alla GPU per i calcoli, piú volte per i vari token predetti uno ad uno con la tecnica tradizionale
Vanno dalla memoria alla cpu/gpu a mano a mano che avviene l'inferenza
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".