NVIDIA Vera Rubin è una piattaforma composta da sette chip, e c'è anche la novità Groq
NVIDIA ha presentato Vera Rubin, piattaforma AI con sette chip e architettura POD-scale pensata per le AI factory. L'integrazione delle nuove LPU accelera l'inferenza a bassa latenza, mentre il reference design DSX e Omniverse Blueprint puntano a ottimizzare efficienza energetica, scalabilità e tempi di sviluppo nei datacenter di nuova generazione.
di Manolo De Agostini pubblicata il 17 Marzo 2026, alle 09:11 nel canale Server e WorkstationRubinNVIDIAGroqVera
In occasione della GTC 2026, NVIDIA ha annunciato la piattaforma Vera Rubin, una nuova generazione di infrastruttura per l'intelligenza artificiale. Il progetto integra sette nuovi chip già in produzione, combinati in un'architettura che punta a trasformare datacenter e cluster in vere e proprie AI factory scalabili.

La piattaforma riunisce componenti chiave come la CPU Vera (a cui abbiamo dedicato un articolo qui), la GPU Rubin, lo switch NVLink 6, le interfacce ConnectX-9 SuperNIC, la DPU BlueField-4 e lo switch Ethernet Spectrum-6, oltre al nuovo acceleratore Groq 3 LPU. L'obiettivo è coprire l'intero ciclo di vita dell'AI, dal pretraining fino all'inferenza agentica in tempo reale, integrando potenza di calcolo, networking e storage in un unico sistema coeso. L'introduzione della LPU segna inoltre un cambio di paradigma per NVIDIA, che affianca per la prima volta alle GPU un acceleratore dedicato esclusivamente all'inferenza.
Clicca per ingrandire
Uno degli elementi centrali della piattaforma resta il passaggio a sistemi POD-scale, dove rack completi operano come un singolo supercomputer. In questo contesto, la configurazione NVL72 integra 72 GPU Rubin e 36 CPU Vera collegate tramite NVLink 6, promettendo miglioramenti rilevanti in termini di efficienza: fino a 10 volte le prestazioni per watt in inferenza e una riduzione significativa del costo per token rispetto alla generazione precedente Blackwell.
Clicca per ingrandire
L'integrazione delle Groq 3 LPU introduce però un ulteriore livello di specializzazione. A differenza delle GPU, che utilizzano memoria HBM4 ad alta capacità (fino a 288 GB per chip), le LPU adottano 500 MB di SRAM on-chip. La capacità è nettamente inferiore, ma la banda raggiunge circa 150 TB/s, contro i circa 22 TB/s della HBM4. Questo approccio favorisce carichi di lavoro legati al decoding dei modelli linguistici, dove la velocità di accesso ai dati è più critica della capacità complessiva.
La Language Processing Unit nasce infatti con l'obiettivo di ottimizzare la generazione di token in tempo reale, adottando un'architettura deterministica priva di cache complesse, branch prediction o scheduling dinamico: ogni operazione viene pianificata a compile-time, garantendo latenze costanti e prevedibili, un requisito chiave per i sistemi AI interattivi e multi-agente.
Dal punto di vista computazionale, una singola LPU offre circa 1,2 PFLOPS in FP8 e integra 98 miliardi di transistor, numeri inferiori rispetto alla GPU Rubin ma ottimizzati per uno specifico segmento: l'inferenza a bassa latenza. NVIDIA non propone quindi una sostituzione delle GPU, ma un'architettura ibrida in cui GPU e LPU operano in sinergia, combinando throughput elevato e risposta immediata.
Questa filosofia si concretizza nei rack Groq 3 LPX, che aggregano 256 LPU per un totale di 128 GB di SRAM, circa 40 PB/s di banda memoria e oltre 300 PFLOPS di potenza computazionale. I rack sono raffreddati a liquido e integrati nello stesso ecosistema Vera Rubin, con interconnessioni ad alta velocità fino a 640 TB/s. NVIDIA prevede inoltre la possibilità di scalare queste configurazioni oltre le 1.000 LPU per cluster.

Nel funzionamento reale, i rack LPX affiancano i sistemi NVL72, permettendo di distribuire dinamicamente i workload tra GPU e LPU. Questo consente di ottimizzare il compromesso tra latenza e throughput: scenari con alta richiesta di reattività possono sfruttare le LPU, mentre il training e le operazioni più intensive restano sulle GPU. Secondo NVIDIA, questa combinazione può portare a un incremento fino a 35 volte del throughput per megawatt rispetto a Blackwell e a un potenziale aumento fino a 10 volte del rendimento economico per megawatt nei data center.
L'architettura è pensata anche per supportare la prossima evoluzione dei sistemi AI, in particolare i modelli multi-agente. In questi scenari, la comunicazione tra modelli richiede velocità nettamente superiori rispetto all'interazione con utenti umani: si passa da circa 100 token al secondo fino a oltre 1500 TPS, rendendo necessario un approccio radicalmente diverso all'inferenza.
Clicca per ingrandire
L'integrazione delle LPU rappresenta infine una risposta diretta alla crescente concorrenza nel segmento dell'inferenza a bassa latenza, dove aziende come Cerebras stanno proponendo architetture alternative basate su SRAM su larga scala.
L'intero ecosistema si inserisce in una strategia più ampia che coinvolge oltre 200 partner e include il supporto dei principali cloud provider come Amazon Web Services, Google Cloud e Microsoft Azure, oltre ai grandi OEM del settore server.
Parallelamente, NVIDIA ha presentato il reference design Vera Rubin DSX AI Factory, una guida progettuale per la realizzazione di infrastrutture AI completamente integrate, con l'obiettivo di massimizzare il rapporto tra prestazioni e consumo energetico (token per watt) e ridurre il tempo di messa in produzione.
Il design si accompagna alla disponibilità della piattaforma Omniverse DSX Blueprint, basata su NVIDIA Omniverse, che consente di creare digital twin fisicamente accurati delle AI factory. Questo approccio permette di simulare layout, flussi energetici, raffreddamento e carichi di lavoro prima della costruzione fisica, migliorando la prevedibilità e riducendo i rischi operativi.
L'ecosistema DSX coinvolge numerosi attori industriali, tra cui Siemens, Schneider Electric e Cadence, che contribuiscono con modelli simulativi, piattaforme software e soluzioni per la gestione energetica e termica. L'integrazione tra hardware e software diventa quindi un elemento chiave nella progettazione di data center di nuova generazione.
Infine, NVIDIA ha affrontato direttamente il tema del consumo energetico, oggi uno dei principali colli di bottiglia per l'espansione dell'AI. Attraverso tecnologie come DSX Flex e collaborazioni con aziende energetiche come GE Vernova e Hitachi, l'azienda punta a rendere le AI factory elementi attivi nella gestione della rete elettrica, capaci di adattare dinamicamente il consumo e contribuire alla stabilità del sistema.













Tastiera gaming MSI GK600 TKL: switch hot-swap, display LCD e tre modalità wireless
DJI Osmo Pocket 4: la gimbal camera tascabile cresce e ha nuovi controlli fisici
Sony INZONE H6 Air: il primo headset open-back di Sony per giocatori
OnePlus ci riprova con la fascia bassa: sta per arrivare il nuovo Nord CE 6 Lite
La Top 10 delle offerte Amazon del weekend: iPhone 16e a 499€ al minimo storico, DJI Avata 2 FPV a 526€, LG OLED evo G5 e Apple Watch Series 11
XGIMI MoGo 2 Pro a 339€: Google TV con Netflix, 4K, Dolby Audio e autofocus in un mini proiettore che trasforma ogni stanza in un cinema
Forum IT & Intelligence 2026: dall'AI che non funziona a quella che batte gli esperti umani. E cosa manca in mezzo
iPhone 16e per la prima volta a meno di 500€ su Amazon: chip A18 per il più potente entry-level Apple
Stop Killing Games: Ross Scott convince il Parlamento europeo, la Commissione avvia l'analisi
Annunciata la tuta di volo di Vast che sarà utilizzata a bordo della stazione spaziale Haven-1
Vast presenta il nuovo Large Docking Adapter, pensato per le future stazioni spaziali commerciali
Una denuncia getta ombre sulle batterie miracolose di Donut Lab
DJI Avata 2 Fly Smart Combo a 526€: il drone FPV 4K con Goggles N3 e RC Motion 3 che trasforma in piloti professionisti
Alla guida della nuova auto elettrica cinese disegnata a Milano: GAC Aion UT
GeForce RTX 3060 12 GB a giugno di nuovo sugli scaffali? NVIDIA non commenta e non smentisce
Apple Music sarà sponsor ufficiale di Porsche nell'IMSA (con la livrea che ricorda la 935)
The Mandalorian & Grogu: trailer finale in italiano e prevendite aperte. Al cinema il 20 maggio









1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".