NVIDIA Vera Rubin è una piattaforma composta da sette chip, e c'è anche la novità Groq

NVIDIA Vera Rubin è una piattaforma composta da sette chip, e c'è anche la novità Groq

NVIDIA ha presentato Vera Rubin, piattaforma AI con sette chip e architettura POD-scale pensata per le AI factory. L'integrazione delle nuove LPU accelera l'inferenza a bassa latenza, mentre il reference design DSX e Omniverse Blueprint puntano a ottimizzare efficienza energetica, scalabilità e tempi di sviluppo nei datacenter di nuova generazione.

di pubblicata il , alle 09:11 nel canale Server e Workstation
RubinNVIDIAGroqVera
 

In occasione della GTC 2026, NVIDIA ha annunciato la piattaforma Vera Rubin, una nuova generazione di infrastruttura per l'intelligenza artificiale. Il progetto integra sette nuovi chip già in produzione, combinati in un'architettura che punta a trasformare datacenter e cluster in vere e proprie AI factory scalabili.

La piattaforma riunisce componenti chiave come la CPU Vera (a cui abbiamo dedicato un articolo qui), la GPU Rubin, lo switch NVLink 6, le interfacce ConnectX-9 SuperNIC, la DPU BlueField-4 e lo switch Ethernet Spectrum-6, oltre al nuovo acceleratore Groq 3 LPU. L'obiettivo è coprire l'intero ciclo di vita dell'AI, dal pretraining fino all'inferenza agentica in tempo reale, integrando potenza di calcolo, networking e storage in un unico sistema coeso. L'introduzione della LPU segna inoltre un cambio di paradigma per NVIDIA, che affianca per la prima volta alle GPU un acceleratore dedicato esclusivamente all'inferenza.

Clicca per ingrandire

Uno degli elementi centrali della piattaforma resta il passaggio a sistemi POD-scale, dove rack completi operano come un singolo supercomputer. In questo contesto, la configurazione NVL72 integra 72 GPU Rubin e 36 CPU Vera collegate tramite NVLink 6, promettendo miglioramenti rilevanti in termini di efficienza: fino a 10 volte le prestazioni per watt in inferenza e una riduzione significativa del costo per token rispetto alla generazione precedente Blackwell.

Clicca per ingrandire

L'integrazione delle Groq 3 LPU introduce però un ulteriore livello di specializzazione. A differenza delle GPU, che utilizzano memoria HBM4 ad alta capacità (fino a 288 GB per chip), le LPU adottano 500 MB di SRAM on-chip. La capacità è nettamente inferiore, ma la banda raggiunge circa 150 TB/s, contro i circa 22 TB/s della HBM4. Questo approccio favorisce carichi di lavoro legati al decoding dei modelli linguistici, dove la velocità di accesso ai dati è più critica della capacità complessiva.

La Language Processing Unit nasce infatti con l'obiettivo di ottimizzare la generazione di token in tempo reale, adottando un'architettura deterministica priva di cache complesse, branch prediction o scheduling dinamico: ogni operazione viene pianificata a compile-time, garantendo latenze costanti e prevedibili, un requisito chiave per i sistemi AI interattivi e multi-agente.

Dal punto di vista computazionale, una singola LPU offre circa 1,2 PFLOPS in FP8 e integra 98 miliardi di transistor, numeri inferiori rispetto alla GPU Rubin ma ottimizzati per uno specifico segmento: l'inferenza a bassa latenza. NVIDIA non propone quindi una sostituzione delle GPU, ma un'architettura ibrida in cui GPU e LPU operano in sinergia, combinando throughput elevato e risposta immediata.

Questa filosofia si concretizza nei rack Groq 3 LPX, che aggregano 256 LPU per un totale di 128 GB di SRAM, circa 40 PB/s di banda memoria e oltre 300 PFLOPS di potenza computazionale. I rack sono raffreddati a liquido e integrati nello stesso ecosistema Vera Rubin, con interconnessioni ad alta velocità fino a 640 TB/s. NVIDIA prevede inoltre la possibilità di scalare queste configurazioni oltre le 1.000 LPU per cluster.

Nel funzionamento reale, i rack LPX affiancano i sistemi NVL72, permettendo di distribuire dinamicamente i workload tra GPU e LPU. Questo consente di ottimizzare il compromesso tra latenza e throughput: scenari con alta richiesta di reattività possono sfruttare le LPU, mentre il training e le operazioni più intensive restano sulle GPU. Secondo NVIDIA, questa combinazione può portare a un incremento fino a 35 volte del throughput per megawatt rispetto a Blackwell e a un potenziale aumento fino a 10 volte del rendimento economico per megawatt nei data center.

L'architettura è pensata anche per supportare la prossima evoluzione dei sistemi AI, in particolare i modelli multi-agente. In questi scenari, la comunicazione tra modelli richiede velocità nettamente superiori rispetto all'interazione con utenti umani: si passa da circa 100 token al secondo fino a oltre 1500 TPS, rendendo necessario un approccio radicalmente diverso all'inferenza.

Clicca per ingrandire

L'integrazione delle LPU rappresenta infine una risposta diretta alla crescente concorrenza nel segmento dell'inferenza a bassa latenza, dove aziende come Cerebras stanno proponendo architetture alternative basate su SRAM su larga scala.

L'intero ecosistema si inserisce in una strategia più ampia che coinvolge oltre 200 partner e include il supporto dei principali cloud provider come Amazon Web Services, Google Cloud e Microsoft Azure, oltre ai grandi OEM del settore server.

Parallelamente, NVIDIA ha presentato il reference design Vera Rubin DSX AI Factory, una guida progettuale per la realizzazione di infrastrutture AI completamente integrate, con l'obiettivo di massimizzare il rapporto tra prestazioni e consumo energetico (token per watt) e ridurre il tempo di messa in produzione.

Il design si accompagna alla disponibilità della piattaforma Omniverse DSX Blueprint, basata su NVIDIA Omniverse, che consente di creare digital twin fisicamente accurati delle AI factory. Questo approccio permette di simulare layout, flussi energetici, raffreddamento e carichi di lavoro prima della costruzione fisica, migliorando la prevedibilità e riducendo i rischi operativi.

L'ecosistema DSX coinvolge numerosi attori industriali, tra cui Siemens, Schneider Electric e Cadence, che contribuiscono con modelli simulativi, piattaforme software e soluzioni per la gestione energetica e termica. L'integrazione tra hardware e software diventa quindi un elemento chiave nella progettazione di data center di nuova generazione.

Infine, NVIDIA ha affrontato direttamente il tema del consumo energetico, oggi uno dei principali colli di bottiglia per l'espansione dell'AI. Attraverso tecnologie come DSX Flex e collaborazioni con aziende energetiche come GE Vernova e Hitachi, l'azienda punta a rendere le AI factory elementi attivi nella gestione della rete elettrica, capaci di adattare dinamicamente il consumo e contribuire alla stabilità del sistema.

1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
supertigrotto17 Marzo 2026, 10:15 #1
Mi sa che Nvidia si è accorta che altre proposte sono più efficienti anche se meno potenti?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^