Blackwell Ultra: NVIDIA svela i dettagli del nuovo mostro per l'intelligenza artificiale

Blackwell Ultra: NVIDIA svela i dettagli del nuovo mostro per l'intelligenza artificiale

NVIDIA ha svelato i dettagli Blackwell Ultra, evoluzione della sua architettura AI con 208 miliardi di transistor e 288 GB di memoria HBM3E. L'acceleratore raggiunge 15 PetaFLOPS con precisione NVFP4 e può gestire modelli da oltre 300 miliardi di parametri.

di pubblicata il , alle 12:01 nel canale Schede Video
NVIDIABlackwell
 

La roadmap di NVIDIA nell'ambito degli acceleratori di intelligenza artificiale si articola con una cadenza annuale fatta di nuovi design e aggiornamenti degli stessi per fornire ulteriore potenza e memoria, a vantaggio delle prestazioni finali.

Mentre le GPU Blackwell che stanno raggiungendo i principali attori del mercato AI, NVIDIA è già proiettata su Blackwell Ultra. La società guidata da Jensen Huang ne ha recentemente parlato in un post sul proprio sito, svelando i miglioramenti cardine rispetto al predecessore.

Clicca per ingrandire

Le fondamenta sono le stesse: un design a doppio die che forma un'unica, grande GPU, grazie all'interconnessione NVIDIA High-Bandwidth Interface (NV-HBI), una tecnologia che garantisce una larghezza di banda di 10 TB/s.

Blackwell Ultra è prodotto con processo TSMC 4NP e dispone di 208 miliardi di transistor, 2,6 volte in più di Hopper. Un totale di 160 Streaming Multiprocessor si distribuisce tra due die (rispetto ai 144 di Blackwell), insieme a 640 Tensor core di quinta generazione (Blackwell ne ha "solo" 576) capaci di assicurare una potenza di calcolo di 15 PetaFLOPS (NVFP4 dense).

I 160 SM sono organizzati in 8 Graphics Processing Clusters (GPCs) e ogni SM integra 128 CUDA core per operazioni di tipo FP32 e INT32, nonché FP16/BF16 e altre precisioni. Il computo dei CUDA core è quindi 20480.

I Tensor core, introdotti con l'architettura Volta, operano direttamente su piccole matrici, eseguendo moltiplicazioni e accumuli di matrici (MMA) con una singola istruzione, anziché eseguire operazioni scalari o vettoriali un elemento dopo l'altro. I Tensor core rappresentano una soluzione perfetta per le reti neurali, dove la maggior parte dei calcoli consiste nel moltiplicare e sommare grandi griglie di numeri.

In ogni Streaming Multiprocessor (SM) troviamo quattro Tensor core, per un totale di 640 unità capaci di gestire il formato di precisione più recente, NVFP4. Non si tratta dell'unico miglioramento: i nuovi Tensor core sono strettamente integrati con 256 KB di memoria Tensor (TMEM) per SM, ottimizzati per mantenere i dati vicini alle unità di calcolo. Supportano anche operazioni "dual-thread-block MMA", in cui SM accoppiati cooperano su una singola operazione MMA, condividendo operandi e riducendo il traffico di memoria ridondante.

Il risultato è un throughput più elevato e costante, una migliore efficienza della memoria e un pre-addestramento più rapido di grandi batch, apprendimento rinforzato per il post-addestramento e inferenza a basso batch e alta interattività.

Per quanto concerne NVIDIA NVFP4, il nuovo formato a virgola mobile a 4 bit introdotto con Blackwell, l'azienda spiega che "consente una quantizzazione accelerata dall'hardware con tassi di errore notevolmente inferiori rispetto allo standard FP4". Secondo NVIDIA, "offre una precisione quasi equivalente a FP8 (con una differenza spesso inferiore all'1%), riducendo al contempo l'ingombro di memoria di circa 1,8 volte rispetto a FP8 e fino a 3,5 volte rispetto a FP16".

Laddove le GPU Blackwell sono in grado di offrire prestazioni di 10 petaFLOPS con calcoli NVFP4, Blackwell Ultra si spinge fino a 15 petaFLOPS, un dato che rappresenta non solo un incremento del 50% su Blackwell, ma un balzo di 7,5 volte su Hopper H100/H200.

I progettisti si sono concentrati anche sul raddoppio delle prestazioni delle cosiddette Special Function Units (SFUs) per operazioni trascendentali, dedicate al ragionamento nei grandi modelli linguistici, in particolare per modelli di ragionamento con finestre di contesto di grandi dimensioni. Il risultato è un ragionamento AI più veloce con un "time-to-first-token" inferiore nelle applicazioni interattive, accompagnato da costi di elaborazione inferiori grazie alla riduzione dei cicli di elaborazione totali per query e  una maggiore efficienza del sistema, con un numero di sequenze di attenzione elaborate per watt superiore.

Se da una parte i 10 TB/s di bandwidth assicurano che ogni millimetro quadrato del chip venga sfruttato appieno, dall'altra non mancano una serie di tecnologie di interconnessione che consentono alla GPU di interfacciarsi con l'esterno e gli altri componenti dell'infrastruttura in cui è inserita. Tra questi troviamo PCIe Gen 6 (256 GB/s bidirezionali), NVLink v5 (1800 GB/s verso NVSwitch) e NVLink-C2C (900 GB/s CPU-GPU). Sotto questo ambito non ci sono cambiamenti rispetto a Blackwell, consentendo di fatto topologie fino a 576 GPU e configurazioni rack NVL72 con 72 GPU appaiate, per una bandwidth aggregata di 130 TB/s.

Elemento fondamentale di un acceleratore Blackwell Ultra, oltre alla GPU, è anche la memoria integrata a bordo, ben 288 GB di HBM3E, un dato che rappresenta un incremento del 50% su Blackwell e un ampliamento delle risorse di 3,6 volte rispetto agli acceleratori H100 Hopper.

La memoria HBM3E su Blackwell Ultra è gestita da 16 controller a 512 bit, per un bus pari a 8192 bit e una bandwidth di 8 TB/s per GPU, un boost non indifferente se pensate che H100 si ferma a 3,35 TB/s.

Tutto questo permette a un acceleratore Blackwell Ultra di gestire modelli da oltre 300 miliardi di parametri. Il risvolto è che il TGP massimo di Blackwell Ultra sale a 1400 Watt rispetto ai 1200 Watt del modello precedente - il doppio di Hopper (700 Watt).

Come sempre, Blackwell Ultra è disponibile sotto forma di singolo acceleratore, ma anche in una board in cui due GPU Blackwell Ultra funziona di concerto grazie alla CPU Grace, soluzione custom realizzata dalla stessa NVIDIA. Tale soluzione garantisce prestazioni NVFP4 fino a 30 PFLOPS / 40 PFLOPS (dense / sparse) e una memoria unificata di 1 TB tra HBM3E e LPDDR5X. Un sistema GB300 NVL72 è in grado di offrire una potenza di calcolo di 1,1 exaFLOPS con calcoli FP4 dense, annichilendo le performance dei sistemi Hopper di precedente generazione.

Le soluzioni Blackwell Ultra sono già in consegna ai principali partner, mentre NVIDIA guarda già al futuro con Rubin (2026), Rubin Ultra (2027) e Feynman (2028).

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
CrapaDiLegno26 Agosto 2025, 13:33 #1
Decisamente un mostro in tutto.
Dai che la Cina con i suoi 7nm e 8 fasi di multipatterning e infinite risorse economiche riesce a realizzare qualcosa di simile e non dipendere da Nvidia per il suo progresso in campo AI.
supertigrotto26 Agosto 2025, 18:11 #2
Aveva ragionissimo IBM ,ancora prima che Nvidia lavorasse ai suoi acceleratori,la IA ha bisogno di roba da 8 bit,già i 16 erano da considerarsi inutili.
Avevano dimostrato che si poteva fare cose meravigliose con dei vecchi 6800 modificati e roba con architettura più vecchia.
In teoria Larrabee,se avessero portato avanti il progetto per la IA (Gelsinger lo disse ma fu fermato) sarebbe stata una architettura ottima e scalare ma poi sappiamo come è andata.
CrapaDiLegno27 Agosto 2025, 02:16 #3
Originariamente inviato da: supertigrotto
Aveva ragionissimo IBM ,ancora prima che Nvidia lavorasse ai suoi acceleratori,la IA ha bisogno di roba da 8 bit,già i 16 erano da considerarsi inutili.
Avevano dimostrato che si poteva fare cose meravigliose con dei vecchi 6800 modificati e roba con architettura più vecchia.
In teoria Larrabee,se avessero portato avanti il progetto per la IA (Gelsinger lo disse ma fu fermato) sarebbe stata una architettura ottima e scalare ma poi sappiamo come è andata.


No non era scalabile, non quanto una GPU o un ASICS fatto ad hoc come una NPU.
Larrabee era una matrice di core x86 semplicissimi connessi ognuno a due unità vettoriali (e non matriciali). Per poter parallelizzare un calcolo era necessario coordinare i core x86 tra loro che è ben diverso rispetto alla coordinazione nelle GPU dove al loro interno ci sono migliaia di ALU e centinaia di unità matriciali cui non serve parlare continuamente con un core dall'altro lato del chip per sapere cosa fare.
Le latenze in Larrabee erano deleterie, così come i consumi dato che non sfruttavano nulla delle architetture più moderne, veloci e maggiormente dense delle nascenti GPU per il calcolo generale. Semplici core x86 connesse ad un bus a matrice con gestione della comunicazione interna orribile.
Tenendo conto che questi core+AVX erano grandissimi con parti completamente inutili (i core x86 praticamente non facevano che da passacarte) ci si è resi subito conto che il sistema non era scalabile quanto le GPU e infatti, nonostante i PP di vantaggio che aveva (ai tempi Intel aveva ancora i PP migliori rispetto a TMSC), Intel ha mollato la presa dopo che la sua ultima creazione pur essendo enorme e consumando uno sproposito non raggiungeva le prestazioni della migliore GPU Nvidia del tempo (G100).
La fandonia della programmazione facile perché i core erano x86 ha avuto (fortunatamente) le gambe corte. Come se i problemi della programmazione parallela possa essere eliminato usando una ISA conosciuta (ma chi più programma in ASM, soprattutto x86?), per di più la peggiore ISA mai creata per l'elaborazione seriale.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^