NVIDIA Blackwell B200: due chip in uno per rivoluzionare l'intelligenza artificiale

Due GPU (die) su un unico package per un totale di 208 miliardi di transistor: la nuova GPU Blackwell di NVIDIA nasce per accelerare l'innovazione nel campo dell'intelligenza artificiale come mai prima d'ora. La nuova proposta è accompagnata da 192 GB di memoria HBM3E per una bandwidth di 8 TB/s. A comporre la nuova offerta di NVIDIA troviamo tre soluzioni: B100, B200 e GB200.
di Manolo De Agostini pubblicato il 18 Marzo 2024 nel canale Schede VideoNVIDIABlackwell
NVIDIA ha presentato alla GTC 2024 le nuove soluzioni B100, B200 e GB200 per accelerare l'intelligenza artificiale. La B sta per Blackwell, in onore del matematico e statistico americano David Harold Blackwell, e descrive l'architettura alla base della GPU che muove i diversi acceleratori.
Jensen Huang mostra Blackwell (a sinistra), confrontandone le dimensioni rispetto a Hopper - clicca per ingrandire
La GPU B100 sarà disponibile solo per i sistemi HGX di terze parti, al fine di integrarsi nei server esistenti grazie a un TDP più contenuto (700W) e prestazioni, di conseguenza, leggermente inferiori. Il focus di NVIDIA durante il keynote alla GTC 2024 è stato tutto per B200 e GB200, di cui parleremo più avanti.
NVIDIA B200 Blackwell: due GPU ne formano una potentissima
La nuova GPU Blackwell B200 è formata da due chip (die) che ne compongo un unico grande processore. I due die sono prodotti con processo 4NP, una variante ottimizzata dell'N4P di TSMC. I due chip operano insieme e sono collegati per mezzo di un'interfaccia Chip-to-Chip (NVIDIA High-Bandwidth Interface, NV-HBI) con una bandwidth di 10 TB/s, un valore estremamente elevato se si pensa che l'interconnessione UltraFusion delle soluzioni Apple Ultra arriva a 2,5 TB/s.
Clicca per ingrandire
NVIDIA si è avvalsa della tecnologia di packaging CoWoS-L di TSMC, che, secondo la casa taiwanese, rende teoricamente possibile collegare insieme fino a sei di queste GPU. Secondo NVIDIA, al momento non è prevista una variante della GPU Blackwell formata da un solo die, anche se tecnicamente ciascuno dei chip è in grado di funzionare autonomamente.
Questo profondo cambiamento nel design, con l'addio a un die monolitico per passare a una GPU multi-die, non è inedito nell'industria in quanto la sua introduzione si deve ad AMD con gli acceleratori Instinct MI250X e MI250 nel novembre 2021.
NVIDIA ci ha messo più tempo per adottare un progetto MCM rispetto ad AMD, ma si è dovuta adeguare per coniugare la necessità di offrire una potenza elevatissima senza far impennare eccessivamente costi e consumi. Inoltre, produrre una GPU monolitica di dimensioni ancora maggiori rispetto a GH100 avrebbe rappresentato uno sforzo tecnicamente ai limiti dell'impossibile. D'altronde, la forza di un progetto MCM risiede nella maggior flessibilità in fase di progettazione, fino ad arrivare alla selezione dei processi produttivi. Il tutto con ricadute anche in termini di prestazioni, temperature e consumi.
Clicca per ingrandire
I due chip che compongono la GPU Blackwell si spingono fino al limite del reticolo e, come tali, occupano un'area di circa 1600 mm2 (è una stima, non conosciamo al momento il dato esatto) e sono composti da un totale di 208 miliardi di transistor, 104 miliardi per ogni die - quest'ultimo è un valore di 24 miliardi superiore agli 80 miliardi dell'intera GPU GH100 Hopper.
Entrambi i chip sono collegati a quattro chip di memoria HBM3E da 24 GB (8-Hi), il che porta il totale a 192 GB di memoria HBM3E su un bus a 8192 bit (1024 bit per chip HBM3E). La bandwidth della memoria HBM3E raggiunge gli 8 TB/s, superiore ai 5 TB/s di GH200 e ai 5,3 TB/s di Instinct MI300X di AMD.
Clicca per ingrandire
Una capacità di memoria di 192 GB di memoria HBM3E rappresenta un incremento importante rispetto agli 80 GB di HBM3 di H100 e ai 141 GB di HBM3E di H200 e GH200, mentre è identica a quella offerta da AMD con l'acceleratore Instinct MI300X, dotato di 192 GB di memoria ma di tipo HBM3.
NVIDIA B100 | NVIDIA B200 | H100 | Instinct MI300X | |
Processo produttivo | 4NP | 4NP | 4N | 5 / 6 nm |
Transistor totali | 208 miliardi | 208 miliardi | 80 miliardi | 153 miliardi |
Prestazioni di calcolo FP64 | 30 TFLOPS (Tensor Core) | 40 TFLOPS (Tensor Core) | 67 TFLOPs | 81,7 TFLOPs |
Prestazioni di calcolo FP32/TF32 | 1,8 PFLOPS (Tensor Core) | 2,2 PFLOPS (Tensor Core) | 134 TFLOPs | 163,4 TFLOPs |
Prestazioni di calcolo FP16 | 3,5 PFLOPS (Tensor Core) | 4,5 PFLOPS (Tensor Core) | 1,979 PFLOPs | 1,3 PFLOPs |
Prestazioni di calcolo FP8 | 7 PFLOPS (Tensor Core) | 9 PFLOPS (Tensor Core) | 3,958 PFLOPs | 2,61 PFLOPs |
Prestazioni di calcolo FP4 | 14 PFLOPS (Tensor Core) | 18 PFLOPS (Tensor Core) | - | - |
Memoria | 192 GB HBM3E 8 TB/s |
192 GB HBM3E 8 TB/s |
80 GB HBM3 3,35 TB/s |
192 GB HBM3 5,3 TB/s |
Interconnessione | NVLink 1,8 TB/s |
NVLink 1,8 TB/s |
NVLink 900 GB/s |
Infinity Link 512 GB/s |
PCI Express | 6.0 | 6.0 | 5.0 | 5.0 |
TDP | 700 W | 1000 / 1200 W (?) | 700 W | 750 W |
Blackwell, le prestazioni secondo NVIDIA
Per quanto concerne la potenza di calcolo sprigionata dal nuovo mega-chip Blackwell, NVIDIA ha diffuso dati che sono relativi solo al comportamento dei Tensor Core della nuova architettura. In termini numerici, la società indica 20 petaflops con calcoli FP4 e 10 petaflops in FP8.
Precisione calcolo | Blackwell | 'H100 Hopper |
FP4 Tensor Core | 20 PFLOPS | - |
FP8/FP6 Tensor Core | 10 PFLOPS | 3,958 PFLOPS |
INT8 Tensor Core | 10 TOPS | 3,958 TOPS |
FP16/BF16 Tensor Core | 5 PFLOPS | 1,979 TFLOPS |
TF32 Tensor Core | 2,5 PFLOPS | 989 TFLOPS |
FP64 Tensor Core | 45 PFLOPS | 67 TFLOPS |
Per confronto, H100 in formato SXM5 raggiunge circa 4 petaflops con calcoli FP8, 3 petaflops come scheda PCIe e poco meno di 8 petaflops nella configurazione NVL con due GPU. Poiché non è possibile eseguire operazioni FP4 usando i Tensor Core di Hopper, non è possibile un confronto diretto su tale parametro.
Clicca per ingrandire
In termini più generici, NVIDIA afferma che Blackwell migliora le prestazioni di Hopper mediamente di 2,5 volte, con punte fino a 5 volte. Osserviamo, tuttavia, come per i calcoli FP64 tramite Tensor Core, la potenza di calcolo teorica scenda da 67 a 45 TFLOPS. Al momento, NVIDIA non ha fornito informazioni sulla potenza di calcolo FP64 delle unità shader o sul loro numero. Insomma, non abbiamo un quadro esaustivo su Blackwell in questo momento.
Perno delle maggiori prestazioni è la seconda generazione del Transformer Engine, destinata ad aumentare significativamente il throughput grazie a una precisione di 4 bit che consente il doppio della produttività rispetto all'FP8 senza richiedere la stessa precisione.
Come accennato in apertura di articolo, NVIDIA indica per Blackwell un TDP che va da 700 a 1200 Watt. Le varianti raffreddate ad aria di B100 e B200 prevedono un TDP rispettivamente di 700 e 1000 W, mentre il valore di 1200 W appartiene probabilmente alle proposte B200 raffreddate a liquido e in grado di operare a clock superiori.
Clicca per ingrandire
Tra le tante particolarità di Blackwell c'è anche la compatibilità con lo standard PCI Express 6.0. Come le precedenti soluzioni, anche Blackwell s'interfaccia con altre GPU grazie a un'interconnessione NVLink capace di toccare ben 1,8 TB/s, 900 GB/s in ogni direzione, il doppio dei 900 GB/s della versione a bordo degli acceleratori Hopper.
Clicca per ingrandire
GB200, NVIDIA unisce Blackwell con la CPU Grace
Oltre a B100 e B200, NVIDIA ha messo a punto anche GB200, ovvero Grace Blackwell Superchip, un acceleratore che fonde su un'unica scheda una CPU Grace e due GPU Blackwell. L'attuale Grace Hopper Superchip unisce Grace a una sola GPU monolitica Hopper.
GB200 | GH200 | |
Prestazioni di calcolo FP64 (GPU) | 90 PFLOPS (Tensor Core Dense) | 34 TFLOPS |
Prestazioni di calcolo FP32 (GPU) - Dense / Sparse | 2,5 / 5 PFLOPS (Tensor Core) | 67 TFLOPS |
Prestazioni di calcolo FP8 (GPU) - Dense / Sparse | 10 / 20 PFLOPS (Tensor Core) | 3,958 TFLOPS |
Prestazioni di calcolo INT8 (GPU) - Dense / Sparse | 10 / 20 PFLOPS (Tensor Core) | 3,958 TOPS |
Prestazioni di calcolo FP4 (GPU) - Dense / Sparse | 20 / 40 PFLOPS (Tensor Core) | - |
Memoria CPU | 480 GB (LPDDR5X) 512 GB/s | 480 GB (LPDDR5X) 512 GB/s |
Memoria GPU | 384 GB HBM3E | 141 GB HBM3E |
Bandwidth (GPU) | 2 x 8 TB/s | 4,9 TB/s |
CPU-GPU (C2C) | 900 GB/s | 900 GB/s |
TDP | fino a 2700W | Da 450 a 1000 W |
La CPU Grace è identica a quella vista su GH100/GH200, quindi ritroviamo i 72 core Neoverse V2, mentre la capacità di memoria combinata raggiunge 864 GB - 2 x 192 GB HBM3E per i due acceleratori Blackwell e 480 GB di memoria LPDDR5X collegati alla CPU Grace.
Clicca per ingrandire
La connessione tra la CPU Grace e le GPU Blackwell avviene tramite un'interconnessione bidirezionale NVLink C2C a 900 GB/s. Esternamente, ogni acceleratore GB200 prevede un collegamento NVLink bidirezionale a 1,8 TB/s. GB200 è capace di offrire prestazioni IA di 40 petaflops con calcoli FP4.
Clicca per ingrandire
Clicca per ingrandire
Due soluzioni GB200 danno vita a "Blackwell Compute Node", un rack 1U raffreddato a liquido dove un totale di 2 CPU Grace e 4 GPU Blackwell offrono fino a 80 petaflops di performance FP4, un totale di 1,7 TB di memoria complessiva tra HBM3E e LPDDR5X.
Clicca per ingrandire
DGX GB200 NVL72: 72 GPU e 36 GPU che lavorano insieme
Clicca per ingrandire
L'unione di 18 di questi Compute Node dà vita a GB200 NVL72, un rack raffreddato a liquido al cui interno sono presenti 36 GB200 per un totale di 72 GPU e 36 CPU. L'obiettivo di GB200 NVL72 è quello di gestire LLM fino a 27 trilioni di parametri, un numero molto alto considerato che per gli attuali LLM si parla di diversi miliardi di parametri: NVIDIA non vuole farsi trovare impreparata all'avvento dei futuri LLM.
Clicca per ingrandire
"GB200 NVL72 offre un aumento prestazionale fino a 30 volte rispetto allo stesso numero di GPU NVIDIA H100 Tensor Core per carichi di lavoro di inferenza LLM e riduce i costi e il consumo energetico fino a 25 volte", afferma la società. Per la precisione, si parla di 1,4 exaflops di prestazioni con calcoli IA, per quella che NVIDIA ha definito una "GPU CUDA gigante". Commercialmente GB200 NVL72 arriverà sotto forma di DGX GB200 NVL72.
Clicca per ingrandire
Clicca per ingrandire
Elemento fondamentale del sistema è il nuovo NVLink Switch 7.2T, un chip che offre quattro collegamenti NVLink, ognuno con una bandwidth di 1,8 TB/s, e che permette di far lavorare tutte le GPU nel sistema tra di loro al massimo delle prestazioni. Si tratta di un prodotto complesso, realizzato sulla base di 50 miliardi di transistor fabbricati sempre affidandosi al processo TSMC 4NP. Il chip offre anche una potenza di calcolo pari a 3,6 teraflops che può aiutare nel bilanciamento intelligente dei carichi di lavoro.
Clicca per ingrandire
Clicca per ingrandire
DGX GB200 NVL72 sarà accessibile tramite fornitori di servizi cloud come AWS, Google Cloud, Microsoft Azure e Oracle Cloud. AWS prevede di costruire un supercomputer AI chiamato Ceiba, che sarà basato su GB200-NVL72 per un totale di oltre 20.000 GPU Blackwell e una potenza con calcoli IA superiore a 400 exaflops.
GB200 NVL72, oltre a GB200, include unità di elaborazione dati NVIDIA BlueField-3. "La piattaforma agisce come una singola GPU con 1,4 exaflop di prestazioni AI e 30 TB di memoria veloce, ed è un elemento fondante del nuovissimo DGX SuperPOD", sottolinea la società.
Clicca per ingrandire
NVIDIA offre anche HGX B200, una board per server che unisce otto GPU B200 tramite NVLink su una piattaforma x86 (CPU Intel Xeon Emerald Rapids). HGX B200 supporta velocità di rete fino a 400 Gb/s tramite le tecnologie di rete NVIDIA Quantum-2 InfiniBand e Spectrum-X Ethernet.
NVIDIA definisce SuperPOD un sistema composto da otto o più DGX B200 o DGX GB200. Il DGX B200 SuperPOD ha quindi almeno 64 GPU B200 SXM e 8 processori Xeon Scalable di 5a generazione (Emerald Rapids). Un SuperPOD DGX GB200, invece, raggiunge addirittura 576 GPU B200 e 288 CPU Grace, fornendo così 11,5 exaflops di prestazioni FP4. Solo nel DGX GB200 SuperPOD troviamo la nuova tecnologia di rete Quantum-X800 InfiniBand a 800 anziché 400 Gbit/s. Nel caso di DGX B200 si rimane invece a 400 Gbit/s.
Per dare ulteriore prova della portata di Blackwell, NVIDIA ha spiegato che per addestrare un modello GPT-MoE-1.8T in 90 giorni sono oggi necessarie 8000 GPU Hopper, con un consumo totale di 15 megawatt. Con Blackwell, per fare altrettanto sono necessarie solo 2000 GPU, per una richiesta energetica complessiva di soli 4 megawatt, praticamente un quarto di quanto richiesto ora.
Quando arriva Blackwell?
NVIDIA ha dichiarato che gli acceleratori Blackwell, così come le soluzioni che li integrano (es. i DGX SuperPOD con DGX GB200 e DGX B200, ma anche HGX B200), arriveranno più avanti nel corso dell'anno, probabilmente verso la fine del 2024. Ricordiamo, infatti, che NVIDIA ha iniziato solo di recente a distribuire ai clienti le proposte basate su Hopper H200 e GH200.
39 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoNon capisco come sia riuscita a mantenere un consumo di 700W con lo stesso processo produttivo (ok evoluto) e numero transistor più che raddoppiati e RAM e altre specifiche molto migliorate
Due GPU (die) su un unico package per un totale di 208 miliardi di transistor: la nuova GPU Blackwell di NVIDIA nasce per accelerare l'innovazione nel campo dell'intelligenza artificiale come mai prima d'ora. La nuova proposta è accompagnata da 192 GB di memoria HBM3E per una bandwidth di 8 TB/s. A comporre la nuova offerta di NVIDIA troviamo tre soluzioni: B100, B200 e GB200.
Click sul link per visualizzare l'articolo.
La vera "stranezza" è l'utilizzo del 4nm invece che del 3nm....mi aspettavo decisamente il 3nm (quindi mi fa pensare anche per le future soluzioni gaming che tutti davano sui 3nm ma a sto punto..bhooo)
Ma io di questo non ci capisco e mi astengo.
Quanto siano meglio i calcoli FP4 invece che 8 su IA?
Ma io di questo non ci capisco e mi astengo.
Quanto siano meglio i calcoli FP4 invece che 8 su IA?
Non mi dilungo troppo ma è stato l'argomento principale di un corso che ho seguito proprio in sede nvidia e ti assicuro che i vantaggi in inferenza di FP4 su FP8 sono ENORMI.
Immagino la risposta sia negativa ma puoi girare documentazione in merito?
Si ma con una velocità che non hai mai visto prima
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".