NVIDIA Blackwell B200: due chip in uno per rivoluzionare l'intelligenza artificiale

NVIDIA Blackwell B200: due chip in uno per rivoluzionare l'intelligenza artificiale

Due GPU (die) su un unico package per un totale di 208 miliardi di transistor: la nuova GPU Blackwell di NVIDIA nasce per accelerare l'innovazione nel campo dell'intelligenza artificiale come mai prima d'ora. La nuova proposta è accompagnata da 192 GB di memoria HBM3E per una bandwidth di 8 TB/s. A comporre la nuova offerta di NVIDIA troviamo tre soluzioni: B100, B200 e GB200.

di pubblicato il nel canale Schede Video
NVIDIABlackwell
 

NVIDIA ha presentato alla GTC 2024 le nuove soluzioni B100, B200 e GB200 per accelerare l'intelligenza artificiale. La B sta per Blackwell, in onore del matematico e statistico americano David Harold Blackwell, e descrive l'architettura alla base della GPU che muove i diversi acceleratori.

Jensen Huang mostra Blackwell (a sinistra), confrontandone le dimensioni rispetto a Hopper - clicca per ingrandire

La GPU B100 sarà disponibile solo per i sistemi HGX di terze parti, al fine di integrarsi nei server esistenti grazie a un TDP più contenuto (700W) e prestazioni, di conseguenza, leggermente inferiori. Il focus di NVIDIA durante il keynote alla GTC 2024 è stato tutto per B200 e GB200, di cui parleremo più avanti.

NVIDIA B200 Blackwell: due GPU ne formano una potentissima

La nuova GPU Blackwell B200 è formata da due chip (die) che ne compongo un unico grande processore. I due die sono prodotti con processo 4NP, una variante ottimizzata dell'N4P di TSMC. I due chip operano insieme e sono collegati per mezzo di un'interfaccia Chip-to-Chip (NVIDIA High-Bandwidth Interface, NV-HBI) con una bandwidth di 10 TB/s, un valore estremamente elevato se si pensa che l'interconnessione UltraFusion delle soluzioni Apple Ultra arriva a 2,5 TB/s.

Clicca per ingrandire

NVIDIA si è avvalsa della tecnologia di packaging CoWoS-L di TSMC, che, secondo la casa taiwanese, rende teoricamente possibile collegare insieme fino a sei di queste GPU. Secondo NVIDIA, al momento non è prevista una variante della GPU Blackwell formata da un solo die, anche se tecnicamente ciascuno dei chip è in grado di funzionare autonomamente.

Questo profondo cambiamento nel design, con l'addio a un die monolitico per passare a una GPU multi-die, non è inedito nell'industria in quanto la sua introduzione si deve ad AMD con gli acceleratori Instinct MI250X e MI250 nel novembre 2021.

NVIDIA ci ha messo più tempo per adottare un progetto MCM rispetto ad AMD, ma si è dovuta adeguare per coniugare la necessità di offrire una potenza elevatissima senza far impennare eccessivamente costi e consumi. Inoltre, produrre una GPU monolitica di dimensioni ancora maggiori rispetto a GH100 avrebbe rappresentato uno sforzo tecnicamente ai limiti dell'impossibile. D'altronde, la forza di un progetto MCM risiede nella maggior flessibilità in fase di progettazione, fino ad arrivare alla selezione dei processi produttivi. Il tutto con ricadute anche in termini di prestazioni, temperature e consumi.

Clicca per ingrandire

I due chip che compongono la GPU Blackwell si spingono fino al limite del reticolo e, come tali, occupano un'area di circa 1600 mm2 (è una stima, non conosciamo al momento il dato esatto) e sono composti da un totale di 208 miliardi di transistor, 104 miliardi per ogni die - quest'ultimo è un valore di 24 miliardi superiore agli 80 miliardi dell'intera GPU GH100 Hopper.

Entrambi i chip sono collegati a quattro chip di memoria HBM3E da 24 GB (8-Hi), il che porta il totale a 192 GB di memoria HBM3E su un bus a 8192 bit (1024 bit per chip HBM3E). La bandwidth della memoria HBM3E raggiunge gli 8 TB/s, superiore ai 5 TB/s di GH200 e ai 5,3 TB/s di Instinct MI300X di AMD.

Clicca per ingrandire

Una capacità di memoria di 192 GB di memoria HBM3E rappresenta un incremento importante rispetto agli 80 GB di HBM3 di H100 e ai 141 GB di HBM3E di H200 e GH200, mentre è identica a quella offerta da AMD con l'acceleratore Instinct MI300X, dotato di 192 GB di memoria ma di tipo HBM3.

  NVIDIA B100 NVIDIA B200 H100 Instinct MI300X
Processo produttivo 4NP 4NP 4N 5 / 6 nm
Transistor totali 208 miliardi 208 miliardi 80 miliardi 153 miliardi
Prestazioni di calcolo FP64 30 TFLOPS (Tensor Core) 40 TFLOPS (Tensor Core) 67 TFLOPs 81,7 TFLOPs
Prestazioni di calcolo FP32/TF32 1,8 PFLOPS (Tensor Core) 2,2 PFLOPS (Tensor Core) 134 TFLOPs 163,4 TFLOPs
Prestazioni di calcolo FP16 3,5 PFLOPS (Tensor Core) 4,5 PFLOPS (Tensor Core) 1,979 PFLOPs 1,3 PFLOPs
Prestazioni di calcolo FP8 7 PFLOPS (Tensor Core) 9 PFLOPS (Tensor Core) 3,958 PFLOPs 2,61 PFLOPs
Prestazioni di calcolo FP4 14 PFLOPS (Tensor Core) 18 PFLOPS (Tensor Core) - -
Memoria 192 GB HBM3E
8 TB/s
192 GB HBM3E
8 TB/s
80 GB HBM3
3,35 TB/s
192 GB HBM3
5,3 TB/s
Interconnessione NVLink
1,8 TB/s
NVLink
1,8 TB/s
NVLink
900 GB/s
Infinity Link
512 GB/s
PCI Express 6.0 6.0 5.0 5.0
TDP 700 W 1000 / 1200 W (?) 700 W 750 W

Blackwell, le prestazioni secondo NVIDIA

Per quanto concerne la potenza di calcolo sprigionata dal nuovo mega-chip Blackwell, NVIDIA ha diffuso dati che sono relativi solo al comportamento dei Tensor Core della nuova architettura. In termini numerici, la società indica 20 petaflops con calcoli FP4 e 10 petaflops in FP8.

Precisione calcolo Blackwell 'H100 Hopper
FP4 Tensor Core 20 PFLOPS -
FP8/FP6 Tensor Core 10 PFLOPS 3,958 PFLOPS
INT8 Tensor Core 10 TOPS 3,958 TOPS
FP16/BF16 Tensor Core 5 PFLOPS 1,979 TFLOPS
TF32 Tensor Core 2,5 PFLOPS 989 TFLOPS
FP64 Tensor Core  45 PFLOPS 67 TFLOPS

Per confronto, H100 in formato SXM5 raggiunge circa 4 petaflops con calcoli FP8, 3 petaflops come scheda PCIe e poco meno di 8 petaflops nella configurazione NVL con due GPU. Poiché non è possibile eseguire operazioni FP4 usando i Tensor Core di Hopper, non è possibile un confronto diretto su tale parametro.

Clicca per ingrandire

In termini più generici, NVIDIA afferma che Blackwell migliora le prestazioni di Hopper mediamente di 2,5 volte, con punte fino a 5 volte. Osserviamo, tuttavia, come per i calcoli FP64 tramite Tensor Core, la potenza di calcolo teorica scenda da 67 a 45 TFLOPS. Al momento, NVIDIA non ha fornito informazioni sulla potenza di calcolo FP64 delle unità shader o sul loro numero. Insomma, non abbiamo un quadro esaustivo su Blackwell in questo momento.

Perno delle maggiori prestazioni è la seconda generazione del Transformer Engine, destinata ad aumentare significativamente il throughput grazie a una precisione di 4 bit che consente il doppio della produttività rispetto all'FP8 senza richiedere la stessa precisione.

Come accennato in apertura di articolo, NVIDIA indica per Blackwell un TDP che va da 700 a 1200 Watt. Le varianti raffreddate ad aria di B100 e B200 prevedono un TDP rispettivamente di 700 e 1000 W, mentre il valore di 1200 W appartiene probabilmente alle proposte B200 raffreddate a liquido e in grado di operare a clock superiori.

Clicca per ingrandire

Tra le tante particolarità di Blackwell c'è anche la compatibilità con lo standard PCI Express 6.0. Come le precedenti soluzioni, anche Blackwell s'interfaccia con altre GPU grazie a un'interconnessione NVLink capace di toccare ben 1,8 TB/s, 900 GB/s in ogni direzione, il doppio dei 900 GB/s della versione a bordo degli acceleratori Hopper.

Clicca per ingrandire

GB200, NVIDIA unisce Blackwell con la CPU Grace

Oltre a B100 e B200, NVIDIA ha messo a punto anche GB200, ovvero Grace Blackwell Superchip, un acceleratore che fonde su un'unica scheda una CPU Grace e due GPU Blackwell. L'attuale Grace Hopper Superchip unisce Grace a una sola GPU monolitica Hopper.

  GB200 GH200
Prestazioni di calcolo FP64 (GPU) 90 PFLOPS (Tensor Core Dense) 34 TFLOPS
Prestazioni di calcolo FP32 (GPU) - Dense / Sparse 2,5 / 5 PFLOPS (Tensor Core) 67 TFLOPS
Prestazioni di calcolo FP8 (GPU) - Dense / Sparse 10 / 20 PFLOPS (Tensor Core) 3,958 TFLOPS
Prestazioni di calcolo INT8 (GPU) - Dense / Sparse 10 / 20 PFLOPS (Tensor Core) 3,958 TOPS
Prestazioni di calcolo FP4 (GPU) - Dense / Sparse 20 / 40 PFLOPS (Tensor Core)
Memoria CPU  480 GB (LPDDR5X) 512 GB/s 480 GB (LPDDR5X) 512 GB/s
Memoria GPU  384 GB HBM3E 141 GB HBM3E
Bandwidth (GPU) 2 x 8 TB/s 4,9 TB/s
CPU-GPU (C2C) 900 GB/s 900 GB/s
TDP fino a 2700W Da 450 a 1000 W

La CPU Grace è identica a quella vista su GH100/GH200, quindi ritroviamo i 72 core Neoverse V2, mentre la capacità di memoria combinata raggiunge 864 GB - 2 x 192 GB HBM3E per i due acceleratori Blackwell e 480 GB di memoria LPDDR5X collegati alla CPU Grace.

Clicca per ingrandire

La connessione tra la CPU Grace e le GPU Blackwell avviene tramite un'interconnessione bidirezionale NVLink C2C a 900 GB/s. Esternamente, ogni acceleratore GB200 prevede un collegamento NVLink bidirezionale a 1,8 TB/s. GB200 è capace di offrire prestazioni IA di 40 petaflops con calcoli FP4.

Clicca per ingrandire

Clicca per ingrandire

Due soluzioni GB200 danno vita a "Blackwell Compute Node", un rack 1U raffreddato a liquido dove un totale di 2 CPU Grace e 4 GPU Blackwell offrono fino a 80 petaflops di performance FP4, un totale di 1,7 TB di memoria complessiva tra HBM3E e LPDDR5X.

Clicca per ingrandire

DGX GB200 NVL72: 72 GPU e 36 GPU che lavorano insieme

Clicca per ingrandire

L'unione di 18 di questi Compute Node dà vita a GB200 NVL72, un rack raffreddato a liquido al cui interno sono presenti 36 GB200 per un totale di 72 GPU e 36 CPU. L'obiettivo di GB200 NVL72 è quello di gestire LLM fino a 27 trilioni di parametri, un numero molto alto considerato che per gli attuali LLM si parla di diversi miliardi di parametri: NVIDIA non vuole farsi trovare impreparata all'avvento dei futuri LLM.

Clicca per ingrandire

"GB200 NVL72 offre un aumento prestazionale fino a 30 volte rispetto allo stesso numero di GPU NVIDIA H100 Tensor Core per carichi di lavoro di inferenza LLM e riduce i costi e il consumo energetico fino a 25 volte", afferma la società. Per la precisione, si parla di 1,4 exaflops di prestazioni con calcoli IA, per quella che NVIDIA ha definito una "GPU CUDA gigante". Commercialmente GB200 NVL72 arriverà sotto forma di DGX GB200 NVL72.

Clicca per ingrandire

Clicca per ingrandire

Elemento fondamentale del sistema è il nuovo NVLink Switch 7.2T, un chip che offre quattro collegamenti NVLink, ognuno con una bandwidth di 1,8 TB/s, e che permette di far lavorare tutte le GPU nel sistema tra di loro al massimo delle prestazioni. Si tratta di un prodotto complesso, realizzato sulla base di 50 miliardi di transistor fabbricati sempre affidandosi al processo TSMC 4NP. Il chip offre anche una potenza di calcolo pari a 3,6 teraflops che può aiutare nel bilanciamento intelligente dei carichi di lavoro.

Clicca per ingrandire

Clicca per ingrandire

DGX GB200 NVL72 sarà accessibile tramite fornitori di servizi cloud come AWS, Google Cloud, Microsoft Azure e Oracle Cloud. AWS prevede di costruire un supercomputer AI chiamato Ceiba, che sarà basato su GB200-NVL72 per un totale di oltre 20.000 GPU Blackwell e una potenza con calcoli IA superiore a 400 exaflops.

GB200 NVL72, oltre a GB200, include unità di elaborazione dati NVIDIA BlueField-3. "La piattaforma agisce come una singola GPU con 1,4 exaflop di prestazioni AI e 30 TB di memoria veloce, ed è un elemento fondante del nuovissimo DGX SuperPOD", sottolinea la società.

Clicca per ingrandire

NVIDIA offre anche HGX B200, una board per server che unisce otto GPU B200 tramite NVLink su una piattaforma x86 (CPU Intel Xeon Emerald Rapids). HGX B200 supporta velocità di rete fino a 400 Gb/s tramite le tecnologie di rete NVIDIA Quantum-2 InfiniBand e Spectrum-X Ethernet.

NVIDIA definisce SuperPOD un sistema composto da otto o più DGX B200 o DGX GB200. Il DGX B200 SuperPOD ha quindi almeno 64 GPU B200 SXM e 8 processori Xeon Scalable di 5a generazione (Emerald Rapids). Un SuperPOD DGX GB200, invece, raggiunge addirittura 576 GPU B200 e 288 CPU Grace, fornendo così 11,5 exaflops di prestazioni FP4. Solo nel DGX GB200 SuperPOD troviamo la nuova tecnologia di rete Quantum-X800 InfiniBand a 800 anziché 400 Gbit/s. Nel caso di DGX B200 si rimane invece a 400 Gbit/s.

Per dare ulteriore prova della portata di Blackwell, NVIDIA ha spiegato che per addestrare un modello GPT-MoE-1.8T in 90 giorni sono oggi necessarie 8000 GPU Hopper, con un consumo totale di 15 megawatt. Con Blackwell, per fare altrettanto sono necessarie solo 2000 GPU, per una richiesta energetica complessiva di soli 4 megawatt, praticamente un quarto di quanto richiesto ora.

Quando arriva Blackwell?

NVIDIA ha dichiarato che gli acceleratori Blackwell, così come le soluzioni che li integrano (es. i DGX SuperPOD con DGX GB200 e DGX B200, ma anche HGX B200), arriveranno più avanti nel corso dell'anno, probabilmente verso la fine del 2024. Ricordiamo, infatti, che NVIDIA ha iniziato solo di recente a distribuire ai clienti le proposte basate su Hopper H200 e GH200.

39 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
silvanotrevi19 Marzo 2024, 00:21 #1
Wow che bomba potentissima! Questo è il futuro ragazzi. Grandissima Nvidia
xxxyyy19 Marzo 2024, 02:15 #2
Con GX200 supereremo tranquillamente gli zettaflops... paura.
io78bis19 Marzo 2024, 07:34 #3
Caspita a guardare le tabelle il confronto delle specifiche con AMD è piuttosto imbarazzante.

Non capisco come sia riuscita a mantenere un consumo di 700W con lo stesso processo produttivo (ok evoluto) e numero transistor più che raddoppiati e RAM e altre specifiche molto migliorate
Dracula197519 Marzo 2024, 07:37 #4
Originariamente inviato da: Redazione di Hardware Upgrade
Link all'Articolo: https://www.hwupgrade.it/articoli/s...iale_index.html

Due GPU (die) su un unico package per un totale di 208 miliardi di transistor: la nuova GPU Blackwell di NVIDIA nasce per accelerare l'innovazione nel campo dell'intelligenza artificiale come mai prima d'ora. La nuova proposta è accompagnata da 192 GB di memoria HBM3E per una bandwidth di 8 TB/s. A comporre la nuova offerta di NVIDIA troviamo tre soluzioni: B100, B200 e GB200.

Click sul link per visualizzare l'articolo.


La vera "stranezza" è l'utilizzo del 4nm invece che del 3nm....mi aspettavo decisamente il 3nm (quindi mi fa pensare anche per le future soluzioni gaming che tutti davano sui 3nm ma a sto punto..bhooo)
frankie19 Marzo 2024, 09:04 #5
la vera stranezza è utilizzare FP4 invece di FP8.
Ma io di questo non ci capisco e mi astengo.
Quanto siano meglio i calcoli FP4 invece che 8 su IA?
carloUba19 Marzo 2024, 09:25 #6
Originariamente inviato da: frankie
la vera stranezza è utilizzare FP4 invece di FP8.
Ma io di questo non ci capisco e mi astengo.
Quanto siano meglio i calcoli FP4 invece che 8 su IA?


Non mi dilungo troppo ma è stato l'argomento principale di un corso che ho seguito proprio in sede nvidia e ti assicuro che i vantaggi in inferenza di FP4 su FP8 sono ENORMI.
ninja75019 Marzo 2024, 10:19 #7
tutto questo per "disegnami un gatto azzurro con il cappello da pirata"
io78bis19 Marzo 2024, 10:27 #8
Originariamente inviato da: carloUba
Non mi dilungo troppo ma è stato l'argomento principale di un corso che ho seguito proprio in sede nvidia e ti assicuro che i vantaggi in inferenza di FP4 su FP8 sono ENORMI.


Immagino la risposta sia negativa ma puoi girare documentazione in merito?
io78bis19 Marzo 2024, 10:28 #9
Originariamente inviato da: ninja750
tutto questo per "disegnami un gatto azzurro con il cappello da pirata"


Si ma con una velocità che non hai mai visto prima
hackaro7519 Marzo 2024, 10:57 #10
Eh niente l'AI farà bruciare letteralmente tutto il pianeta visto il consumo folle di queste architetture !!!! Addio mondo !!!

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^