NVIDIA GB10 Grace Blackwell: il 'piccolo' Superchip che vuole cambiare l'AI domestica

NVIDIA GB10 Grace Blackwell: il 'piccolo' Superchip che vuole cambiare l'AI domestica

NVIDIA ha svelato l'architettura del GB10 Grace Blackwell Superchip durante la conferenza Hot Chips 2025. Frutto della collaborazione con MediaTek, integra una CPU Arm con 20 core e GPU Blackwell in un package 2.5D a 3 nanometri. È il cuore della workstation DGX Spark, pensata per lo sviluppo locale di modelli di intelligenza artificiale.

di pubblicata il , alle 12:01 nel canale Processori
GraceBlackwellNVIDIA
 

Alla conferenza Hot Chips 2025, NVIDIA ha approfondito le caratteristiche di GB10 Grace Blackwell Superchip, il cuore della nuova workstation compatta DGX Spark, destinata alla ricerca e allo sviluppo locale di modelli di intelligenza artificiale. Si tratta di una soluzione multi-die che combina in un unico package CPU e GPU, con il contributo diretto di MediaTek per la parte CPU.


Il design del GB10 si basa su un approccio 2.5D: due die realizzati a 3 nm da TSMC vengono integrati su un interposer comune. La parte CPU, definita da NVIDIA come S-Die, include 20 core Arm v9.2 organizzati in due cluster da dieci unità, ciascuno con 16 MB di cache L3 dedicata. La CPU è affiancata da 128 GB di memoria LPDDR5X-9400 collegata tramite un bus a 256 bit, per una larghezza di banda teorica di circa 301 GB/s.

Clicca per ingrandire

La GPU, identificata come G-Die, si basa sull'architettura Blackwell ed è in grado di erogare 31 TFLOPS in FP32 e fino a 1.000 TOPS in FP4, avvicinandosi in prestazioni a una GeForce RTX 5070. La GPU integra una cache L2 da 24 MB, che funge anche da L4 condivisa per la CPU, garantendo coerenza hardware tra i due componenti. La connessione CPU-GPU è affidata a un'interconnessione proprietaria C2C con 600 GB/s di banda.

Clicca per ingrandire

Il sottosistema I/O è gestito principalmente dalla CPU e include supporto a PCIe 5.0, USB, Ethernet e storage NVMe. La presenza di una NIC ConnectX-7 consente di collegare due DGX Spark tra loro, creando configurazioni scalabili per l'addestramento di modelli di grandi dimensioni. Ogni sistema può ospitare SSD fino a 4 TB e dispone di capacità multimediali tramite NVENC/NVDEC e supporto fino a quattro display (DisplayPort 4K120 o HDMI 2.1a fino a 8K120 HDR).

Clicca per ingrandire

La progettazione congiunta tra NVIDIA e MediaTek non ha riguardato solo CPU e memoria: anche il controller video e il link C2C sono stati sviluppati in stretta collaborazione. Secondo NVIDIA, il chip ha funzionato correttamente già al primo tape-out (A0), senza necessità di respin.

Il GB10 Grace Blackwell Superchip ha un TDP di 140 W e, nonostante la compattezza, può funzionare tramite una comune presa domestica, una caratteristica che lo rende adatto anche a laboratori e ambienti non server. NVIDIA posiziona il DGX Spark come gateway per l'ecosistema CUDA: sviluppo e test in locale, per poi scalare su infrastrutture cloud come DGX Cloud. Il sistema è stato annunciato a un prezzo di 3.999 dollari.

13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
LMCH27 Agosto 2025, 13:50 #1
Originariamente inviato da: Redazione di Hardware Upgrade
Link alla notizia: https://www.hwupgrade.it/news/cpu/n...ica_142608.html

Il GB10 Grace Blackwell Superchip ha un TDP di 140 W e, nonostante la compattezza, può funzionare tramite una comune presa domestica, una caratteristica che lo rende adatto anche a laboratori e ambienti non server.


La frase sopra sembra descrivere un coso con una presa 220 VAC collegata direttamente al "superchip".
WarSide27 Agosto 2025, 18:24 #2
Troppo poco potente e troppa poca banda ad un prezzo assurdo. Meglio comprare una GPU discreta o andare di nettop con un AMD Ryzen AI Max+ 395 e 128GB di ram.

Ci sono soluzioni come il mini desktop pc di framework o il Gmktec evo-x2 che si possono comprare con meno di 2k$ invece di spenderne 4k per il GB10
CrapaDiLegno27 Agosto 2025, 21:44 #3
Originariamente inviato da: WarSide
Troppo poco potente e troppa poca banda ad un prezzo assurdo. Meglio comprare una GPU discreta o andare di nettop con un AMD Ryzen AI Max+ 395 e 128GB di ram.

Ci sono soluzioni come il mini desktop pc di framework o il Gmktec evo-x2 che si possono comprare con meno di 2k$ invece di spenderne 4k per il GB10


Sembri Giovanni nella mitica frase "il mio falegname lo faceva meglio con 30.000 lire".
Comparare questa bestia con un Ryzen AI Max che non ha manco le unità matriciali. Da su, un po' di dignità. E' inutile che si continui a dire che c'è una alternativa valida a prezzo inferiore alle proposte Nvidia. Quelle che ci sono sono tutte zoppe e non sono comunque regalate. Se uno investe, investe in qualcosa che funziona e lo fa dal primo giorno, non in giocattoli ben reclamizzati che poi serve più tempo a configurarli o farli funzionare decentemente, sempre che poi funzionino con le applicazioni che uno vuole usare. La proposta che hai menzionato, oltre a fare schifo di suo, non scala nemmeno a un x2.
Le GPU consumer di AMD poi non dovrebbero neanche mai essere nominate affianco alla parola AI
noc7727 Agosto 2025, 21:44 #4
Anche a me sembra un po' caro, forse non mi e' chiara la sua potenzialita' e scalabilita'.
CrapaDiLegno28 Agosto 2025, 00:25 #5
Originariamente inviato da: noc77
Anche a me sembra un po' caro, forse non mi e' chiara la sua potenzialita' e scalabilita'.


E molto semplice.
Tenendo conto che la cosa più vicina a questo SoC è il Ryzen AI Max 395, il costo è dovuto a:
1. è una macchina professionale e ti viene dato anche il supporto SW
2. ha una capacità di 1000TOPS a FP4 (quindi suppongo anche NVFP4), che è una quantizzazione sufficiente per l'inferenza. Compara i 1000 TOPS con 60 TOPS FP16 (la quantizzazione minima supporta in HW dalla GPU AMD) del Ryzen sopra nominato.
3. La banda di memoria è superiore a quella del SoC AMD sopra nominato
4. La banda CPU-GPU di GB10 è 8 volte quella del SoC AMD, superiore di 2 volte quella della RAM mentre nel SoC AMD è meno della metà. Questo vuol dire che con il SoC AMD hai praticamente solo numeri teorici sulla carta perché nell'uso vero avrai colli di bottiglia a non finire.
5. E' compatibile con qualsiasi libreria AI prodotta finora, e scusa se è poco
6. Se non ti bastano le performance, puoi affiancarne un altro e ottenere prestazioni x2.
7. Se fai il codice per questo coso lo puoi poi passare direttamente a un rack con 72GPU Blackwell o perfino su un server con migliaia di GPU. Il vantaggio della soluzione Nvidia che scala da 1 a centinaia di migliaia con un singolo framework è questo, al contrario di quello che può offrire AMD.
8. Qui AMD non può fare il tarocco si saturare la VRAM della GPU Nvidia con la quantizzazione peggiore (che solo lei usa perché non può fare altro) e dire che va più veloce. In un confronto simile le prenderà e sonoramente da questo GB10, quindi grazie alle menzogne di AMD, Nvidia può venderlo a prezzo maggiore di un sistema che monta una 4090.
9. Alla fine costa solo il doppio di una soluzione AMD che va meno di un decimo e non ha supporto SW. Per una azienda che vuole iniziare a fare AI in maniera seria in locale è un investimento economico rispetto a dover noleggiare delle istanze cloud per non si sa quanto tempo e con che risultati.
WarSide28 Agosto 2025, 02:17 #6
Originariamente inviato da: CrapaDiLegno
Sembri Giovanni nella mitica frase "il mio falegname lo faceva meglio con 30.000 lire".
Comparare questa bestia con un Ryzen AI Max che non ha manco le unità matriciali. Da su, un po' di dignità. E' inutile che si continui a dire che c'è una alternativa valida a prezzo inferiore alle proposte Nvidia. Quelle che ci sono sono tutte zoppe e non sono comunque regalate. Se uno investe, investe in qualcosa che funziona e lo fa dal primo giorno, non in giocattoli ben reclamizzati che poi serve più tempo a configurarli o farli funzionare decentemente, sempre che poi funzionino con le applicazioni che uno vuole usare. La proposta che hai menzionato, oltre a fare schifo di suo, non scala nemmeno a un x2.
Le GPU consumer di AMD poi non dovrebbero neanche mai essere nominate affianco alla parola AI


Dai su, parliamoci chiaro. Con quel coso non ci fai fine tuning di un modello o fai training di un LLM nuovo da 0. Con 273 GB/s di bandwidth non si va da nessuna parte.
Pensavo di comprarne un paio, ma non ne vale assolutamente la pena rispetto al comprare direttamente una RTX PRO 6000 (costerebbe 1k in più rispetto a 2 GB10 vedendo i prezzi del mio fornitore americano).

E, se si deve solo fare inferenza, a questo punto è meglio la soluzione AMD che costa meno e arriva comunque a 256 GB/s di banda contro i 270 del GB10. Le API Vulkan alla fine fanno il loro lavoro e ROCm migliora di mese in mese.

Se invece dovessi sviluppare soluzioni cuda (che abbiano a che fare con LLM), continuo a pensare che una RTX PRO 6000 sia la scelta migliore. Tanto se hai 8k per 2 GB10, hai anche 9-10k per una PRO6000.
DevilsAdvocate28 Agosto 2025, 12:18 #7
Non confrontatelo con AMD, ma con i MAC studio M3 ed M4, che costano cifra simile ma hanno badwidth doppia e tripla a fronte di MLX che ha qualche TOPS in meno (non poi troppi).
Ripper8928 Agosto 2025, 13:15 #8
Originariamente inviato da: CrapaDiLegno
E molto semplice.
Tenendo conto che la cosa più vicina a questo SoC è il Ryzen AI Max 395, il costo è dovuto a:
1. è una macchina professionale e ti viene dato anche il supporto SW
2. ha una capacità di 1000TOPS a FP4 (quindi suppongo anche NVFP4), che è una quantizzazione sufficiente per l'inferenza. Compara i 1000 TOPS con 60 TOPS FP16 (la quantizzazione minima supporta in HW dalla GPU AMD) del Ryzen sopra nominato.
3. La banda di memoria è superiore a quella del SoC AMD sopra nominato
4. La banda CPU-GPU di GB10 è 8 volte quella del SoC AMD, superiore di 2 volte quella della RAM mentre nel SoC AMD è meno della metà. Questo vuol dire che con il SoC AMD hai praticamente solo numeri teorici sulla carta perché nell'uso vero avrai colli di bottiglia a non finire.
5. E' compatibile con qualsiasi libreria AI prodotta finora, e scusa se è poco
6. Se non ti bastano le performance, puoi affiancarne un altro e ottenere prestazioni x2.
7. Se fai il codice per questo coso lo puoi poi passare direttamente a un rack con 72GPU Blackwell o perfino su un server con migliaia di GPU. Il vantaggio della soluzione Nvidia che scala da 1 a centinaia di migliaia con un singolo framework è questo, al contrario di quello che può offrire AMD.
8. Qui AMD non può fare il tarocco si saturare la VRAM della GPU Nvidia con la quantizzazione peggiore (che solo lei usa perché non può fare altro) e dire che va più veloce. In un confronto simile le prenderà e sonoramente da questo GB10, quindi grazie alle menzogne di AMD, Nvidia può venderlo a prezzo maggiore di un sistema che monta una 4090.
9. Alla fine costa solo il doppio di una soluzione AMD che va meno di un decimo e non ha supporto SW. Per una azienda che vuole iniziare a fare AI in maniera seria in locale è un investimento economico rispetto a dover noleggiare delle istanze cloud per non si sa quanto tempo e con che risultati.

Quoto, il paragone ha poco senso.
Se il prezzo è così alto è perchè sà di non avere concorrenza diretta.
C'è anche da considerare che si tratta di una soluzione ultra compatta.
CrapaDiLegno28 Agosto 2025, 16:01 #9
Originariamente inviato da: WarSide
Dai su, parliamoci chiaro. Con quel coso non ci fai fine tuning di un modello o fai training di un LLM nuovo da 0. Con 273 GB/s di bandwidth non si va da nessuna parte.
Pensavo di comprarne un paio, ma non ne vale assolutamente la pena rispetto al comprare direttamente una RTX PRO 6000 (costerebbe 1k in più rispetto a 2 GB10 vedendo i prezzi del mio fornitore americano).

E, se si deve solo fare inferenza, a questo punto è meglio la soluzione AMD che costa meno e arriva comunque a 256 GB/s di banda contro i 270 del GB10. Le API Vulkan alla fine fanno il loro lavoro e ROCm migliora di mese in mese.

Se invece dovessi sviluppare soluzioni cuda (che abbiano a che fare con LLM), continuo a pensare che una RTX PRO 6000 sia la scelta migliore. Tanto se hai 8k per 2 GB10, hai anche 9-10k per una PRO6000.

Credo dovresti rivedere le tue conoscenze in campo.
Sei passato a dire che è meglio prendere una soluzione AMD da 2K per finire che se hai 4K da spendere allora puoi anche mettercene 8K. Direi che non ci siamo in quanto a capacità di valutare un prodotto.

AMD non serve proprio a niente. Migliorerà anche, ma sta indietro anni luce e non arriverà mai a livello di questo coso perché semplicemente non ha le unità di calcolo adatte. Può giusto andare bene per generare gattini azzurri in camera di tuo figlio. Con quei due modelli supportati.
Per quanto riguarda il paragone con una GPU AI top gamma, il mezzo qui non serve a fare certamente addestramento ed è un prodotto diverso rispetto a una workstation con una sola GPU masterrace. E costa (e consuma) infatti la metà.
Si chiama edge computing. E questo è pensato anche per chi vuole avvicinarsi al mondo AI senza dover investire un capitale ma con la possibilità di ottenere ottimi risultati iniziali. Che poi facilmente si possono espandere con un x2 o passare a quanto hai detto tu oppure direttamente con un configurazione cloud quando diviene chiaro cosa fare e cosa serve.
Oppure perché vuoi pilotare una flotta di robottini, smistare pacchi, organizzare magazzini, ottimizzare risorse in aziende e lo vuoi on premise e non soggetto alla disponibilità della rete cloud, e vuoi una cosa che funziona, scala, ed è supportata direttamente dal produttore e non da un rivenditore pinco palla (magari pure cinese) che non saprebbe come risolvere una situazione complicata, supporta qualsiasi SW sul mercato e che quindi vale quel migliaio di euro un più per non avere problemi.

Per la cameretta di tuo figlio invece basta il Ryzen AI Max super duper a "soli" 2000 euro.
WarSide28 Agosto 2025, 16:22 #10
Originariamente inviato da: CrapaDiLegno
Credo dovresti rivedere le tue conoscenze in campo.
Sei passato a dire che è meglio prendere una soluzione AMD da 2K per finire che se hai 4K da spendere allora puoi anche mettercene 8K. Direi che non ci siamo in quanto a capacità di valutare un prodotto.

AMD non serve proprio a niente. Migliorerà anche, ma sta indietro anni luce e non arriverà mai a livello di questo coso perché semplicemente non ha le unità di calcolo adatte. Può giusto andare bene per generare gattini azzurri in camera di tuo figlio. Con quei due modelli supportati.
Per quanto riguarda il paragone con una GPU AI top gamma, il mezzo qui non serve a fare certamente addestramento ed è un prodotto diverso rispetto a una workstation con una sola GPU masterrace. E costa (e consuma) infatti la metà.
Si chiama edge computing. E questo è pensato anche per chi vuole avvicinarsi al mondo AI senza dover investire un capitale ma con la possibilità di ottenere ottimi risultati iniziali. Che poi facilmente si possono espandere con un x2 o passare a quanto hai detto tu oppure direttamente con un configurazione cloud quando diviene chiaro cosa fare e cosa serve.
Oppure perché vuoi pilotare una flotta di robottini, smistare pacchi, organizzare magazzini, ottimizzare risorse in aziende e lo vuoi on premise e non soggetto alla disponibilità della rete cloud, e vuoi una cosa che funziona, scala, ed è supportata direttamente dal produttore e non da un rivenditore pinco palla (magari pure cinese) che non saprebbe come risolvere una situazione complicata, supporta qualsiasi SW sul mercato e che quindi vale quel migliaio di euro un più per non avere problemi.

Per la cameretta di tuo figlio invece basta il Ryzen AI Max super duper a "soli" 2000 euro.


Io parlo di LLM, tu di robottini. Direi che semplicemente parliamo di 2 campi di applicazione differenti. E lato LLM c'è poco da dire, bastano i benchmark.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^