Un bel frullato di dati tanto per...
Per prima cosa sembra che sia una scheda acceleratrice pura invece che una GPU.
Facciamo che chiamiamo GPU solo quegli acceleratori che tra le tante unità di calcolo possiedono le ROP. Senza non sono GPU.
Mancano anche le TMU, le unità di gestione della geometria e pure i normali shader che lavorano in parallelo. Quindi niente raster per come lo conosciamo oggi.
Le unità FP64 sembrano che la facciano da padrone, mentre sulle schede gaming di Nvidia mancano.
Ma qui stiamo parlando di schede per l'accelerazione su un server o mega workstation con configurazioni multi GPU. Razzo serve fare il paragone con le GPU da gioco? Avete mai visto installazioni di 100 GPU 5090 per accelerare i calcoli grafici? Le GPU da gioco sono appunto GPU e fanno un altro lavoro per un altro scopo.
Se si parla di fare accelerazione di dati (che siano grafici o di simulazione generale) parliamo allora delle GPU (sempre GPU sono perché hanno delle ROP) con H200 e B200.
Lì la storia cambia un pochino. Per prima cosa anche queste GPU hanno un minimo di supporto per l'FP64, quel minimo che basta a superare le capacità dell'acceleratore qui descritto.
Oltre alle unità FP64 sembra che sia stato grande spazio (proprio fisicamente sul die) ad un mega risolutore ray casting, BVH + triangle identification + denoise. Una sorta di ray-tracer in HW decisamente molto più efficiente di quelli delle GPU classiche che hanno solo qualche unità sparsa per accelerare alcuni passaggi dell'algoritmo.
Alla fine però i numeri non sono così stratosferici come si vuole riportare.
Notare come una volta si faccia il confronto con la 5080 e un'altra con la 5090 che in termini di capacità di calcolo FP16/32 è un mostro.
Lo scambio dei dati con le altre unità di calcolo avviene tramite una Ethernet. Nvlink è distante anni luce da questa soluzione povery.
Ethernet serve solo per la comunicazione fuori dalla scheda madre che ospita fino a 16 GPU, altrimenti la velocità di scambio dei dati è nettamente superiore e con latenze inferiori rispetto all'uso della Ethernet. Ed è complessa, costosa e affamata di energia perché non è una soluzione punto-punto, ma ci sono degli switch avanzatissimi NxN che permettono di ottimizzare al meglio il percorso tra sorgente e destinazione. Ne risulta una capacità di gestire un traffico all'incirca un paio di ordini di grandezza rispetto al singolo connettore Ethernet collegato ad un hub, che sì, è vero, consuma meno.
Quindi alla fine abbiamo un acceleratore che non fa il lavoro delle GPU Nvidia progettate per altro tipo di carichi. Può fare un migliore lavoro per quanto riguarda il path tracing, solo che frega quasi a nessuno di mettere una super workstation per avere un path tracing in tempo reale per mostrare una bozza di lavoro. Con quella capacità ridottissima nei calcoli FP32 non va neanche bene per fare una render farm.
Così su due piedi la vedo come una concorrente delle schede MI3xx di AMD che fanno del calcolo FP64 il loro cavallo di battaglia nei server HPC.
Ma una nota sulla banda di memoria. O in AMD con le loro MI3xx non sono capaci di usare la banda, oppure questi acceleratori andranno solo una frazione di quanto è già presente sul mercato. Consumano di meno, ma vanno anche di meno e una soluzione che deve scalare 10x quelle attuali non la vedo una cosa semplice da far digerire a chi li deve installare.
Last but not least, sulla carta ed eventualmente con i simulatori è tutto bello, poi però bisogna realizzare il silicio. E lì sono dolori, per tempi, costi e disponibilità. Non so alla fine quanti miliardi di transistor vanno integrati sul die, ma il tempo per ottimizzarli non è poco, a meno di non volere una soluzione che semplicemente "funziona" e sicuramente non al primo giro, e i costi sono stratosferici. Poi quando hai il tape-out e i soldi, devi cercare qualche slot libero in qualche fonderia. Vista la enorme richiesta di aziende ben più rodate, con più soldi e più fidelizzazione alle fonderie, attualmente forse qualcuno ti sforna un lotto per i test e basta.
|