NVIDIA Hopper: la nuova mostruosa architettura da 80 miliardi di transistor

Redazione di Hardware Upg · 22-03-2022, 17:22

Link alla notizia: https://www.hwupgrade.it/news/skvide...or_105766.html

NVIDIA ha presentato l'architettura Hopper, alla base dei futuri acceleratori H100 in formato SXM e PCI Express 5.0. Forte di una GPU con 80 miliardi di transistor e fino a 18432 CUDA core, le soluzioni NVIDIA H100 promettono di far mangiare la polvere alla concorrenza e alla precedente generazione A100.

Click sul link per visualizzare la notizia.

paolo cavallo · 22-03-2022, 17:35

Mamma mia che MOSTRO....ma ci gira crisys ? ahahaha

ciolla2005 · 22-03-2022, 18:44

"Venti GPU H100 possono sostenere l'equivalente del traffico Internet mondiale"

Poteva non scappare?

angie · 22-03-2022, 20:15

Quote:

Originariamente inviato da ciolla2005

"Venti GPU H100 possono sostenere l'equivalente del traffico Internet mondiale"

Poteva non scappare?

Qarboz · 22-03-2022, 21:09

Per curiosità, il formato FP8 citato nell'articolo è un virgola mobile a 8 bit (?) o un virgola fissa con 8 cifre decimali? Fosse quest'ultimo caso, di quanti byte è composto? Ho cercato su Wikipedia e Google ma non sono riuscito a trovare nulla...

paolox86 · 22-03-2022, 22:28

In trepidante attesa delle versioni per comuni mortali, anche se dovessero essere introvabili e costosissime, solo per sbavare davanti al monitor

joe4th · 22-03-2022, 23:11

Certo e' notevole il 30 TFLOPS di FP64 e il 30 di FP32 con rapporto FP64/FP32 1:2, per quanto alla fine l'algebra lineare densa non e' molto utilizzata nelle simulazioni dei problemi fisici reali, bensi' quella sparsa e quindi tutti quei TFLOPS vanno ridimensionati di un bel po'... Volendo dal modello PCIe si possono estrapolare le prestazioni delle prossime schede RTX4090 o come si chiameranno. La RTX3090 aveva FP32 a 35.6 TFLOPS (e 1:64 per l'FP64, praticamente ininfluente, poiche' a livello delle CPU). Qui siamo a 48/60 tra PCIe e SXM5. Si puo' ipotizzare quidni una RTX4090 allineata tra quei valori, praticamente un 50-60% piu' veloce della generazione precedente.

Axel.vv · 23-03-2022, 07:24

Quote:

Originariamente inviato da Qarboz

Per curiosità, il formato FP8 citato nell'articolo è un virgola mobile a 8 bit (?) o un virgola fissa con 8 cifre decimali? Fosse quest'ultimo caso, di quanti byte è composto? Ho cercato su Wikipedia e Google ma non sono riuscito a trovare nulla...

Allora... non sono certo faccia parte dello IEEE 754, ma in ogni caso dovrebbe essere in virgola mobile, con mantissa * 2 ^ esponente, con un bit di segno all'inizio. Ho trovato due configurazioni, in questo documento: https://arxiv.org/ftp/arxiv/papers/2104/2104.07329.pdf

1 - 5 - 2 e 1 - 4 - 3 (bit per il segno - bit per la mantissa - bit per l'esponente)

per completezza:
16bit -> 1 - 5 - 10
32bit -> 1 - 8 - 23
64bit -> 1 - 11 - 52
128bit -> 1 - 15 - 112

Nel pdf che ho linkato si parla anche di FFP8, che dovrebbe essere Flexible Floating-Point Format a 8 bit, ma non ho idea di come funzioni.

pierpox · 23-03-2022, 07:24

La versione PCe 5.0 sarà più tipo le Tesla,quindi con dissipatore passivo,oppure è probabile vederne una come la vecchia Titan V?

Gyammy85 · 23-03-2022, 07:58

Quote:

Originariamente inviato da joe4th

Certo e' notevole il 30 TFLOPS di FP64 e il 30 di FP32 con rapporto FP64/FP32 1:2, per quanto alla fine l'algebra lineare densa non e' molto utilizzata nelle simulazioni dei problemi fisici reali, bensi' quella sparsa e quindi tutti quei TFLOPS vanno ridimensionati di un bel po'... Volendo dal modello PCIe si possono estrapolare le prestazioni delle prossime schede RTX4090 o come si chiameranno. La RTX3090 aveva FP32 a 35.6 TFLOPS (e 1:64 per l'FP64, praticamente ininfluente, poiche' a livello delle CPU). Qui siamo a 48/60 tra PCIe e SXM5. Si puo' ipotizzare quidni una RTX4090 allineata tra quei valori, praticamente un 50-60% piu' veloce della generazione precedente.

Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

AceGranger · 23-03-2022, 08:20

Quote:

Originariamente inviato da Gyammy85

Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

il calcolo generico non è piu il motore trainante del mercato datacenter; nVidia riserva buona parte del silicio e dei Watt all'AI e alla interconnessione fra le GPU.

AMD è arrivata tardi sia nell'AI sia nell'interconnessione delle GPU, per non parlare della piattaforma sotftware dove è inesistente. E' normale che AMD punti sull'unico mercato dove ha qualche possibilita di vendita.

Gyammy85 · 23-03-2022, 08:22

Quote:

Originariamente inviato da AceGranger

il calcolo generico non è piu il motore trainante del mercato datacenter; nVidia riserva buona parte del silicio e dei Watt all'AI e alla interconnessione fra le GPU.

AMD è arrivata tardi sia nell'AI sia nell'interconnessione delle GPU, per non parlare della piattaforma sotftware dove è inesistente. E' normale che AMD punti sull'unico mercato dove ha qualche possibilita di vendita.

Eh si non gli resta altro che l'inutile mercato dell'exascale computing

AceGranger · 23-03-2022, 08:26

Quote:

Originariamente inviato da Gyammy85

Eh si non gli resta altro che l'inutile mercato dell'exascale computing

peccato che il grosso di quei sistemi Exascale computing puntino sull'IA

Gyammy85 · 23-03-2022, 08:28

Quote:

Originariamente inviato da AceGranger

peccato che il grosso di quei sistemi Exascale computing puntino sull'IA

I sistemi più grossi hanno cpu e gpu amd

AceGranger · 23-03-2022, 08:34

Quote:

Originariamente inviato da Gyammy85

I sistemi più grossi hanno cpu e gpu amd

quelli annunciati che conosci TU

quando si aggirnerà la lista dei supercomputer attivi e rimarrà tale per svariato tempo ne riparleremo.

omerook · 23-03-2022, 08:36

Quote:

Originariamente inviato da paolo cavallo

Mamma mia che MOSTRO....ma ci gira crisys ? ahahaha

sei rimasto indietro! oggi si chiede quanto fa di hash rate/s

CrapaDiLegno · 23-03-2022, 09:37

Quote:

Originariamente inviato da Gyammy85

Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

Solita comparazione inutile per tentare di difendere l'indifendibile con numeri estrapolati dalla carta.
La Mi250 fa 45TFLOPS in FP64, ma ne fa 45 anche in FP32.
Ed è un doppio die.
Il TPD della versione che fa questi numeri, con una banda di 3GB/s, è di 560W, non 300.
Quella da 300 fa la metà di tutto, essendo un singolo die.
E il doppio die sono sempre 60 miliardi di transistor.

La comparazione poi con l'uso delle unità matriciali poi è improponibile, ed è proprio questo che aumenta il consumo.

Questo mostro è un singolo die, che va 1 volta e mezza nei calcoli "tradizionali", rispetto a quello che AMD fa con 2 die e soprattutto questa è una vera GPU, cioè può elaborare dati grafici anche sotto virtualizzazione, roba che la Mi250 non fa essendo solo un mero coprocessore matematico.
Stiamo parlando di 2 prodotti completamente diversi, con capacità diverse.
Per i calcoli "tradizionali," che sono sempre meno richiesti, comunque non pongono alcun problema.. basta mettere più GPU di questo tipo e con la connessione NVLink che scala molto bene raggiungi le prestazioni che vuoi e sicuramente i consumi non sono quelli del TPD se usi solo quelle unità.

Non parliamo poi del supporto SW: AMD è inesistente proprio, con Nvidia non solo hai tutto lo stack per lavorare con le GPU e sfruttarle al massimo hai anche la sicurezza che il tuo lavoro non è da buttare quando cambia l'architettura della GPU. Ricicli tutto, con la sicurezza che con la nuova generazione tutto sarà automaticamente ottimizzato per funzionare al meglio con la nuova architettura.
Quindi i puri numeri che sono scritti sulla carta interessano fino ad un certo punto, perché poi per riuscire a far macinare la scheda al massimo diminuendo i tempi di elaborazione serve un lavoro dietro non indifferente, soprattutto se non hai librerie, framework e middleware già sviluppato e che sai che funziona perfettamente con l'HW a disposizione.
Se dimezzo i tempi di calcolo di 2 giorni perché ho più potenza FP64 ma ci impiego 4 giorni di più a preparare modelli e dati, alla fine non risparmio niente.

Gyammy85 · 23-03-2022, 09:51

Quote:

Originariamente inviato da CrapaDiLegno

Solita comparazione inutile per tentare di difendere l'indifendibile con numeri estrapolati dalla carta.
La Mi250 fa 45TFLOPS in FP64, ma ne fa 45 anche in FP32.
Ed è un doppio die.
Il TPD della versione che fa questi numeri, con una banda di 3GB/s, è di 560W, non 300.
Quella da 300 fa la metà di tutto, essendo un singolo die.
E il doppio die sono sempre 60 miliardi di transistor.

La comparazione poi con l'uso delle unità matriciali poi è improponibile, ed è proprio questo che aumenta il consumo.

Questo mostro è un singolo die, che va 1 volta e mezza nei calcoli "tradizionali", rispetto a quello che AMD fa con 2 die e soprattutto questa è una vera GPU, cioè può elaborare dati grafici anche sotto virtualizzazione, roba che la Mi250 non fa essendo solo un mero coprocessore matematico.
Stiamo parlando di 2 prodotti completamente diversi, con capacità diverse.
Per i calcoli "tradizionali," che sono sempre meno richiesti, comunque non pongono alcun problema.. basta mettere più GPU di questo tipo e con la connessione NVLink che scala molto bene raggiungi le prestazioni che vuoi e sicuramente i consumi non sono quelli del TPD se usi solo quelle unità.

Non parliamo poi del supporto SW: AMD è inesistente proprio, con Nvidia non solo hai tutto lo stack per lavorare con le GPU e sfruttarle al massimo hai anche la sicurezza che il tuo lavoro non è da buttare quando cambia l'architettura della GPU. Ricicli tutto, con la sicurezza che con la nuova generazione tutto sarà automaticamente ottimizzato per funzionare al meglio con la nuova architettura.
Quindi i puri numeri che sono scritti sulla carta interessano fino ad un certo punto, perché poi per riuscire a far macinare la scheda al massimo diminuendo i tempi di elaborazione serve un lavoro dietro non indifferente, soprattutto se non hai librerie, framework e middleware già sviluppato e che sai che funziona perfettamente con l'HW a disposizione.
Se dimezzo i tempi di calcolo di 2 giorni perché ho più potenza FP64 ma ci impiego 4 giorni di più a preparare modelli e dati, alla fine non risparmio niente.

Ah beh, si vede che hanno i soldi da buttare
E figuriamoci se non veniva fuori la storia del "2 contro 1", 700 watt a 4 nm, contenti loro, non oso immaginare il pacco completo con più gpu quanto costerà e consumerà
Ricicli tutto? ma se tirano fuori una uber features ad ogni arch, mi spieghi cosa ci fai oggi con una P100 o una V100? i toast? Ah già ci fai girare il codice generico, cosa che fai con una mi25 rozza e zozza che ormai viene due soldi

AceGranger · 23-03-2022, 09:55

Quote:

Originariamente inviato da Gyammy85

Ah beh, si vede che hanno i soldi da buttare
E figuriamoci se non veniva fuori la storia del "2 contro 1", 700 watt a 4 nm, contenti loro, non oso immaginare il pacco completo con più gpu quanto costerà e consumerà
Ricicli tutto? ma se tirano fuori una uber features ad ogni arch, mi spieghi cosa ci fai oggi con una P100 o una V100? i toast? Ah già ci fai girare il codice generico, cosa che fai con una mi25 rozza e zozza che ormai viene due soldi

scrivevi le stesse baggianate sulle P100, V100 e A100, poi si sono visti i dati di vendita.

in sostanza al mondo sono tutti scemi tranne te, buttano via tutti i soldi.

nickname88 · 23-03-2022, 10:09

Quote:

Originariamente inviato da paolox86

In trepidante attesa delle versioni per comuni mortali, anche se dovessero essere introvabili e costosissime, solo per sbavare davanti al monitor

Ricordo a tutti che da quest'anno non ci saranno più i miners e le mining farm russe, biellorusse e ucraine, oltre all'aumento del costo dell'energia.

Quindi la domanda dei miners dovrebbe calare significativamente.
E anche quella dei cheaters.

22-03-2022, 21:09	#5
Qarboz Senior Member Iscritto dal: Nov 2017 Città: Emilia Messaggi: 2267	Per curiosità, il formato FP8 citato nell'articolo è un virgola mobile a 8 bit (?) o un virgola fissa con 8 cifre decimali? Fosse quest'ultimo caso, di quanti byte è composto? Ho cercato su Wikipedia e Google ma non sono riuscito a trovare nulla... __________________ Ci sono 10 tipi di persone: quelli che capiscono il codice binario e quelli che non lo capiscono (cit.) Il mio brano preferito di sempre

22-03-2022, 17:22	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75173	Link alla notizia: https://www.hwupgrade.it/news/skvide...or_105766.html NVIDIA ha presentato l'architettura Hopper, alla base dei futuri acceleratori H100 in formato SXM e PCI Express 5.0. Forte di una GPU con 80 miliardi di transistor e fino a 18432 CUDA core, le soluzioni NVIDIA H100 promettono di far mangiare la polvere alla concorrenza e alla precedente generazione A100. Click sul link per visualizzare la notizia.

22-03-2022, 17:35	#2
paolo cavallo Member Iscritto dal: Jun 2021 Messaggi: 395	Mamma mia che MOSTRO....ma ci gira crisys ? ahahaha

22-03-2022, 18:44	#3
ciolla2005 Senior Member Iscritto dal: Feb 2005 Città: Padova Messaggi: 898	"Venti GPU H100 possono sostenere l'equivalente del traffico Internet mondiale" Poteva non scappare?

22-03-2022, 22:28	#6
paolox86 Senior Member Iscritto dal: Sep 2006 Città: Firenze Messaggi: 4072	In trepidante attesa delle versioni per comuni mortali, anche se dovessero essere introvabili e costosissime, solo per sbavare davanti al monitor

22-03-2022, 23:11	#7
joe4th Senior Member Iscritto dal: Jan 2003 Messaggi: 2355	Certo e' notevole il 30 TFLOPS di FP64 e il 30 di FP32 con rapporto FP64/FP32 1:2, per quanto alla fine l'algebra lineare densa non e' molto utilizzata nelle simulazioni dei problemi fisici reali, bensi' quella sparsa e quindi tutti quei TFLOPS vanno ridimensionati di un bel po'... Volendo dal modello PCIe si possono estrapolare le prestazioni delle prossime schede RTX4090 o come si chiameranno. La RTX3090 aveva FP32 a 35.6 TFLOPS (e 1:64 per l'FP64, praticamente ininfluente, poiche' a livello delle CPU). Qui siamo a 48/60 tra PCIe e SXM5. Si puo' ipotizzare quidni una RTX4090 allineata tra quei valori, praticamente un 50-60% piu' veloce della generazione precedente.

23-03-2022, 07:24	#9
pierpox Senior Member Iscritto dal: Feb 2007 Città: Cosenza Messaggi: 400	La versione PCe 5.0 sarà più tipo le Tesla,quindi con dissipatore passivo,oppure è probabile vederne una come la vecchia Titan V?

Strumenti
Mostra una versione stampabile Invia questa pagina per email