PDA

View Full Version : NVIDIA Hopper: la nuova mostruosa architettura da 80 miliardi di transistor


Redazione di Hardware Upg
22-03-2022, 17:22
Link alla notizia: https://www.hwupgrade.it/news/skvideo/nvidia-hopper-la-nuova-mostruosa-architettura-da-80-miliardi-di-transistor_105766.html

NVIDIA ha presentato l'architettura Hopper, alla base dei futuri acceleratori H100 in formato SXM e PCI Express 5.0. Forte di una GPU con 80 miliardi di transistor e fino a 18432 CUDA core, le soluzioni NVIDIA H100 promettono di far mangiare la polvere alla concorrenza e alla precedente generazione A100.

Click sul link per visualizzare la notizia.

paolo cavallo
22-03-2022, 17:35
Mamma mia che MOSTRO....ma ci gira crisys ? ahahaha

ciolla2005
22-03-2022, 18:44
"Venti GPU H100 possono sostenere l'equivalente del traffico Internet mondiale"

Poteva non scappare?

angie
22-03-2022, 20:15
"Venti GPU H100 possono sostenere l'equivalente del traffico Internet mondiale"

Poteva non scappare?

:D :D :D

Qarboz
22-03-2022, 21:09
Per curiosità, il formato FP8 citato nell'articolo è un virgola mobile a 8 bit (?) o un virgola fissa con 8 cifre decimali? Fosse quest'ultimo caso, di quanti byte è composto? Ho cercato su Wikipedia e Google ma non sono riuscito a trovare nulla...

paolox86
22-03-2022, 22:28
In trepidante attesa delle versioni per comuni mortali, anche se dovessero essere introvabili e costosissime, solo per sbavare davanti al monitor :)

joe4th
22-03-2022, 23:11
Certo e' notevole il 30 TFLOPS di FP64 e il 30 di FP32 con rapporto FP64/FP32 1:2, per quanto alla fine l'algebra lineare densa non e' molto utilizzata nelle simulazioni dei problemi fisici reali, bensi' quella sparsa e quindi tutti quei TFLOPS vanno ridimensionati di un bel po'... Volendo dal modello PCIe si possono estrapolare le prestazioni delle prossime schede RTX4090 o come si chiameranno. La RTX3090 aveva FP32 a 35.6 TFLOPS (e 1:64 per l'FP64, praticamente ininfluente, poiche' a livello delle CPU). Qui siamo a 48/60 tra PCIe e SXM5. Si puo' ipotizzare quidni una RTX4090 allineata tra quei valori, praticamente un 50-60% piu' veloce della generazione precedente.

Axel.vv
23-03-2022, 07:24
Per curiosità, il formato FP8 citato nell'articolo è un virgola mobile a 8 bit (?) o un virgola fissa con 8 cifre decimali? Fosse quest'ultimo caso, di quanti byte è composto? Ho cercato su Wikipedia e Google ma non sono riuscito a trovare nulla...

Allora... non sono certo faccia parte dello IEEE 754, ma in ogni caso dovrebbe essere in virgola mobile, con mantissa * 2 ^ esponente, con un bit di segno all'inizio. Ho trovato due configurazioni, in questo documento: https://arxiv.org/ftp/arxiv/papers/2104/2104.07329.pdf

1 - 5 - 2 e 1 - 4 - 3 (bit per il segno - bit per la mantissa - bit per l'esponente)

per completezza:
16bit -> 1 - 5 - 10
32bit -> 1 - 8 - 23
64bit -> 1 - 11 - 52
128bit -> 1 - 15 - 112

Nel pdf che ho linkato si parla anche di FFP8, che dovrebbe essere Flexible Floating-Point Format a 8 bit, ma non ho idea di come funzioni.

pierpox
23-03-2022, 07:24
La versione PCe 5.0 sarà più tipo le Tesla,quindi con dissipatore passivo,oppure è probabile vederne una come la vecchia Titan V?

Gyammy85
23-03-2022, 07:58
Certo e' notevole il 30 TFLOPS di FP64 e il 30 di FP32 con rapporto FP64/FP32 1:2, per quanto alla fine l'algebra lineare densa non e' molto utilizzata nelle simulazioni dei problemi fisici reali, bensi' quella sparsa e quindi tutti quei TFLOPS vanno ridimensionati di un bel po'... Volendo dal modello PCIe si possono estrapolare le prestazioni delle prossime schede RTX4090 o come si chiameranno. La RTX3090 aveva FP32 a 35.6 TFLOPS (e 1:64 per l'FP64, praticamente ininfluente, poiche' a livello delle CPU). Qui siamo a 48/60 tra PCIe e SXM5. Si puo' ipotizzare quidni una RTX4090 allineata tra quei valori, praticamente un 50-60% piu' veloce della generazione precedente.

Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

AceGranger
23-03-2022, 08:20
Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

il calcolo generico non è piu il motore trainante del mercato datacenter; nVidia riserva buona parte del silicio e dei Watt all'AI e alla interconnessione fra le GPU.

AMD è arrivata tardi sia nell'AI sia nell'interconnessione delle GPU, per non parlare della piattaforma sotftware dove è inesistente. E' normale che AMD punti sull'unico mercato dove ha qualche possibilita di vendita.

Gyammy85
23-03-2022, 08:22
il calcolo generico non è piu il motore trainante del mercato datacenter; nVidia riserva buona parte del silicio e dei Watt all'AI e alla interconnessione fra le GPU.

AMD è arrivata tardi sia nell'AI sia nell'interconnessione delle GPU, per non parlare della piattaforma sotftware dove è inesistente. E' normale che AMD punti sull'unico mercato dove ha qualche possibilita di vendita.

Eh si non gli resta altro che l'inutile mercato dell'exascale computing

AceGranger
23-03-2022, 08:26
Eh si non gli resta altro che l'inutile mercato dell'exascale computing

peccato che il grosso di quei sistemi Exascale computing puntino sull'IA :fagiano:

Gyammy85
23-03-2022, 08:28
peccato che il grosso di quei sistemi Exascale computing puntino sull'IA :fagiano:

I sistemi più grossi hanno cpu e gpu amd

AceGranger
23-03-2022, 08:34
I sistemi più grossi hanno cpu e gpu amd

quelli annunciati che conosci TU :p

quando si aggirnerà la lista dei supercomputer attivi e rimarrà tale per svariato tempo ne riparleremo.

omerook
23-03-2022, 08:36
Mamma mia che MOSTRO....ma ci gira crisys ? ahahaha

sei rimasto indietro! oggi si chiede quanto fa di hash rate/s:D

CrapaDiLegno
23-03-2022, 09:37
Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene

Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte

Solita comparazione inutile per tentare di difendere l'indifendibile con numeri estrapolati dalla carta.
La Mi250 fa 45TFLOPS in FP64, ma ne fa 45 anche in FP32.
Ed è un doppio die.
Il TPD della versione che fa questi numeri, con una banda di 3GB/s, è di 560W, non 300.
Quella da 300 fa la metà di tutto, essendo un singolo die.
E il doppio die sono sempre 60 miliardi di transistor.

La comparazione poi con l'uso delle unità matriciali poi è improponibile, ed è proprio questo che aumenta il consumo.

Questo mostro è un singolo die, che va 1 volta e mezza nei calcoli "tradizionali", rispetto a quello che AMD fa con 2 die e soprattutto questa è una vera GPU, cioè può elaborare dati grafici anche sotto virtualizzazione, roba che la Mi250 non fa essendo solo un mero coprocessore matematico.
Stiamo parlando di 2 prodotti completamente diversi, con capacità diverse.
Per i calcoli "tradizionali," che sono sempre meno richiesti, comunque non pongono alcun problema.. basta mettere più GPU di questo tipo e con la connessione NVLink che scala molto bene raggiungi le prestazioni che vuoi e sicuramente i consumi non sono quelli del TPD se usi solo quelle unità.

Non parliamo poi del supporto SW: AMD è inesistente proprio, con Nvidia non solo hai tutto lo stack per lavorare con le GPU e sfruttarle al massimo hai anche la sicurezza che il tuo lavoro non è da buttare quando cambia l'architettura della GPU. Ricicli tutto, con la sicurezza che con la nuova generazione tutto sarà automaticamente ottimizzato per funzionare al meglio con la nuova architettura.
Quindi i puri numeri che sono scritti sulla carta interessano fino ad un certo punto, perché poi per riuscire a far macinare la scheda al massimo diminuendo i tempi di elaborazione serve un lavoro dietro non indifferente, soprattutto se non hai librerie, framework e middleware già sviluppato e che sai che funziona perfettamente con l'HW a disposizione.
Se dimezzo i tempi di calcolo di 2 giorni perché ho più potenza FP64 ma ci impiego 4 giorni di più a preparare modelli e dati, alla fine non risparmio niente.

Gyammy85
23-03-2022, 09:51
Solita comparazione inutile per tentare di difendere l'indifendibile con numeri estrapolati dalla carta.
La Mi250 fa 45TFLOPS in FP64, ma ne fa 45 anche in FP32.
Ed è un doppio die.
Il TPD della versione che fa questi numeri, con una banda di 3GB/s, è di 560W, non 300.
Quella da 300 fa la metà di tutto, essendo un singolo die.
E il doppio die sono sempre 60 miliardi di transistor.

La comparazione poi con l'uso delle unità matriciali poi è improponibile, ed è proprio questo che aumenta il consumo.

Questo mostro è un singolo die, che va 1 volta e mezza nei calcoli "tradizionali", rispetto a quello che AMD fa con 2 die e soprattutto questa è una vera GPU, cioè può elaborare dati grafici anche sotto virtualizzazione, roba che la Mi250 non fa essendo solo un mero coprocessore matematico.
Stiamo parlando di 2 prodotti completamente diversi, con capacità diverse.
Per i calcoli "tradizionali," che sono sempre meno richiesti, comunque non pongono alcun problema.. basta mettere più GPU di questo tipo e con la connessione NVLink che scala molto bene raggiungi le prestazioni che vuoi e sicuramente i consumi non sono quelli del TPD se usi solo quelle unità.

Non parliamo poi del supporto SW: AMD è inesistente proprio, con Nvidia non solo hai tutto lo stack per lavorare con le GPU e sfruttarle al massimo hai anche la sicurezza che il tuo lavoro non è da buttare quando cambia l'architettura della GPU. Ricicli tutto, con la sicurezza che con la nuova generazione tutto sarà automaticamente ottimizzato per funzionare al meglio con la nuova architettura.
Quindi i puri numeri che sono scritti sulla carta interessano fino ad un certo punto, perché poi per riuscire a far macinare la scheda al massimo diminuendo i tempi di elaborazione serve un lavoro dietro non indifferente, soprattutto se non hai librerie, framework e middleware già sviluppato e che sai che funziona perfettamente con l'HW a disposizione.
Se dimezzo i tempi di calcolo di 2 giorni perché ho più potenza FP64 ma ci impiego 4 giorni di più a preparare modelli e dati, alla fine non risparmio niente.

Ah beh, si vede che hanno i soldi da buttare
E figuriamoci se non veniva fuori la storia del "2 contro 1", 700 watt a 4 nm, contenti loro, non oso immaginare il pacco completo con più gpu quanto costerà e consumerà
Ricicli tutto? ma se tirano fuori una uber features ad ogni arch, mi spieghi cosa ci fai oggi con una P100 o una V100? i toast? Ah già ci fai girare il codice generico, cosa che fai con una mi25 rozza e zozza che ormai viene due soldi

AceGranger
23-03-2022, 09:55
Ah beh, si vede che hanno i soldi da buttare
E figuriamoci se non veniva fuori la storia del "2 contro 1", 700 watt a 4 nm, contenti loro, non oso immaginare il pacco completo con più gpu quanto costerà e consumerà
Ricicli tutto? ma se tirano fuori una uber features ad ogni arch, mi spieghi cosa ci fai oggi con una P100 o una V100? i toast? Ah già ci fai girare il codice generico, cosa che fai con una mi25 rozza e zozza che ormai viene due soldi

scrivevi le stesse baggianate sulle P100, V100 e A100, poi si sono visti i dati di vendita.

in sostanza al mondo sono tutti scemi tranne te, buttano via tutti i soldi. :asd:

nickname88
23-03-2022, 10:09
In trepidante attesa delle versioni per comuni mortali, anche se dovessero essere introvabili e costosissime, solo per sbavare davanti al monitor :)

Ricordo a tutti che da quest'anno non ci saranno più i miners e le mining farm russe, biellorusse e ucraine, oltre all'aumento del costo dell'energia.

Quindi la domanda dei miners dovrebbe calare significativamente.
E anche quella dei cheaters.

Gyammy85
23-03-2022, 10:09
scrivevi le stesse baggianate sulle P100, V100 e A100, poi si sono visti i dati di vendita.

in sostanza al mondo sono tutti scemi tranne te, buttano via tutti i soldi. :asd:

I dati di vendita hanno mostrato incrementi sia per nvidia che per amd, il mercato si espande
Ammetterai che nvidia ci marcia un pochino coi prezzi, perché i 200k (tiro a indovinare) che chiede ogni due anni per "irrinunciabili features preottimizzate plug e play" non saranno proprio il best price
Ma ripeto 700 watt, a 4 nm, contenti loro contenti tutti, voglio proprio vedere lovelace vs rdna3, buona fortuna

AceGranger
23-03-2022, 10:21
I dati di vendita hanno mostrato incrementi sia per nvidia che per amd, il mercato si espande
Ammetterai che nvidia ci marcia un pochino coi prezzi, perché i 200k (tiro a indovinare) che chiede ogni due anni per "irrinunciabili features preottimizzate plug e play" non saranno proprio il best price
Ma ripeto 700 watt, a 4 nm, contenti loro contenti tutti, voglio proprio vedere lovelace vs rdna3, buona fortuna

che leggi a modo tuo :asd:

ripeto, tutti scemi tranne te :asd:

CrapaDiLegno
23-03-2022, 10:21
Ah beh, si vede che hanno i soldi da buttare
E figuriamoci se non veniva fuori la storia del "2 contro 1", 700 watt a 4 nm, contenti loro, non oso immaginare il pacco completo con più gpu quanto costerà e consumerà
Ricicli tutto? ma se tirano fuori una uber features ad ogni arch, mi spieghi cosa ci fai oggi con una P100 o una V100? i toast? Ah già ci fai girare il codice generico, cosa che fai con una mi25 rozza e zozza che ormai viene due soldi

Il mondo al contrario visto da un fanboy frustrato.
Il 2 contro 1 sta solo a farti vedere che qui non si parla di robetta "incollata" per far vedere numeroni teorici sulla carta. Si parla di roba fatta e pensata sin dall'inizio per un certo scopo e con una ben definita capacità di scalare.

Per la questione consumi, mi sa che devi crescere un pochino ancora. Quello che importa non è il consumo in assoluto, ma la questione perf/W.
Queste nuove schede vanno dal doppio al 7 volte più veloci delle precedenti A100 consumando il doppio. Quindi dallo stesso indice perf/W a 3,5 volte meglio. Significa che basta una scheda Hopper per sostituire 8 schede A100, 700W vs 400x8 = 3200.
In un sistema che scala a livelli che non puoi comprendere, con migliaia di GPU devi fare questo tipo di conti. Lo so che per te sono difficili, ma c'è chi è capace di farli e infatti i sistemi Nvidia si vendono come il pane e sono all'interno dei super computer HPC più veloci al mondo.

Per la questione "uber feaure" evita di guardare il mondo nello specchio e vedrai che la direzione corretta dello sviluppo ti viene più chiara.
Ho V100 sul quale ho sviluppato una applicazione di calcolo che sfrutta tutta l'architettura disponibile (quindi anche i tensor core). Sostituisco il V100 con l'A100, e oppsss, tutto continua a funzionare esattamente come prima con la sola differenza che va molto più veloce. Ci sono gli FP16 invece che gli FP32, uso la libreria corretta, e voilà, raddoppio la velocità di esecuzione dei miei algoritmi. Sostituisco il V100 con H100, ed eseguo lo stesso identico algoritmo precedente al doppio della velocità di prima.. hanno aggiunto gli FP8 che permettono di consumare metà della memoria? Bene, aggiorno il mio set di dati tramite il middleware apposito che ha sviluppato Nvidia ottengo prestazioni triple rispetto a A100 con metà banda, minori consumi e metà dei dati da trasferire in generale.

Capito a cosa serve avere un framework e un supporto alle spalle rodato e garantito? Chi sviluppa per la Mi250 cosa ha a disposizione ed è sicuro che la prossima generazione funzionerà tutto alla stessa maniera o dovrà riscrivere algoritmi e/o rimettersi a rifare il set di dati da elaborare a mano perché è cambiato il modello di elaborazione dei driver che sono alla versione 0.00001 alpha?
Ah, no, giusto, usa il tool per convertire il codice CUDA in ROCm e così ottiene gli stessi vantaggi di usare il framework Nvidia. Giusto, me ne ero dimenticato di questa "feature".

Gyammy85
23-03-2022, 10:29
che leggi a modo tuo :asd:

ripeto, tutti scemi tranne te :asd:

Continuano a non vendere niente, saranno scemi in amd allora

Il mondo al contrario visto da un fanboy frustrato.
Il 2 contro 1 sta solo a farti vedere che qui non si parla di robetta "incollata" per far vedere numeroni teorici sulla carta. Si parla di roba fatta e pensata sin dall'inizio per un certo scopo e con una ben definita capacità di scalare.

Per la questione consumi, mi sa che devi crescere un pochino ancora. Quello che importa non è il consumo in assoluto, ma la questione perf/W.
Queste nuove schede vanno dal doppio al 7 volte più veloci delle precedenti A100 consumando il doppio. Quindi dallo stesso indice perf/W a 3,5 volte meglio. Significa che basta una scheda Hopper per sostituire 8 schede A100, 700W vs 400x8 = 3200.
In un sistema che scala a livelli che non puoi comprendere, con migliaia di GPU devi fare questo tipo di conti. Lo so che per te sono difficili, ma c'è chi è capace di farli e infatti i sistemi Nvidia si vendono come il pane e sono all'interno dei super computer HPC più veloci al mondo.

Per la questione "uber feaure" evita di guardare il mondo nello specchio e vedrai che la direzione corretta dello sviluppo ti viene più chiara.
Ho V100 sul quale ho sviluppato una applicazione di calcolo che sfrutta tutta l'architettura disponibile (quindi anche i tensor core). Sostituisco il V100 con l'A100, e oppsss, tutto continua a funzionare esattamente come prima con la sola differenza che va molto più veloce. Ci sono gli FP16 invece che gli FP32, uso la libreria corretta, e voilà, raddoppio la velocità di esecuzione dei miei algoritmi. Sostituisco il V100 con H100, ed eseguo lo stesso identico algoritmo precedente al doppio della velocità di prima.. hanno aggiunto gli FP8 che permettono di consumare metà della memoria? Bene, aggiorno il mio set di dati tramite il middleware apposito che ha sviluppato Nvidia ottengo prestazioni triple rispetto a A100 con metà banda, minori consumi e metà dei dati da trasferire in generale.

Capito a cosa serve avere un framework e un supporto alle spalle rodato e garantito? Chi sviluppa per la Mi250 cosa ha a disposizione ed è sicuro che la prossima generazione funzionerà tutto alla stessa maniera o dovrà riscrivere algoritmi e/o rimettersi a rifare il set di dati da elaborare a mano perché è cambiato il modello di elaborazione dei driver che sono alla versione 0.00001 alpha?
Ah, no, giusto, usa il tool per convertire il codice CUDA in ROCm e così ottiene gli stessi vantaggi di usare il framework Nvidia. Giusto, me ne ero dimenticato di questa "feature".

Robetta incollata certo, guarda intel che fine ha fatto nel mercato server

Quindi mi stai dicendo che da p100 a h100 in realtà non cambia niente, e allora perché sta roba non l'hanno scritta 5 anni fa? mi stai dicendo che Amd (quelli tutto open che non sanno mettere nessun valore aggiunto ecc...) ti gimpano la roba? :asd: poi vabbè fp8, facciamo fp1 e int8192, grazie che poi senza software proprietario non vai avanti, te ne esci con una precisione imprecisa dopo l'altra
Eh beh se vuoi far girare cuda o ti compri nvidia o emuli, quei due tre palyer insignificanti tipo microsoft amazon google alibaba ecc...che hanno preso amd resterebbero a piedi

CrapaDiLegno
23-03-2022, 10:44
Continuano a non vendere niente, saranno scemi in amd allora



Robetta incollata certo, guarda intel che fine ha fatto nel mercato server

Quindi mi stai dicendo che da p100 a h100 in realtà non cambia niente, e allora perché sta roba non l'hanno scritta 5 anni fa? mi stai dicendo che Amd (quelli tutto open che non sanno mettere nessun valore aggiunto ecc...) ti gimpano la roba? :asd: poi vabbè fp8, facciamo fp1 e int8192, grazie che poi senza software proprietario non vai avanti, te ne esci con una precisione imprecisa dopo l'altra
Eh beh se vuoi far girare cuda o ti compri nvidia o emuli, quei due tre palyer insignificanti tipo microsoft amazon google alibaba ecc...che hanno preso amd resterebbero a piedi
Guarda, i tuoi commenti sono a livello di un bambino dell'asilo.
Nvidia detiene il 90% del mercato HPC con acceleratore. Un motivo ci sarà.
Poi inventati tutte le scuse che vuoi per difendere AMD e la sua non presenza in tale mercato.

Ed è in arrivo Grace che legna di brutto i tuoi meravigliosi EPYC. Vediamo che succede dopo che Nvidia abbandona parzialmente AMD come fornitore di CPU per il mercato HPC e invade con le sue soluzioni il mercato dell'edge computing.

AceGranger
23-03-2022, 10:52
Continuano a non vendere niente, saranno scemi in amd allora



Robetta incollata certo, guarda intel che fine ha fatto nel mercato server

Quindi mi stai dicendo che da p100 a h100 in realtà non cambia niente, e allora perché sta roba non l'hanno scritta 5 anni fa? mi stai dicendo che Amd (quelli tutto open che non sanno mettere nessun valore aggiunto ecc...) ti gimpano la roba? :asd: poi vabbè fp8, facciamo fp1 e int8192, grazie che poi senza software proprietario non vai avanti, te ne esci con una precisione imprecisa dopo l'altra
Eh beh se vuoi far girare cuda o ti compri nvidia o emuli, quei due tre palyer insignificanti tipo microsoft amazon google alibaba ecc...che hanno preso amd resterebbero a piedi

seriamente, che lavoro fai nella vita ?

Gyammy85
23-03-2022, 10:53
Guarda, i tuoi commenti sono a livello di un bambino dell'asilo.
Nvidia detiene il 90% del mercato HPC con acceleratore. Un motivo ci sarà.
Poi inventati tutte le scuse che vuoi per difendere AMD e la sua non presenza in tale mercato.

Ed è in arrivo Grace che legna di brutto i tuoi meravigliosi EPYC. Vediamo che succede dopo che Nvidia abbandona parzialmente AMD come fornitore di CPU per il mercato HPC e invade con le sue soluzioni il mercato dell'edge computing.

Ma è normale che se io sto con nvidia e già dopo due giorni mi arrivano le mail di quella dopo resto con nvidia, non siamo nati ieri su, è come quando dicevano "eh epyc va più forte ma intel dice che non girano i programmi"

CrapaDiLegno
23-03-2022, 11:22
Ma è normale che se io sto con nvidia e già dopo due giorni mi arrivano le mail di quella dopo resto con nvidia, non siamo nati ieri su, è come quando dicevano "eh epyc va più forte ma intel dice che non girano i programmi"

Ascolta, un consiglio gratuito: quando fai un discorso o sai di quel che parli e sei preparato o lascia perdere perché stai scrivendo robe senza senso, come quella della precisione ridotta inaccettabile applicata agli algoritmi di training e inferenza.

Qui si parla di roba che per poterci lavorare, oltre che "ai 200K per le sole GPU" servono le librerie (magari certificate, eh), un framework che semplifica di brutto la stesura del codice perché sia possibile ottimizzarlo per un parallelismo spinto e il supporto allo sviluppo quando hai necessità particolari.
Nvidia nei "200k" ti dà tutto questo.
AMD nei suoi "soli 100k" invece di dà solo il pezzo di scheda e un accozzaglia di librerie che accelerano più o meno qualche funzione e si interfacciano con uno o due linguaggi. Il resto te lo fai a mano. E non sai se funzionerà anche nella generazione futura (storicamente non funzionava, ora con ROCm vediamo quanto tempo ci mette a fare una versione stabile e se finalmente è la versione di sviluppo definitiva o se tra un anno quando esce OpenAPi di Intel ci balza sopra sconvolgendo ancora tutto per la decima volta in 20 anni).
E' ovvio quindi che quando hai usato Nvidia e questa ti rimanda la proposta di aggiornamento, la accetti senza battere ciglio, sapendo che il triplo o quadruplo (rispetto al solo HW) dell'investimento umano, di know how e di codice già scritto e che già funziona che hai fatto negli ultimi anni non andrà perso, anzi, sarà automaticamente usato al meglio anche sul nuovo HW.

Adesso puoi continuare a denigrare "la bassa precisione degli FP8" e paragonarla a quella degli FP64 che AMD integra in numero maggiore e "con minori consumi".

supertigrotto
23-03-2022, 11:31
Quindi aveva ragione IBM quando diceva che gli 8 bit per la IA erano molto più utili che i vari 16/32/64 etc.
IBM aveva già cominciato a sfruttare gli 8 bit prima di tutti....

nickname88
23-03-2022, 13:10
seriamente, che lavoro fai nella vita ?
Lui fa il Fanboy Professionista.

CrapaDiLegno
23-03-2022, 13:59
Nessuno ha notato una cosa a quanto pare: passando dal PP N7 a N4 (o 4N fatto ad hoc per Nvidia) la densità dei transistor è aumentata solo di 1,5 volte.
TSMC dà N5 con uno shrink del 45% rispetto a N7. Nono so con quale libreria o in quali casi particolari.
Questo PP è derivato dall'N4, quindi dovrebbe essere persino meglio.
Qualcosa non quadra... il numero di transistor riportati sono "ad minchiam", non è un vero N4 oppure i numeri dati da TSMC sono fuorvianti.

LMCH
23-03-2022, 21:41
Nessuno ha notato una cosa a quanto pare: passando dal PP N7 a N4 (o 4N fatto ad hoc per Nvidia) la densità dei transistor è aumentata solo di 1,5 volte.
TSMC dà N5 con uno shrink del 45% rispetto a N7. Nono so con quale libreria o in quali casi particolari.
Questo PP è derivato dall'N4, quindi dovrebbe essere persino meglio.
Qualcosa non quadra... il numero di transistor riportati sono "ad minchiam", non è un vero N4 oppure i numeri dati da TSMC sono fuorvianti.

Di solito la densità dichiarata é quella massima, ma sia nelle CPU che nelle GPU la densità effettiva non é uniforme, in base al circuito da realizzare la dimensione del gate può essere più grande (per reggere correnti più elevate), in vari casi bisogna far spazio per le interconnessioni (tutti quei gate vanno pur collegati) e spaziarle o schermarle per evitare il crosstalk, ecc.
Una volta le cose erano più semplici perché i bus erano più stretti (meno interconnessioni) ed i gate anche a massima densità erano "grossi" rispetto a quelli dei processi produttivi più recenti.

Qarboz
23-03-2022, 21:48
Allora... non sono certo faccia parte dello IEEE 754, ma in ogni caso dovrebbe essere in virgola mobile, con mantissa * 2 ^ esponente, con un bit di segno all'inizio. Ho trovato due configurazioni, in questo documento: https://arxiv.org/ftp/arxiv/papers/2104/2104.07329.pdf

1 - 5 - 2 e 1 - 4 - 3 (bit per il segno - bit per la mantissa - bit per l'esponente)

per completezza:
16bit -> 1 - 5 - 10
32bit -> 1 - 8 - 23
64bit -> 1 - 11 - 52
128bit -> 1 - 15 - 112

Nel pdf che ho linkato si parla anche di FFP8, che dovrebbe essere Flexible Floating-Point Format a 8 bit, ma non ho idea di come funzioni.
Grazie 1k per le interessanti info ;)

CrapaDiLegno
24-03-2022, 08:30
Di solito la densità dichiarata é quella massima, ma sia nelle CPU che nelle GPU la densità effettiva non é uniforme, in base al circuito da realizzare la dimensione del gate può essere più grande (per reggere correnti più elevate), in vari casi bisogna far spazio per le interconnessioni (tutti quei gate vanno pur collegati) e spaziarle o schermarle per evitare il crosstalk, ecc.
Una volta le cose erano più semplici perché i bus erano più stretti (meno interconnessioni) ed i gate anche a massima densità erano "grossi" rispetto a quelli dei processi produttivi più recenti.

So bene che non tutto scala come si potrebbe in un circuito, però l'aumento di densità rimane misero.
Probabilmente lo scaling riportato da TSMC funziona solo per certi casi (forse solo per celle di SRAM?) e con certe librerie (LP?) mentre con circuiti HP i transistor non si possono fare così piccoli perché rimangono fragili.

Rimane il fatto che per un motivo o per l'altro la velocità di scaling sta subendo una forte frenata e mi sembra quasi normale quindi che l'effetto collaterale sia l'aumento di W se si vuole portare sul mercato qualcosa che sia realmente più prestante di ciò che è stato venduto in precedenza.
Finché si può "tirare il collo", perché credo che questa cosa finirà presto non potendo mettere roba da 700W in un PC, almeno non nei numeri che fanno il mercato (chi lo fa sarà l'1% del mercato dei giocatori probabilmente) e queste soluzioni servono solo come pubblicità della serie "io ce l'ho più luungo!".

Credo che se non cambiano le cose ben presto incontreremo un bello stallo nello sviluppo, con nuove generazioni che non possono aumentare il TDP e nuovi PP che non permettono una diminuzione delle potenza assorbite sufficienti.
L'uso delle architetture MCM non aiuta in questo (diminuisce i costi di produzione ma diminuisce anche l'efficienza di tutto il circuito).

Discorso particolare anche per i costi.. con i quello che costa progettare e produrre a 3nm credo che l'elettronica futura costerà sempre di più, senza possibilità di ritorno. Certo anche che quando uno ha un 8 o 16 core nel case credo che ben difficilmente in uno o due generazioni necessiti il raddoppio delle prestazioni. Si allungherà anche il tempo di vita di tutto.

Gyammy85
24-03-2022, 08:41
Ascolta, un consiglio gratuito: quando fai un discorso o sai di quel che parli e sei preparato o lascia perdere perché stai scrivendo robe senza senso, come quella della precisione ridotta inaccettabile applicata agli algoritmi di training e inferenza.

Qui si parla di roba che per poterci lavorare, oltre che "ai 200K per le sole GPU" servono le librerie (magari certificate, eh), un framework che semplifica di brutto la stesura del codice perché sia possibile ottimizzarlo per un parallelismo spinto e il supporto allo sviluppo quando hai necessità particolari.
Nvidia nei "200k" ti dà tutto questo.
AMD nei suoi "soli 100k" invece di dà solo il pezzo di scheda e un accozzaglia di librerie che accelerano più o meno qualche funzione e si interfacciano con uno o due linguaggi. Il resto te lo fai a mano. E non sai se funzionerà anche nella generazione futura (storicamente non funzionava, ora con ROCm vediamo quanto tempo ci mette a fare una versione stabile e se finalmente è la versione di sviluppo definitiva o se tra un anno quando esce OpenAPi di Intel ci balza sopra sconvolgendo ancora tutto per la decima volta in 20 anni).
E' ovvio quindi che quando hai usato Nvidia e questa ti rimanda la proposta di aggiornamento, la accetti senza battere ciglio, sapendo che il triplo o quadruplo (rispetto al solo HW) dell'investimento umano, di know how e di codice già scritto e che già funziona che hai fatto negli ultimi anni non andrà perso, anzi, sarà automaticamente usato al meglio anche sul nuovo HW.

Adesso puoi continuare a denigrare "la bassa precisione degli FP8" e paragonarla a quella degli FP64 che AMD integra in numero maggiore e "con minori consumi".

Ma guarda io ho soltanto detto che la mi250 fa 45 tf in fp64 in 500 watt e h100 30 a 700 watt, mi250 sta a 6 nm che praticamente è un 7 tweakato, loro sono già al 5 tweakato a 4, in pratica stanno una gen dopo con perf di due gen prima, poi se nvidia mette i fiocchetti e il profumo a questi terflops buon per loro, ma consuma di più e va meno, punto, se poi ci fanno solo ed esclusivamente ia ok

AceGranger
24-03-2022, 08:47
Ma guarda io ho soltanto detto che la mi250 fa 45 tf in fp64 in 500 watt e h100 30 a 700 watt, mi250 sta a 6 nm che praticamente è un 7 tweakato, loro sono già al 5 tweakato a 4, in pratica stanno una gen dopo con perf di due gen prima, poi se nvidia mette i fiocchetti e il profumo a questi terflops buon per loro, ma consuma di più e va meno, punto, se poi ci fanno solo ed esclusivamente ia ok

il che vuol dire solo che non hai ancora capito cosa sia il Throughput dei chip nVidia :asd: