GeForce RTX 3000, tutti i segreti dell'architettura Ampere - Pagina 2

StIwY · 05-09-2020, 14:10

Ma il DLSS 3.0 che fine ha fatto ?

bonzoxxx · 05-09-2020, 15:01

Quote:

Originariamente inviato da Gyammy85

Insomma la 3090 fa un+50% su 2080ti sia in raster che rt, con buona pace di quelli che pensavano che facesse più frame in rt che senza

La 3070 va il 40% in più di una 5700xt, e la xsx andrà minimo il 40% in più

Più il 40% di una 3070?
Ammazza, ok che le console si ottimizzano meglio e con doom eternal abbiamo visto cosa significa ottimizzare, però, sempre sulla carta, una 3070 è, come potenza grezza, quasi il doppio.

Vabbè, aspettiamo, la mia curiosità troverà pace tra poco

Quote:

Originariamente inviato da igiolo

come con Intel e i Tigerlake, sembra SEMPRE di + che la strada sia specializzazione.
non più cpu e gpu multipourpose, ma diverse unità specializzate
alla fine l'ottimizzazione sta molto li

Come sta facendo Apple con Silicon che, ricordiamolo, è un bel chippone considerando i 9.8 miliardi di transistor dell'a12X..

lucusta · 05-09-2020, 16:09

hanno lavorato bene per ottimizzare bene la logica d'uso delle varie parti del GPC, ma il problema è che con turing ne hanno sparate talmente grosse che sono stati costretti a spararne ancora più grosse con Ampere, anche se hanno ottenuto notevoli miglioramenti.

la questione si ferma a questo:
"Tutte e quattro le partizioni SM combinate possono eseguire 128 operazioni FP32 per clock, che è il doppio dell'SM di Turing"

se un SM offre 128 operazioni in virgola mobile a clock, i 68 SM di una 3080 ne offrono 8704;
se il clock è a 1710mhz, offre, in totale 14883840 milioni di operazioni al secondo, pari a 14.9TF, non 20, come dichiarato.

il marketing sta solo cercando di confondere rispetto a quanto detto precedentemente sulle altre generazioni, con una 2080 TI, da 68SM, che dichirava 16TF di computazione in operazioni in virgola mobile.

in effetti hanno migliorato enormemente il rendimento reale dell'architettura, ma i TF teorici sono diminuiti,ma, d'altra parte, a noi consumatori basta che quelli che riusciamo a sfruttare siano di più.

la questione è che oggi i cudacore di Ampere (gaming) non producono più 2 operazioni a virgola mobile a clock, come nelle passate generazioni, ma una sola.

è stato fatto perchè c'è stata la necessità di ottimizzare l'uso degli RT core, che sfruttano una sola delle operazioni consentite dai "vecchi" cudacore, e quindi, all'atto pratico, una 2080 Ti in RTX operava alla metà della sua reale potenza grafica in concomitanza con gli RT core.
ora, si ha una operazione in virgola mobile per cudacore, sfruttabile da un RT core, per ogni cudacore, ma il doppio dei cudacore, quindi il doppio dello sfruttamento.

stessa cosa quando si usava codice INT.
nvidia ha detto che mediamente si usa fino al 30% del codice su interi nei giochi di nuova concezione, ma la sua architettura offriva il 50% delle pipeline in INT.
le alu Int sono a singola operazione, quindi con Turing si aveva, per ogni ciclo di clock, o 2 operazioni su FP32 per 64 (pari ad un SM), quindi 128 operazioni in virgola mobile totale ad SM (che, se si nota, sono esattamente come quelle di Ampere, ma solo in ambito puramente FP32, non quando si usa anche RT core!), o una operazione FP32 ed una INT, quindi 64 FP per SM e 64 INT per SM, quindi 50:50.
se il 30% del codice è in INT posso usare il 60% degli SM in modalità mista, ed il 40% interamente per FP.
su una 2080 TI si ottenevano quindi circa 40SM in modalità mista e 28 in sola modalità FP... 40 SM che producevano 64 operazioni in FP più 28 SM che producevano 128 operazioni FP a clock, per un totale di 168 operazioni a clock (64*40 + 128*28) pari a 6144 operazioni in FP a clock, che a 1800mhz fanno 11.1TF; il resto erano operazioni per gli INT.
ecco quindi che quando Turing incontrava giochi che richiedevano l'uso degli INT per il 30% del codice è vero che poteva eseguirli direttamente la GPU, ma è anche vero che la sua potenza grafica in FP scendeva da dai 16TF a 11TF, come una 1080 Ti che invece scaricava tale computo solo sulla CPU (mandandola però in bottleneck se non usava core aggiuntivi per eseguire tali operazioni).
e questo quando si era in condizione di solo uso di rasterizzazione; con l'uso congiunto degli RT le FP offrivano comunque una sola operazione a ciclo, quindi i cudacore dei 28 SM rimanenti valevano comunque solo 1 e non più 2...

con Ampere, invece, alla fine fai la stessa cosa, ma il fatto di aver diviso le due operazioni a virgola mobile su due core indipendenti e di aver reso indipendente anche il core degli INT consente di gestire meglio le risorse in uso tra INT, FP e FP per RT core.

alla fine la crescita di transistors è dovuta alla separazione di questi core, che necessitano di L1/L2 e registri indipendenti (ecco perchè li hanno raddoppiati e hanno triplicato la caches; in effetti è lo stesso quantitativo, ma per singola funzionalità per rendere indipendente il calcolo una pipeline dall'altra, che sia FP o INT).
da questo anche il raddoppio delle ROPs, in quanto, per essere indipendente, devi avere tutta la filiera di calcolo sdoppiata; ma è un raddoppio non una triplicazione, quindi è questo il motivo per cui se usi gli INT hai ancora il decurtamento della metà delle unità di FP nella rasterizzazione; unità che possono comunque essere usate per i calcoli su RT o tensor core, visto che sono indipendenti dall'altra pipeline con i propri registri.. ecco cosa significava l'apporto di quell'aumento di caches).

anche quando parlano di "uso contemporaneo delle funzionalità" si esimiano dal dire che su turing, per dare massima perstazione in rasterizzazione, usavano tutto il TPG della scheda, ma quando usavano anche RTX o DLSS o RTX+DLSS, per alimentare anche quei banchi di transistors per i calcoli, dovevano decurtare la potenza concessa ai cudacore (o tramite frequenza o tramite schedulazione dei calcoli).
il maggior TGP delle Ampere non si deve vedere nella stessa ottica delle turing, che arrivavano (a meno di palesi bottleneck della CPU) sempre al TGP in qualsiasi situazione, ma che quando esegue solo rasterizzazione si avrà un consumo, quando si userà RTX o DLSS si sommerà altro consumo e quando si useranno rasterizzazione, RTx e DLSS insieme si otterrà il massimo del consumo consentito.
quindi in gioco mi aspetto che con solo rasterizzazione i consumi saranno molto più bassi del TGP dichiarato (sempre se non useranno anche questa questione per marketing e faranno mostrare ai recensori solo il consumo in ambito rasterizzazione, facendo presupporre al lettore ce quello sia il consumo massimo in ogni situazione d'uso... sarebbero capaci).

quindi Ampere migliora nettamente l'architettura eliminando quei bottleneck che si creavano a causa di una ottimizzazione mal fatta, che andava a caccia di frequenze massime e aumento di cudacore senza guardare al fatto che con un po' più di caches e registri (oltre che ROPs) già le Turing potevano avere enormi benefici in RTX.
d'altra parte sembra che, a parità di SM, l'architettura sia cresciuta del 20%, ma che garantisca, così fatta, il 50% di vantaggio in rendimento rispetto a prima... non facevano meglio a sfruttare lo spazio di Turing con il 20% in meno di cudacore, offrendo però un +50 dal -20%? 0.8 (ossia il 20% in meno di unità, quindi di spazio) per 1.5 fa comunque 1.2, quindi con lo stesso numero di transistors potevano garantirsi il 20% in più di prestazione solo per via di ROPs e caches, nulla di più di quanto non sapessero integrare prima.

il prezzo, invece, è condizionato dal momento in cui esce.
con Navi 10 AMD gli ha reso la vita difficile, ma è uscito 9 mesi dopo Turing e sono intervenuiti con le Super a raddrizzare il tiro sul prezzo per prestazioni, ma il vero nemico di Turing, in quei mesi, erano i possessori della serie 900 che si trovavano tante serie 1000 in vendita contro il prezzo stratosferico della serie 2000, che poi non offriva tutti questi vantaggi nei normali giochi.. aveva solo RTX e DLSS usati in praticamente solo 2 giochi in quel periodo e con implementazione fatta pure male (BF V ha ricevuto più patch per RT in quel periodo che altro).

in quest'ottica si dovrebbe guardare a Turing come un mezzo fallimento che comunque nvidia ha pompato all'inverosimile, come sempre, ma che ha alzato l'asticella delle "balle da marketing" talmente in alto da aver dovuto dichiarare numeri stratosferici per Ampere, come i 36 TF di computazione in FP32 della 3090 o i 10496 cudacore.
nonsono 36, ma sono 18, solo che sono sfruttati decisamente meglio;
sono 10496 core, ma 2 di quelli sono come uno del passato, solo che oggi sono indipendenti grazie a quel poco di caches che hanno messo sull'altra pipeline per farla diventare indipendente.
è solo che l'aumento di prestazione non era giustificabile in nessun modo conun dichiarato inferiore.... avremmo avuto la situazione in cui una 3080 doveva dichiarare solo 14.9TF e che comunque andava più di una 2080 Ti custom che arriva a 16TF teorici.... un controsenso per il pubblico che non si sarebbe riuscito a spiegare.. quindi camuffano, omettono e comunque dicono mezze verità per coprire un marketing fatto sulle Turing che prometteva quello che poi non era.

quindi si può dire che è un bel chippone grosso e ben sfruttato, rispetto ad un chippone e basta e soprattutto mal sfruttato, oltre che mal coadiuvato dal software che è stato turing... è per questo che Turing è durato meno di 2 anni e non valeva affatto i soldi che nvidia chiedeva.
con la scusa dell'RT hanno proposto un chippone grosso più del doppio di prima ma che offriva ben poco più di prima a costi comunque doppi.

per il costo, oggi si può dire che nvidia ha capito che AMD può effettivamente arrivare alle prestazioni della 3080 (ma tra il poter fare una cosa e voler fare una cosa c'è comunque di mezzo il mare), ed è quindi stato deciso di non esagerare, mentre per giustificare il doppio del prezzo di una scheda, la 3090, che, in finale, ha la stessa componentistica, hanno messo chip di ram da 2GB e l'hanno fatta diventare da 24GB.
a me non sembra che la 5500 XT da 8GB costi il doppio della 5500 XT da 4GB, eppure anche li hanno usato chip da 2GB invece che 1GB...

è segno che si sente sicura che non avrà concorrenza in quel segmento e che quindi può continuare a spremere i suoi clienti come le pare.

per quanto riguarda il resto delle tecnologie presentate, sono robetta di contorno che forse porterà ad un miglioramento percettibile, ma non certo essenziale (il caricamento da SSD è valevole per le console, non per i PC, che sono strutturati in modo decisamente diverso).

in finale, è vero che turing ha portato a maggiori prestazioni assolute, ma quando si scriveva che non valeva i soldi che chiedevano era anche quella un'assoluta verità.
oggi si può dire solo della 3090, perchè non vale 1500 euro minimo a confronto del resto e, probabilmente, di quello che arriverà presto.
invece è realmente brutto leggere un'articolo tecnico in cui si omettono o si dicono mezze verità, solo per coprire balle dette dal marketing sulle passate generazioni.
in un modo o nell'altro il marketing nvidia si è fatto scoprire che, di quello che dichiarano, di buono c'è manco 1/3...
spero che sarà solo il marketing nvidia a continuare questa strategia pubblicitaria, perchè se anche gli altri si accodano... diventa una situazione da schifo, come con le promozioni di telemarketing... arriveranno a telefonarti a casa per venderti una CPU o una GPU millantando cose che poi non esistono, come si scorgono su questo articolo e come, ormai è certo, ne hanno dette alla presentazione delle turing...

mattxx88 · 05-09-2020, 16:20

Quote:

Originariamente inviato da RaZoR93

2080, non 2080Ti.

Quote:

Originariamente inviato da Acme

Quei risultati sarebbero rispetto a una 2080 liscia, non Ti.

si infatti, ho pure aggiunto ti in fretta e furia, il senso era che stiamo buttando supposizioni a muzzo su 3080 vs 2080 (no ti) di cui oggi abbiamo in mano solo parole dette e grafici mostrati, non test seri.
di 3090 abbiamo solo la forma e le spec hardware, a livello di performance certe non si sa nulla nemmeno qua

lucusta · 05-09-2020, 16:30

Quote:

Originariamente inviato da mattxx88

si infatti, ho pure aggiunto ti in fretta e furia, il senso era che stiamo buttando supposizioni a muzzo su 3080 vs 2080 (no ti) di cui oggi abbiamo in mano solo parole dette e grafici mostrati, non test seri.
di 3090 abbiamo solo la forma e le spec hardware, a livello di performance certe non si sa nulla nemmeno qua

la 2080 Ti vien più facile da confrontare alla 3080 per via del numero degli SM.
alla fine l'integrazione grossolana è la medesima, ma quel 20% in più di transistors che hanno usato sono evidentissimi.
dispiace solo che hanno usato un cut chip che avrà fatto lievitare un po' i consumi verso l'alto, ma avrà garantito anche costi inferiori per la 3090 (che però non si sono riflessi sul prezzo al pubblico

).

sarebbe stato un bel chippino fatto realmente bene se fosse stato un full chip con il 20% in meno di silicio... (con un conseguente contenimento del prezzo).

anche la questione del TGP fa pensare...
con quel gain prestazionale potevano permettersi frequenze ancora più basse e prestazioni ancora degne di nota... alla fine potevi garantire, con la stessa scheda, ma a un settaggio del 10-15% in meno, prestazioni da 2080 Ti, consumi ridotti, prezzo inferiore (anche se lo lasciavi invariato), ma soprattutto potevi offrire quel 15% come overclock per far divertire i ragazzini e dare al pubblico maturo temperature e rumore ottimali...

se non l'hanno fatto significa che temono che AMD stia troppo vicina... (ma è una mia impressione, per giustificare prestazioni e costo della scheda).

mattxx88 · 05-09-2020, 16:35

Quote:

Originariamente inviato da lucusta

la 2080 Ti vien più facile da confrontare alla 3080 per via del numero degli SM.
alla fine l'integrazione grossolana è la medesima, ma quel 20% in più di transistors che hanno usato sono evidentissimi.
dispiace solo che hanno usato un cut chip che avrà fatto lievitare un po' i consumi verso l'alto, ma avrà garantito anche costi inferiori per la 3090 (che però non si sono riflessi sul prezzo al pubblico

).

sarebbe stato un bel chippino fatto realmente bene se fosse stato un full chip con il 20% in meno di silicio... (con un conseguente contenimento del prezzo).

anche la questione del TGP fa pensare...
con quel gain prestazionale potevano permettersi frequenze ancora più basse e prestazioni ancora degne di nota... alla fine potevi garantire, con la stessa scheda, ma a un settaggio del 10-15% in meno, prestazioni da 2080 Ti, consumi ridotti, prezzo inferiore (anche se lo lasciavi invariato), ma soprattutto potevi offrire quel 15% come overclock per far divertire i ragazzini e dare al pubblico maturo temperature e rumore ottimali...

se non l'hanno fatto significa che temono che AMD stia troppo vicina... (ma è una mia impressione, per giustificare prestazioni e costo della scheda).

conoscendo nvidia sicuramente, jhh sa qualcosa di Lsa che noi non sappiamo per essere uscito con sti prezzi visto quanto fatto con Turing

ps commento tuo prima, quello luuungo lungo, ti prego no "In finale", infine

lucusta · 05-09-2020, 16:37

Quote:

Originariamente inviato da bonzoxxx

Più il 40% di una 3070?
Ammazza, ok che le console si ottimizzano meglio e con doom eternal abbiamo visto cosa significa ottimizzare, però, sempre sulla carta, una 3070 è, come potenza grezza, quasi il doppio.

Vabbè, aspettiamo, la mia curiosità troverà pace tra poco

Come sta facendo Apple con Silicon che, ricordiamolo, è un bel chippone considerando i 9.8 miliardi di transistor dell'a12X..

è che il pubblico ha dato sempre ben poca importanza alle ottimizzazioni, sia software che HW.
qui, in finale, per un 20% in più di transistors a pari integrazione di SM, si è ottenuto un aumento prestazionale assai rilevante e soprattutto sfruttando quello che c'era prima in modo migliore... non con le novità, ma con cose che già c'erano, solo usate realmente male (vedendole in ottica di queste prestazioni).
quindi siamo ancora ben lontani dal 100% dello sfruttamento dell'HW da parte del software e del 100% dello sfruttamento del modo di scrivere software da parte dell'HW, ma tanto lontani...

bonzoxxx · 05-09-2020, 16:41

Post interessanti, grazie Lucusta

mattxx88 · 05-09-2020, 16:42

Quote:

Originariamente inviato da lucusta

è che il pubblico ha dato sempre ben poca importanza alle ottimizzazioni, sia software che HW.
qui, in finale, per un 20% in più di transistors a pari integrazione di SM, si è ottenuto un aumento prestazionale assai rilevante e soprattutto sfruttando quello che c'era prima in modo migliore... non con le novità, ma con cose che già c'erano, solo usate realmente male (vedendole in ottica di queste prestazioni).
quindi siamo ancora ben lontani dal 100% dello sfruttamento dell'HW da parte del software e del 100% dello sfruttamento del modo di scrivere software da parte dell'HW, ma tanto lontani...

lucusta ti prego fermati, lo so non prendermi per un grammar nazi, ma ho male agli occhi

si dice infine

lucusta · 05-09-2020, 16:42

Quote:

Originariamente inviato da mattxx88

conoscendo nvidia sicuramente, jhh sa qualcosa di Lsa che noi non sappiamo per essere uscito con sti prezzi visto quanto fatto con Turing

ps commento tuo prima, quello luuungo lungo, ti prego no "In finale", infine

matt, Turing è stato più un fail che un buon prodotto.
considerando il periodo storico in cui l'hanno fatto uscire, con ritardo causa mining e anche a causa dello stesso mining, l'assenza di una reale concorrenza e decine di altri fattori, non ultimo il cattivo lavoro di ottimizzazione che invece vediamo su Ampere (che, alla fine, non porta nulla di nuovo.. non è una concezione diversa rispetto a prima.. è lo stesso "mattone" disposto diversamente e imbellettato meglio), la conclusione a cui si può arrivare è solo quella: valeva manco la metà di quello che offriva...

ecco, l'esempio è davanti a noi: una 3070 alle prestazioni di una 2080 Ti e al costo di 499$...
non è che in 2 anni si possa svalutare così il costo delle prestazioni...
può costare la metà, ma non 1/3...

lucusta · 05-09-2020, 16:45

Quote:

Originariamente inviato da mattxx88

lucusta ti prego fermati, lo so non prendermi per un grammar nazi, ma ho male agli occhi

si dice infine

in finale.... contrattura di "nalle -conclusioni- finali"...

non ti prendo per grammy nazi, ma per persona giovine...
spesso mi ritrovo ad usare lemmi un po' datati per i tempi, ma sono stato educato così...

mattxx88 · 05-09-2020, 16:47

Quote:

Originariamente inviato da lucusta

matt, Turing è stato più un fail che un buon prodotto.
considerando il periodo storico in cui l'hanno fatto uscire, con ritardo causa mining e anche a causa dello stesso mining, l'assenza di una reale concorrenza e decine di altri fattori, non ultimo il cattivo lavoro di ottimizzazione che invece vediamo su Ampere (che, alla fine, non porta nulla di nuovo.. non è una concezione diversa rispetto a prima.. è lo stesso "mattone" disposto diversamente e imbellettato meglio), la conclusione a cui si può arrivare è solo quella: valeva manco la metà di quello che offriva...

ecco, l'esempio è davanti a noi: una 3070 alle prestazioni di una 2080 Ti e al costo di 499$...
non è che in 2 anni si possa svalutare così il costo delle prestazioni...
può costare la metà, ma non 1/3...

oddio, lato prestazioni non si può dir nulla, se volevi giocare decentemente in 4k avevi 1 sola scelta, Turing.
lato prezzi lungi da me difenderli visto che ho ancora le emorroidi scoppiate nell`ano (si ho una 2080ti), ma neanche sappiamo che costi han avuto in r&d per poter progettare e sviluppare, ora con Ampere siamo ormai in "economia di scala", la traccia era stata tirata insomma

mattxx88 · 05-09-2020, 16:48

Quote:

Originariamente inviato da lucusta

in finale.... contrattura di "nalle -conclusioni- finali"...

non ti prendo per grammy nazi, ma per persona giovine...
spesso mi ritrovo ad usare lemmi un po' datati per i tempi, ma sono stato educato così...

sul serio si usa? lo trovo cacofonico allora

grazie dell`input, cosi evito figuracce con altri nel lavoro magari

lucusta · 05-09-2020, 16:49

Quote:

Originariamente inviato da bonzoxxx

Post interessanti, grazie Lucusta

grazie a te per averlo letto...
io ho solo dato qualche spunto per riuscire a portare la discussione tecnica un pò più in alto rispetto a delle slide da marketing.

tanto a noi interessa HW ben sotto i 500euro e finchè non esce la 3070 o la relativa AMD non abbiamo null'altro d'interessante che cercare di capire come hanno cambiato l'architettura.

eXeS · 05-09-2020, 16:49

Quote:

Originariamente inviato da lucusta

la questione si ferma a questo:
"Tutte e quattro le partizioni SM combinate possono eseguire 128 operazioni FP32 per clock, che è il doppio dell'SM di Turing"

se un SM offre 128 operazioni in virgola mobile a clock, i 68 SM di una 3080 ne offrono 8704;
se il clock è a 1710mhz, offre, in totale 14883840 milioni di operazioni al secondo, pari a 14.9TF, non 20, come dichiarato.

il marketing sta solo cercando di confondere rispetto a quanto detto precedentemente sulle altre generazioni, con una 2080 TI, da 68SM, che dichirava 16TF di computazione in operazioni in virgola mobile.

in effetti hanno migliorato enormemente il rendimento reale dell'architettura, ma i TF teorici sono diminuiti,ma, d'altra parte, a noi consumatori basta che quelli che riusciamo a sfruttare siano di più.

la questione è che oggi i cudacore di Ampere (gaming) non producono più 2 operazioni a virgola mobile a clock, come nelle passate generazioni, ma una sola.

A parte che il marketing ne dichiara 30 e non 20, ma sulla base di cosa ritieni che i CC non siano più in grado di eseguire una FMA (Fused Multiply Add) per ciclo di clock, che è l'istruzione normalmente presa come riferimento se supportata, che esegue una somma e moltiplicazione in un cliclo di clock, ed usata per calcolare il picco massimo di TF ?

lucusta · 05-09-2020, 16:52

Quote:

Originariamente inviato da mattxx88

si infatti, ho pure aggiunto ti in fretta e furia, il senso era che stiamo buttando supposizioni a muzzo su 3080 vs 2080 (no ti) di cui oggi abbiamo in mano solo parole dette e grafici mostrati, non test seri.
di 3090 abbiamo solo la forma e le spec hardware, a livello di performance certe non si sa nulla nemmeno qua

a me piacerebbe vedere test che approfondiscono proprio sull'uso concomitante di RTX o DLSS...
certo che se mi propongono il solito test di consumo massimo con Metro, chiudo il browser e non li leggo nemmeno...
altra cosa che mi piacerebbe verificare e la dinamica di quella ventola.
servirebbero indicazioni alle persone sul volume minimo del case che serve per farla funzionare bene, quindi di testarla bene sui diversi tipi di case...
insomma, non i soliti benchmark, ma informazioni utili alla gente, non ai troll da forum...

lucusta · 05-09-2020, 16:58

Quote:

Originariamente inviato da eXeS

A parte che il marketing ne dichiara 30 e non 20, ma sulla base di cosa ritieni che i CC non siano più in grado di eseguire una FMA (Fused Multiply Add) per ciclo di clock, che è l'istruzione normalmente presa come riferimento se supportata, che esegue una somma e moltiplicazione in un cliclo di clock, ed usata per calcolare il picco massimo di TF ?

il confronto lo faccio con la 3080, che conta gli stessi SM della 2080 Ti, e lì ne dichiarano 30, hai ragione (ed infatti sono esattamente il doppio di quelli che si calcolano con le dichiarazioni di nvidia)...
non suppongo nulla.
applico le semplici formulette che si applicano per capire quanto è la prestazione massima teorica secondo le operazioni effettuate a clock.
sono abituato a verificare i numeri, sempre.
secondo nvidia Ampere riesce ad effettuare 128 operazioni FP a SM per clock.
puoi calcolarti da solo quanti TF escono fuori da questo dato.. è abbastanza semplice.
poi, puoi confrontare il tutto con la 2080 Ti e con il dichiarato di nvidia.
secondo quanto dichiarato un SM Turing riesce a produrre anche lui, teoricamente, 128 operazioni in virgola mobile a ciclo.
qui dicono che ne fa 64, ma facendo i conti una 2080 TI avrebbe 6.7TF di potenza in virgola mobile; la metà di quanto dichiara nvidia.

non la trovi una incongruenza valevole di una maggiore attenzione da parte dei lettori appassionati?

perchè il rischio che si corre è che s'incomincia a leggere che anche i TF di Ampere non sono i TF di turing, oltre che i"i TF di Nvidia non sono come i TF di AMD".
lasciare il pubblico tra l'ambiguità del teorico rispetto al reale, confondendolo e non indicando ogni volta esplicitamente quello che s'intende comunicare... mhe... è la peggior mossa che possa fare un ufficio marketing... alla fine è passibile per pubblicità ingannevole.
basta essere chiari, che poi i numeri possono dare il conforto che si cerca: Ampere va più di Turing perchè è semplicemente pensato meglio, non rinnovato, ma solo sistemato meglio.
inutile dichiarare il doppio di quello che effettivamente non c'è...

è inutile che ti dica che il vero limite di queste architetture odierne è la base a 64 bit del x86.
hai 64 core a SM solo perchè puoi individuare, in schedulazione, l'indirizzo di 64 unità con 7bit; con l'ultimo bit (tale da fare un byte) indichi la pipeline che devi usare, se la prima o la seconda.
64 cudacore ha Truing, 128 ne ha Ampere, ma turing ha 2 pipeline e quindi sono 128 unità indirizzabili univocativamente... il resto dipende dai registri e dalal caches L1, se sono univoci o associati.
il prossimo passa sarà sicuramente di portare un SM ad avere 256 cudacore, non avendo più la necessità di distinguere quale cuda stai usando e quale pipeline del cuda core stai impiegando... con un byte riesci ad indirizzare 256 unità individuali (ed oggi, ormai, sono individuali, se non pensiamo alle INT).

eXeS · 05-09-2020, 17:20

Quote:

Originariamente inviato da lucusta

il confronto lo faccio con la 3080, che conta gli stessi SM della 2080 Ti, e lì ne dichiarano 20...
non suppongo nulla.
applico le semplici formulette che si applicano per capire quanto è la prestazione massima teorica secondo le operazioni effettuate a clock.
sono abituato a verificare i numeri, sempre.
secondo nvidia Ampere riesce ad effettuare 128 operazioni FP a SM per clock.
puoio calcolarti da solo quanti TF escono fuori da questo dato.. è abbastanza semplice.
poi, puoi confrontare il tutto con la 2080 Ti e con ildichiarato di nvidia.
secondo quanto dichiarato un SM Turing riesce a produrre anche lui, teoricamente, 128 operazioni in virgola mobile a ciclo.
qui dicono che ne fa 64, ma facendo i conti una 2080 TI avrebbe 6.7TF di potenza in virgola mobile; la metà di quanto dichiara nvidia.

non la trovi una incongruenza valevole di una maggiore attenzione da parte dei lettori appassionati?

La formula che usi per calcolare i flops omette di moltiplicare il risultato per il numero massimo di istruzioni che l'ALU può eseguire per ciclo, e visto che le ALU di nVidia da Fermi, e quelle di AMD da GCN possono eseguirne 2, e mi riferisco ad esempio alle FMA, il numero da te calcolato deve essere moltiplicato per 2.

https://en.wikipedia.org/wiki/FLOPS

FLOPS = ALU * FREQ * FLOPs dove:

ALU = numero di CC, SP, chiamale come vuoi
FREQ = frequenza delle ALU
FLOPs = numero istruzioni per ciclo

FLOPs (FP32), se guardi la tabella del link che ho postato, nVidia da Fermi ad Ampere compresa ne esegue 2, perchè da Fermi supporta le FMA

https://www.nvidia.com/content/PDF/f...Whitepaper.pdf

Quote:

The Fermi architecture implements the new IEEE 754-2008 floating-point standard, providing the used multiply-add (FMA) instruction for both single and double precision arithmetic. FMA improves over a multiply-add (MAD) instruction by doing the multiplication and addition with a single final rounding step, with no loss of precision in the addition. FMA is more accurate than performing the perations separately.

lucusta · 05-09-2020, 18:03

Quote:

Originariamente inviato da eXeS

La formula che usi per calcolare i flops omette di moltiplicare il risultato per il numero massimo di istruzioni che l'ALU può eseguire per ciclo, e visto che le ALU di nVidia da Fermi, e quelle di AMD da GCN possono eseguirne 2, e mi riferisco ad esempio alle FMA, il numero da te calcolato deve essere moltiplicato per 2.

https://en.wikipedia.org/wiki/FLOPS

FLOPS = ALU * FREQ * FLOPs dove:

ALU = numero di CC, SP, chiamale come vuoi
FREQ = frequenza delle ALU
FLOPs = numero istruzioni per ciclo

FLOPs (FP32), se guardi la tabella del link che ho postato, nVidia da Fermi ad Ampere compresa ne esegue 2, perchè da Fermi supporta le FMA

https://www.nvidia.com/content/PDF/f...Whitepaper.pdf

qui si salta la classica formuletta (che sicuramente ha usato anche qualcuno del marketing per scrivere i TF massimi di potenza grafica).
si va direttamente di operazioni in virgola mobile per SM dichiarate da nvidia anche in questo stesso brifing pubblicitario.
dichiarano 128 operazioni in virgola mobile a clock per SM.
sulla 3080 sono 68 SM e la frequenza è si 1710mhz, a quanto ricordo.
diventano 14.9TF non 29.77TF

quello che riporti su Fermi è vero, ma manca anche il seguito di quella frase, e lo hanno fatto notare ANCHE ad un utente su tomsHW che ha riportato l'identica frase, più epipeti di scarsa educazione (lo conosci, per caso? sembra strano che riuscite ad ottenere informazioni puntuali in così breve tempo... come ad averle sotto mano).
la possibilità di Fermi di fare 2 operazioni in virgola mobile per FP32 c'è, ma c'è l'impossibilità di Fermi di usare contemporaneamente i 64 cudacore di un SM; ne può usare solo 32 alla volta.
quindi per i TF di fermi si applica un divisore pari a 2 perchè può usare solo la metà delle unità a clock.

e non ti far erroneamente guidare da nvidia nei termini; queste sono FFMA non FMA.
sono a virgola mobile ed indicano una disposizione specifica:
When done with floating point numbers, it might be performed with two roundings (typical in many DSPs), or with a single rounding. When performed with a single rounding, it is called a fused multiply–add (FMA) or fused multiply–accumulate (FMAC).

FFMA sta appunto per fully fused multiply-add, per i processori multivia, in quanto devi considerare tutte le vie di processamento dei dati.

quindi fai attenzione ai termini che si indicano, perchè loro, il marketing, ne fanno molta.

quando calcoli i TF con la formultetta per determinare la potenza teorica massima il calcolo giusto è sul dato delle FFMA, ossia su tutte le vie di processamento che all'unisono vengono usate per clock.

diversamente, se lo fai con il semplice dato FMA, una 2080 TI risulterebbe avere 6.9TF teorici, come indicano in questo stesso paper pubblicitario: 64 operazioni in virgola mobile a SM (la 2080 TI ha 68 SM ed è dichiarata con 1545mhz di boost clock... anche se poi arriva a 1830); a te l'onere dei conti per asssicurarti di quello che dico.

io vorrei parlare di tecnologia e non di marketing.

eXeS · 05-09-2020, 19:10

Quote:

Originariamente inviato da lucusta

qui si salta la classica formuletta (che sicuramente ha usato anche qualcuno del marketing per scrivere i TF massimi di potenza grafica).
si va direttamente di operazioni in virgola mobile per SM dichiarate da nvidia anche in questo stesso brifing pubblicitario.
dichiarano 128 operazioni in virgola mobile a clock per SM.
sulla 3080 sono 68 SM e la frequenza è si 1710mhz, a quanto ricordo.
diventano 14.9TF non 29.77TF

Se vuoi ottenere i FLOPS di picco, come da formuletta, che è la stessa usata da Sony ed MS per dichiarare la potenza delle loro console, e da Intel, AMD, ARM, Qualcomm nVidia, ecc... per dichiarare la potenza delle loro CPU e GPU, devi moltiplicare per 2 ottenendo 29.77TF.

La formuletta definisce lo standard per dichiarare i FLOPS, che sia un dato di picco e teorico lo sappiamo tutti, e non ti contesto assolutamente questo su cui sono d'accordo al 100%, ma la tesi iniziale secondo la quale le GPU Ampere rispetto a Turing non sarebbero in grado di eseguire due istruzioni per ciclo di clock, cosa che impedirebbe appunto l'utilizzo del moltiplicatore 2 nella formuletta.

Quote:

Originariamente inviato da lucusta

quello che riporti su Fermi è vero, ma manca anche il seguito di quella frase, e lo hanno fatto notare ANCHE ad un utente su tomsHW che ha riportato l'identica frase, più epipeti di scarsa educazione

La riporto in modo completo, ma non capisco cosa aggiunga...

Quote:

The Fermi architecture implements the new IEEE 754-2008 floating-point standard, providing the fused multiply-add (FMA) instruction for both single and double precision arithmetic. FMA improves over a multiply-add (MAD) instruction by doing the multiplication and addition with a single final ounding step, with no loss of precision in the addition. FMA is more accurate than performing the operations separately. GT200 implemented double precision FMA.

Ovvero: FMA migliora il MAD eseguendo la moltiplicazione e addizione in un solo passaggio con nessuna perdita di precisione nell'addizione, ed il solo passaggio si riferisce molto al ciclo di clock, e moltiplicazione ed addizione sono operazioni distinte.

05-09-2020, 16:09	#23
lucusta Bannato Iscritto dal: May 2001 Messaggi: 6246	hanno lavorato bene per ottimizzare bene la logica d'uso delle varie parti del GPC, ma il problema è che con turing ne hanno sparate talmente grosse che sono stati costretti a spararne ancora più grosse con Ampere, anche se hanno ottenuto notevoli miglioramenti. la questione si ferma a questo: "Tutte e quattro le partizioni SM combinate possono eseguire 128 operazioni FP32 per clock, che è il doppio dell'SM di Turing" se un SM offre 128 operazioni in virgola mobile a clock, i 68 SM di una 3080 ne offrono 8704; se il clock è a 1710mhz, offre, in totale 14883840 milioni di operazioni al secondo, pari a 14.9TF, non 20, come dichiarato. il marketing sta solo cercando di confondere rispetto a quanto detto precedentemente sulle altre generazioni, con una 2080 TI, da 68SM, che dichirava 16TF di computazione in operazioni in virgola mobile. in effetti hanno migliorato enormemente il rendimento reale dell'architettura, ma i TF teorici sono diminuiti,ma, d'altra parte, a noi consumatori basta che quelli che riusciamo a sfruttare siano di più. la questione è che oggi i cudacore di Ampere (gaming) non producono più 2 operazioni a virgola mobile a clock, come nelle passate generazioni, ma una sola. è stato fatto perchè c'è stata la necessità di ottimizzare l'uso degli RT core, che sfruttano una sola delle operazioni consentite dai "vecchi" cudacore, e quindi, all'atto pratico, una 2080 Ti in RTX operava alla metà della sua reale potenza grafica in concomitanza con gli RT core. ora, si ha una operazione in virgola mobile per cudacore, sfruttabile da un RT core, per ogni cudacore, ma il doppio dei cudacore, quindi il doppio dello sfruttamento. stessa cosa quando si usava codice INT. nvidia ha detto che mediamente si usa fino al 30% del codice su interi nei giochi di nuova concezione, ma la sua architettura offriva il 50% delle pipeline in INT. le alu Int sono a singola operazione, quindi con Turing si aveva, per ogni ciclo di clock, o 2 operazioni su FP32 per 64 (pari ad un SM), quindi 128 operazioni in virgola mobile totale ad SM (che, se si nota, sono esattamente come quelle di Ampere, ma solo in ambito puramente FP32, non quando si usa anche RT core!), o una operazione FP32 ed una INT, quindi 64 FP per SM e 64 INT per SM, quindi 50:50. se il 30% del codice è in INT posso usare il 60% degli SM in modalità mista, ed il 40% interamente per FP. su una 2080 TI si ottenevano quindi circa 40SM in modalità mista e 28 in sola modalità FP... 40 SM che producevano 64 operazioni in FP più 28 SM che producevano 128 operazioni FP a clock, per un totale di 168 operazioni a clock (6440 + 12828) pari a 6144 operazioni in FP a clock, che a 1800mhz fanno 11.1TF; il resto erano operazioni per gli INT. ecco quindi che quando Turing incontrava giochi che richiedevano l'uso degli INT per il 30% del codice è vero che poteva eseguirli direttamente la GPU, ma è anche vero che la sua potenza grafica in FP scendeva da dai 16TF a 11TF, come una 1080 Ti che invece scaricava tale computo solo sulla CPU (mandandola però in bottleneck se non usava core aggiuntivi per eseguire tali operazioni). e questo quando si era in condizione di solo uso di rasterizzazione; con l'uso congiunto degli RT le FP offrivano comunque una sola operazione a ciclo, quindi i cudacore dei 28 SM rimanenti valevano comunque solo 1 e non più 2... con Ampere, invece, alla fine fai la stessa cosa, ma il fatto di aver diviso le due operazioni a virgola mobile su due core indipendenti e di aver reso indipendente anche il core degli INT consente di gestire meglio le risorse in uso tra INT, FP e FP per RT core. alla fine la crescita di transistors è dovuta alla separazione di questi core, che necessitano di L1/L2 e registri indipendenti (ecco perchè li hanno raddoppiati e hanno triplicato la caches; in effetti è lo stesso quantitativo, ma per singola funzionalità per rendere indipendente il calcolo una pipeline dall'altra, che sia FP o INT). da questo anche il raddoppio delle ROPs, in quanto, per essere indipendente, devi avere tutta la filiera di calcolo sdoppiata; ma è un raddoppio non una triplicazione, quindi è questo il motivo per cui se usi gli INT hai ancora il decurtamento della metà delle unità di FP nella rasterizzazione; unità che possono comunque essere usate per i calcoli su RT o tensor core, visto che sono indipendenti dall'altra pipeline con i propri registri.. ecco cosa significava l'apporto di quell'aumento di caches). anche quando parlano di "uso contemporaneo delle funzionalità" si esimiano dal dire che su turing, per dare massima perstazione in rasterizzazione, usavano tutto il TPG della scheda, ma quando usavano anche RTX o DLSS o RTX+DLSS, per alimentare anche quei banchi di transistors per i calcoli, dovevano decurtare la potenza concessa ai cudacore (o tramite frequenza o tramite schedulazione dei calcoli). il maggior TGP delle Ampere non si deve vedere nella stessa ottica delle turing, che arrivavano (a meno di palesi bottleneck della CPU) sempre al TGP in qualsiasi situazione, ma che quando esegue solo rasterizzazione si avrà un consumo, quando si userà RTX o DLSS si sommerà altro consumo e quando si useranno rasterizzazione, RTx e DLSS insieme si otterrà il massimo del consumo consentito. quindi in gioco mi aspetto che con solo rasterizzazione i consumi saranno molto più bassi del TGP dichiarato (sempre se non useranno anche questa questione per marketing e faranno mostrare ai recensori solo il consumo in ambito rasterizzazione, facendo presupporre al lettore ce quello sia il consumo massimo in ogni situazione d'uso... sarebbero capaci). quindi Ampere migliora nettamente l'architettura eliminando quei bottleneck che si creavano a causa di una ottimizzazione mal fatta, che andava a caccia di frequenze massime e aumento di cudacore senza guardare al fatto che con un po' più di caches e registri (oltre che ROPs) già le Turing potevano avere enormi benefici in RTX. d'altra parte sembra che, a parità di SM, l'architettura sia cresciuta del 20%, ma che garantisca, così fatta, il 50% di vantaggio in rendimento rispetto a prima... non facevano meglio a sfruttare lo spazio di Turing con il 20% in meno di cudacore, offrendo però un +50 dal -20%? 0.8 (ossia il 20% in meno di unità, quindi di spazio) per 1.5 fa comunque 1.2, quindi con lo stesso numero di transistors potevano garantirsi il 20% in più di prestazione solo per via di ROPs e caches, nulla di più di quanto non sapessero integrare prima. il prezzo, invece, è condizionato dal momento in cui esce. con Navi 10 AMD gli ha reso la vita difficile, ma è uscito 9 mesi dopo Turing e sono intervenuiti con le Super a raddrizzare il tiro sul prezzo per prestazioni, ma il vero nemico di Turing, in quei mesi, erano i possessori della serie 900 che si trovavano tante serie 1000 in vendita contro il prezzo stratosferico della serie 2000, che poi non offriva tutti questi vantaggi nei normali giochi.. aveva solo RTX e DLSS usati in praticamente solo 2 giochi in quel periodo e con implementazione fatta pure male (BF V ha ricevuto più patch per RT in quel periodo che altro). in quest'ottica si dovrebbe guardare a Turing come un mezzo fallimento che comunque nvidia ha pompato all'inverosimile, come sempre, ma che ha alzato l'asticella delle "balle da marketing" talmente in alto da aver dovuto dichiarare numeri stratosferici per Ampere, come i 36 TF di computazione in FP32 della 3090 o i 10496 cudacore. nonsono 36, ma sono 18, solo che sono sfruttati decisamente meglio; sono 10496 core, ma 2 di quelli sono come uno del passato, solo che oggi sono indipendenti grazie a quel poco di caches che hanno messo sull'altra pipeline per farla diventare indipendente. è solo che l'aumento di prestazione non era giustificabile in nessun modo conun dichiarato inferiore.... avremmo avuto la situazione in cui una 3080 doveva dichiarare solo 14.9TF e che comunque andava più di una 2080 Ti custom che arriva a 16TF teorici.... un controsenso per il pubblico che non si sarebbe riuscito a spiegare.. quindi camuffano, omettono e comunque dicono mezze verità per coprire un marketing fatto sulle Turing che prometteva quello che poi non era. quindi si può dire che è un bel chippone grosso e ben sfruttato, rispetto ad un chippone e basta e soprattutto mal sfruttato, oltre che mal coadiuvato dal software che è stato turing... è per questo che Turing è durato meno di 2 anni e non valeva affatto i soldi che nvidia chiedeva. con la scusa dell'RT hanno proposto un chippone grosso più del doppio di prima ma che offriva ben poco più di prima a costi comunque doppi. per il costo, oggi si può dire che nvidia ha capito che AMD può effettivamente arrivare alle prestazioni della 3080 (ma tra il poter fare una cosa e voler fare una cosa c'è comunque di mezzo il mare), ed è quindi stato deciso di non esagerare, mentre per giustificare il doppio del prezzo di una scheda, la 3090, che, in finale, ha la stessa componentistica, hanno messo chip di ram da 2GB e l'hanno fatta diventare da 24GB. a me non sembra che la 5500 XT da 8GB costi il doppio della 5500 XT da 4GB, eppure anche li hanno usato chip da 2GB invece che 1GB... è segno che si sente sicura che non avrà concorrenza in quel segmento e che quindi può continuare a spremere i suoi clienti come le pare. per quanto riguarda il resto delle tecnologie presentate, sono robetta di contorno che forse porterà ad un miglioramento percettibile, ma non certo essenziale (il caricamento da SSD è valevole per le console, non per i PC, che sono strutturati in modo decisamente diverso). in finale, è vero che turing ha portato a maggiori prestazioni assolute, ma quando si scriveva che non valeva i soldi che chiedevano era anche quella un'assoluta verità. oggi si può dire solo della 3090, perchè non vale 1500 euro minimo a confronto del resto e, probabilmente, di quello che arriverà presto. invece è realmente brutto leggere un'articolo tecnico in cui si omettono o si dicono mezze verità, solo per coprire balle dette dal marketing sulle passate generazioni. in un modo o nell'altro il marketing nvidia si è fatto scoprire che, di quello che dichiarano, di buono c'è manco 1/3... spero che sarà solo il marketing nvidia a continuare questa strategia pubblicitaria, perchè se anche gli altri si accodano... diventa una situazione da schifo, come con le promozioni di telemarketing... arriveranno a telefonarti a casa per venderti una CPU o una GPU millantando cose che poi non esistono, come si scorgono su questo articolo e come, ormai è certo, ne hanno dette alla presentazione delle turing... Ultima modifica di lucusta : 05-09-2020 alle 16:17.

05-09-2020, 16:41	#28
bonzoxxx Senior Member Iscritto dal: Aug 2008 Città: N.P. Messaggi: 14894	Post interessanti, grazie Lucusta __________________ Sto cercando di disintossicarmi dall'Hardware... ma non ci sono ancora riuscito battutona ci gira Cyberpunk?

05-09-2020, 14:10	#21
StIwY Senior Member Iscritto dal: Jul 2003 Messaggi: 4427	Ma il DLSS 3.0 che fine ha fatto ?

Strumenti
Mostra una versione stampabile Invia questa pagina per email