Vega 10, 11 e 20: caratteristiche tecniche presunte delle future GPU di AMD - Pagina 2

Blake86 · 21-09-2016, 11:43

Quote:

Originariamente inviato da nickname88

Quoto in parte, però parliamoci chiaro, anche a 1080p una RX480 non tiene i 60fps costanti su determinati titoli attuali ( se non scendendo a compromessi ) figurati per i prossimi.

Io avevo una 980 e in TW3 senza il pure hair e con HBAO ridotto i problemi di frame rate c'erano in determinati luoghi ed era innegabile, così come in Dragon Age Origins, in The Division, in GTA e stentava sia con Far Cry Primal che con Hitman.

Considera che le prestazioni attuali delle consolle con i titoli che hai elencato sono nel migliore dei casi simili al pc che ho infirma con dettagli ovviamente più bassi.

lucusta · 21-09-2016, 12:11

@calabar,
trovo che parlare di roba che non è nemmeno sulla carta, e per giunta per sentito dire, porta solo a sprecare tempo...
i 7nm non sono nemmeno in tape-out per due cellette di SDRAM, figuriamoci con chip da 18 miliardi di transistors (ossia, per me il 2018 e' una previsione assai azzardata).

che poi, usando lo stesso PP, si cerchi sempre di migliorare il disegno e soprattutto eliminare errori, questo lo fanno spesso.
leggevo delle APU bristol ridge (A12-9800)...
ecco, quei 28nm planari sono il sunto di anni e anni di affinamenti di quel processo.
se conti che le prestazioni di quell'APU io, con la serie immediatamente precedente, le ottengo con 160W, puoi capire quanto ci siano stati dietro per riuscire a minimizzare il consumo.

in questo caso porto sempre l'esempio dell'Athlon XP thoroughbred A e B.
a differenza di quanto trovi scritto in molti siti non differivano solo per il SOI, ma proprio per la fattezza e la disposizione dei moduli, tanto che il Thoro B aveva il 5% in piu' di superficie rispetto a Thoro A (passati da 80mm^2 a 84mm^2), ed un die con rapporti sui lati leggermente differente.
modificarono il design senza modificare l'architettura (e l'alimentazione, avendo lo stesso numero di pin), e riuscirono a donare a quelle CPU un invidiabile rapporto prestazioni/consumo, oltre al fatto di riuscire a superare agevolmente la barriera dei 2.0Ghz (tanto che i primi Thoro B sovente li tiravi a 2.2-2.3Ghz, contro gli A che non andavano mai oltre i 2ghz).

quindi gli affinamenti sullo stesso processo produttivo si possono sempre fare...
e' diverso quello che stà facendo Intel con il Tic-Toc-Toc-Toc, perche' in quel caso, nei Toc, cambia anche, in parte, l'architettura, e i Toc comunque annoverano diverse rev di maschere (gli errori ci sono sempre).

CrapaDiLegno · 21-09-2016, 13:44

Il chip Vega 10 così descritto sembra un concorrente per il GP102, non il GP104.
Auguri a AMD a cercare di avere un guadagno in quel segmento con quella soluzione.

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

Se i valori di consumo sono corretti, forse finalmente anche AMD potrà sfornare schede competitive. SE. Visti i precedenti con notizie, rumor e poi i fatti reali, aspettetri i test prima di e saltarmi.

Blake86 · 21-09-2016, 13:45

Quote:

Originariamente inviato da calabar

A me sembrano voci completamente campate in aria.
Che senso avrebbe sostituire Polaris 10 già ora? Avrebbero potuto concentrare le risorse di ricerca e sviluppo molto meglio.
Che senso ha parlare di 7nm, che sono lontani anni? A quel punto non ci sarebbe più Vega, ma una qualche sua evoluzione o un'architettura differente.

In passato si parlava di un Vega grande (4000 SP circa, come Fiji, ma migliorata e a 14nm) e un Vega molto grande (6000sp?) con target che immagino dipenderà dalla resa reale del chip.

@Blake86 @Locusta
Dai però un po' di attenzione, se usate termini inglesi fate attenzione ad usare quelli corretti.

cache -> cash (o meglio, in italiano, "in contanti")
rateo -> ratio (o meglio, in italiano, "rapporto" o "proporzione")
Altrimenti si fa proprio quella figura li di quelli che vorrebbero... ma non possono.

Era proprio voluto perché i loro portafogli si svuotano proprio come la cache della cpu quando spegni il computer

al135 · 21-09-2016, 13:59

Quote:

Originariamente inviato da fraquar

Ecco un'altro fenomeno che non legge.

ma tu stai ancora a leggere i commenti di questi cespi da forum?

no non hanno capito un cazzo di quello che hai scritto e fidati che anche se glielo spiegassi bene non capirebbero lo stesso.

ps: purtroppo la penso pure io cosi, speriamo in una competizione accanita per i prezzi

AceGranger · 21-09-2016, 14:01

Quote:

Originariamente inviato da CrapaDiLegno

Il chip Vega 10 così descritto sembra un concorrente per il GP102, non il GP104.
Auguri a AMD a cercare di avere un guadagno in quel segmento con quella soluzione.

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

Se i valori di consumo sono corretti, forse finalmente anche AMD potrà sfornare schede competitive. SE. Visti i precedenti con notizie, rumor e poi i fatti reali, aspettetri i test prima di e saltarmi.

mmm no, cosi descritto sembrerebbe proprio un concorrente del GP104 a meno che non operino un cambio di architettura, perchè i TFlops di AMD si tramutano sempre in meno fps....

GTX 1060 - 3.85 TFLOPs
GTX 1070 - 5.7 TFLOPs
RX480 - 5.1 TFLOPs

guardando i TFLOPs la 480 dovrebbe andare poco meno della 1070 e molto di piu della 1060 e invece va il 50% in meno della prima e uguale alla seconda; se rimarra l'attuale architettura, non credo che con quei valori riusciranno a raggiungere la TitanX; poi magari ci riusciranno, pero credo dovremo aspettare almeno Novembre/Dicembre per qualche cosa di piu veritiero.

matteo1 · 21-09-2016, 14:26

Quote:

Originariamente inviato da fraquar

Ottimo articolo sul nulla assoluto.
Intanto ci vendono la serie 10x0 a prezzi folli per colpa di AMD che ha una sola scheda in commercio ed è anche una ciofega.

in realtà nvidia vende le sue schede a prezzi folli sin da almeno il 2000 epoca in cui era uscita la prima gforce ddr che nei negozi fisici del tempo (store online non credo esistessero, visto che la maggior parte delle persone che navigavano avevano la 56k ) costava la bellezza di 1 milione- 1 milione e due

e allora matrox, ati e compagnia bella non avevano nulla che nemmeno si avvicinasse; tenendo conto di 15 anni di inflazione direi che i 650€ per la 1080 non sono nemmeno "troppi" in proporzione.
La 480 poi una ciofeca non lo è, certo i 60 fps stabili su tutto in fhd non li fa, ma la fluidità c'è anche a 40

. Per me è un'ottima scheda, aspetto solo che arrivi a 250, poi tra 2-3 anni si può sempre rivenderla e prendere quella che allora sarà una sua sostituta spendendo sempre una cifra simile e stando sempre sotto alla spesa che oggi si affronta per la 1080. imho.

lucusta · 21-09-2016, 14:27

Quote:

Originariamente inviato da CrapaDiLegno

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

non e' oscuro, e' dovuto ad una semplificazione dei vecchi disegni.
prima, sulle PRO, si usavano pipeline a 64b per i calcoli a doppia precisione, e sulle Gaming si disabilitava la possibilità di usare una profondità di calcolo a 64b, via software.
risultava che comunque avevi un rapporto 1:1 trà 64 e 32 (o 16 bit), ma anche un'enorme spreco di spazio, dovendo praticamente inutilizzare mezzo chip.

oggi invece si usano layer di aggregazione per produrre l'estensione FP.
nvidia ha pipeline a 32b, e ne accoppia 2 per farne una a 64b;
in questo modo riesce a fare il doppio dei calcoli a 32b;
a 16b puo' pero' concatenare due parole per farne diventare una a 32b, e quindi raggiunge comunque un rapporto 16:32:64 -> 4:2:1.

AMD invece ha pipeline corte e non estese, e per produrre una pipeline sufficientemente lunga ed estesa deve utilizzare ben 10 delle sue normali pipeline; l'allungamento di pipeline comporta pero' anche l'azione di storage e carico sulla sub-pipeline successiva, che porta ad overload di calcolo.
quindi dai 32b ai 64b perde 16 volte sul computo.
sui 16b con polaris hanno cambiato un po' di cose, ed anche sul modo di unire 2 pipeline per ottenerne una piu' lunga (tanto che un cluster da 16, composto da 4 sub-pipeline non ha overload, ed e' anche la ragione per cui guadagna in DX11 rispetto a tonga ed enormemente rispetto ad hawaii); sta' di fatto che un calcolo a 16b non lo esegue nella metà del tempo di uno a 32b, ma in un tempo inferiore, dovuto appunto alla minimizzazione dell'overload.

quindi il rateo 16:32:64 per polaris dovrebbe essere (circa 38) : (circa 16) : 1 o meglio 2.4:1:1/16 se visto in rapporto ai 32b.

nessuna delle due case utilizza piu' strutture architetturali rigide da circa 5 o 6 generazioni.

quindi vega e' già tanto che abbia 10TF 32b (usato nei giochi), che poi dev'essere visto in ottica di efficienza su DX11 e su DX12 (HSA e 16b per le PRO).
se vuoi che un HW possa operare al meglio in diverse situazioni, devi anche far in modo che sia flessibile, e oggi si gioca su questa flessibilità.

Madcrix · 21-09-2016, 14:44

I primi del 2017 poi, 7 mesi dopo la concorrenza...

Memorie HBM2, ossia costi faraonici e ricavi miserrimi a meno che non le mettano a 1000 euro e ne vendano un sacco

Intanto Nvidia monta GDDR5X che costano qualche palata in meno e vende a 1200 dollari la TitanX e 700 dollari la GTX1080, con ricavi mostruosi.

AMD si sta scavando la fossa esattamente come nella passata generazione, escono a mercato high end già colonizzato e devono vendere a prezzi alti con ricavi largamente inferiori alla concorrenza.

CrapaDiLegno · 21-09-2016, 15:12

Ermmm... Guarda che nvidia non usa l'aggregazione di 2 unità a 32bit per fare una unità a 64bit, ma aggiunge proprio unità specializzate a 64bit in ogni SM. La loro mancanza (insieme a parte della cache e di nvlink e unità 2x16bit) è quello che differenzia il GP100 dal GP102 in termini di due size.

È AMD che storicamente aggrega le unità a 32bit in modo da averne una da 64bit.E visto he questa aggregazione costa in termini di silicio e consumi, è passata da avere storicamente un ratio fp32:fp64 da 2:1 a 24:1 con l'ultima revisione di GCN (quella usata per Fiji per intenderci).

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.
Vista la storia di AMD il buon senso indica che abbia usato una unità FP32 per fare 2 operazioni 16bit contemporaneamente.
Non so come tu possa fare i conti con la lunghezza delle pipeline che nessuno conosce.
Ma se anche fosse che non riesce a fare 1 operazione 16bit in metà dei cicli di una a 32bit ne deriva che le capacità a 32bit sono superiori della metà, non inferiori, quindi potrebbe avere più di 12TFLOPS.

lucusta · 21-09-2016, 16:04

Quote:

Originariamente inviato da CrapaDiLegno

Ermmm... Guarda che nvidia non usa l'aggregazione di 2 unità a 32bit per fare una unità a 64bit, ma aggiunge proprio unità specializzate a 64bit in ogni SM. La loro mancanza (insieme a parte della cache e di nvlink e unità 2x16bit) è quello che differenzia il GP100 dal GP102 in termini di due size.

È AMD che storicamente aggrega le unità a 32bit in modo da averne una da 64bit.E visto he questa aggregazione costa in termini di silicio e consumi, è passata da avere storicamente un ratio fp32:fp64 da 2:1 a 24:1 con l'ultima revisione di GCN (quella usata per Fiji per intenderci).

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.
Vista la storia di AMD il buon senso indica che abbia usato una unità FP32 per fare 2 operazioni 16bit contemporaneamente.
Non so come tu possa fare i conti con la lunghezza delle pipeline che nessuno conosce.
Ma se anche fosse che non riesce a fare 1 operazione 16bit in metà dei cicli di una a 32bit ne deriva che le capacità a 32bit sono superiori della metà, non inferiori, quindi potrebbe avere più di 12TFLOPS.

GP102 e' da 471mm^2, GP100 da 610mm^2;
GP102 ha 12 miliardi di transistors, GP100 ne ha 15.3;
GP102 ha 3MB di caches condivisa, GP100 ne ha 14MB.

e tu mi dici che con SOLI (e ti ripeto SOLI, visto che GP106 ha 1280 cuda ed e' grande circa 200mm^2) 139mm^2 e 3.3 miliardi di transistors in piu' nvidia riesce ad aggiungere 11MB di caches ed in piu' anche 1792 Units a 64b (che per superficie occupano minimo il doppio di una a 32b e che questi chip sono praticamente solo pipeline di calcolo);
se fosse cosi' gli converrebbe fare solo unità a 64b, visto che gli costano cosi' pochi transistors, ed usarli alla vecchia maniera, ossia a 32b su 64b, avendo rateo 1:1:1 per 16:32:64.
nvidia aggrega i CUDA con layer logico/fisico, e fa' diventare 2 da 32 una da 64b, ed e' quasi inutile dirlo, per quanto e' intuitiva e' la questione.

se t'interessa sapere per quale meschino motivo faccia un'operazione del genere, invece di usare direttamente unità a 64b e andare di aggregazione di word, e' perche' diversamente non potrebbe limitare l'uso delle schede a 32 o 64b, e differenziarle in gaming e PRO.
infatti nessuno ti puo' impedire di usare una nvidia gaming per computi a 16 bit, perche' non converrebbe a nvidia interporre layer fisico di aggregazione per pipeline cosi' poco estese e produrre cosi' x2 i 32b e x4 i 64b;
se ne andrebbe via piu' spazio per i layer che per le pipeline.
(perche', di per se, quel layer non serve a nulla se non a impedirti, quando disabilitato, di usare la scheda a 64 bit).

e' solo un'altro modo per far pagare i propri clienti e spemerli come limoni.

ed io, i conti, li so' fare, perche' se c'e' perdita di lavoro per overload da 16 a 32, a questo punto i DP di AMD sarebbe ben piu' della meta' del SP.

Quote:

Originariamente inviato da CrapaDiLegno

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.

e aggiungici anche unità a 8 bit, visto che ci sei!!
ma quanta robba inutile vuoi ancora mettere in quei chip?
in ambito professionale o usi un tipo di precisione, o usi un altro tipo di precisione; non li puoi mischiare e se un cluster di calcolo deve fare un determinato lavoro prendi HW che faccia esplicitamente quel lavoro.
Quindi e' totalmente inutile replicare unità che non verranno usate mai... spazio e transistors inutili.
sui giochi al massimo usi i 16 bit per la fisica, oltre i 32 per il calcolo del colore (perche' io giochi a 16 bit di colore non li vedo da una vita).
quindi quello che dici e' estraneo ad ogni logica attualmente usata e sarebbe anche stupido (se non hai fondati e meschini propositi) farlo.

CrapaDiLegno · 21-09-2016, 16:50

Guarda che raddoppiare i bit di unità FP non è uguale a raddoppiare quelle INT. La logica di gestione è completamente diversa, quindi serve molta logica aggiunta x fare l'aggregazione.
AMD storicamente lo fa, e infatti i suoi chip hanno capacità DP più alte. Nvidia no (vedi descrizione precisa dell'architettura su Anandtech).
Con unità di calcolo separate fai in fretta a limitare l'uso dei calcoli DP:non le abiliti tramite driver (che come con il layer di aggregazione spegnerà parte della logica che le pilota).
Non so quanto sia lo spazio usato dagli shader e della cache sul totale dei mmq usati nella GPU. Se non ricordo male un tempo si parlava di 1/4 dello spazio complessivo. E questo prima che altre unità venissero inserite, come i polymorp engine e i gestori di thread.
Mettiamo che gli shader occupino il 20% dello spazio, raddoppiarli significa aggiungere 1/5 dello spazio. Che vuol dire che avanza ancora spazio per cache e altro.
Tieni conto che il GP100 usa un MC HBM che su ammissione di AMD è più piccolo di quello per le GDDR5. Sul GP102 hai un controller più complesso del semplice GDDR5, visto che pilota anche le GDDR5X.
Facendo due rapidi conti della serva, direi che non è così impossibile che sul GP100 non vi siano unità aggiunte come nvidia ha sempre detto.
L'uso di unità specializzate non è estraneo a nessun buon senso nel momento in cui queste portano maggiore efficienza.
Non è un caso che avendo fatto una GPU con capacità DP pari a 1/2 FP32 abbia anche deciso di creare un chip più piccolo senza tali unità da vendere nel mondo consumer.
Il mercato ora permette di vendere il chippone senza DP, quando prima invece doveva usare la piastrella per il non plus ultra.

Poi mi sembra che hai un po' il dente avvelenato con nvidia per giudicare in modo razionale le cose.
Il fatto che tu dica che si avvalga di mezzucci per spremerci come limoni quando è quantomeno sciocco guardando i numeri: leader incontrastata per le GPU per il calcolo professionale (non per gli amatori della domenica che il DP lo usano solo per far vedere all'amico che ce l'hanno più lungo) e con un apprezzamento di almeno 2/3 del mercato.

Poi se vuoi trovare a tutti i costi dei difetti ad una architettura che rende uguale alla concorrenza usando meno risorse (incluso il consumo che in certi mercati è più importante del TFLOPS teorico in più) puoi continuare a fare digressioni sulle pipeline, la loro lunghezza e la loro efficienza senza sapere in realtà nulla di cosa c'è dentro gli SM e quanto spazio occupano rispetto a tutto il resto.

Per ora il risultato è che con 610mmq e 300W non c'è nulla di meglio sul mercato.
È il fratellino senza DP è incontrastato nel mercato consumer. Ed è venduto ad un prezzo che AMD può solo sognare, anche se su Vega mette HBM al grafene condito con fullerene.
Perché contano i risultati, che la gente paga (anche se per te strizzati come limoni) non le sigle o i numeri sulla carta.

lucusta · 21-09-2016, 18:35

"On the compute side, Pascal introduces a new type of FP32 CUDA core that supports a form of FP16 execution where two FP16 operations are run through the CUDA core at once (vec2). This core, which for clarity I’m going to call an FP16x2 core, allows the GPU to process 1 FP32 or 2 FP16 operations per clock cycle, essentially doubling FP16 performance relative to an identically configured Maxwell or Kepler GPU"

su maxwell i 16b passavano in cuda a 16b+16 nulli, ed infatti FP16:FP32 era 1:1.

"GeForce GTX 1080, on the other hand, is not faster at FP16. In fact it’s downright slow. For their consumer cards, NVIDIA has severely limited FP16 CUDA performance. GTX 1080’s FP16 instruction rate is 1/128th its FP32 instruction rate, or after you factor in vec2 packing, the resulting theoretical performance (in FLOPs) is 1/64th the FP32 rate, or about 138 GFLOPs."

e sulle gaming ha limitato l'uso dei 16b ad un solo core in uso per 128, che impone un rateo prestazionale di 1/64, visto che puoi operare, con un solo cuda a 32b, 2 word 16b.
e questa e' una limitazione imposta per evitare di usare schede consumer per operazioni su calcoli a 16 bit, imponendo di usare schede PRO.
l'uso di una sola unità di calcolo abilitata a 16bx2 e' dovuta alla compatibilità per i software scritti in cuda, che in questo modo possono girare sia sulle PRO che sulle gaming.

questo implica pero' che Pascal e' meno performante per la fisica nei giochi, dovendo usare lo schema di maxwell (1 cuda a 32b puo' elaborare 1 word a 16b), togliendo unità elaborative complete per compiere questo lavoro (con AMD invece un cluster da 16 SP, che e' l'aggregazione di 4 cluster da 4 SP, puo' calcolare 2 word a 16b, e visto che per una matrice per DX 11 ci vogliono 4 cluster da 16, basta che usi la progressione di una singola ROPs per ottenere 8 word 16b).

e se avessi letto bene la recensione dell'architettura di Pascal su Anandtehc, ti saresti accorto che non viene proprio mensionato come nvidia produca computi a DP (e probabilmente perche' ai gamer boys non sarebbe interessato, visto che non ci sono ancora giochi che usano una profondità di colori a 64b).
http://images.anandtech.com/doci/105...823.1469274497
http://www.3dcenter.org/dateien/abbi...Die-Shot-1.jpg
ti presento GP100 e GP104 (una delle due immagini la devi ruotare di 180° ).
uno ha 30 moduli, l'altra 20 moduli.
se ruoti GP100 vedrai che la parte inferiore ricalca il disegno di GP104, con la sola differenza che GP100 ha la metà della caches L2 per ogni SM (totale 2MB contro 4MB, ed e' per questo che le bande che vedi tra le striscie di SM sono piu' estese).
mettici altri 10 SM, 4 stack HBM, caches L3 condivisa (sulla destra).
su GP104 ci sono introno 8 stack 32b per GDDR5x.
se ingrandisci i singoli SM potrai vedere le vere differenze trà gli SM GP100 e GP104;
essenzialmente le ALU sono identiche (la parte centrale); cambia la dimensione della parte sinistra dell'SM, che lo fa' apparire rettangolare invece che pressoche' quadrato.
bene; se avessero raddoppiato le unità di calcolo, quelle ALU sarebbero state il triplo piu' estese, e tu avresti potuto virtualmente eseguire codice 32b e 64b insieme, garantendo una potenza di calcolo enorme in 32b, visto che una pipeline a 64b potrebbe essere tranquillamente usata a 2x32b, come una a 32b puo' essere usata a 2x16b... ma non e' cosi'.
quella "fettina" e' il layer fisico che mette in grado di usare 2 ALU 32b come una a 64b e sono essenzialmente registri di passaggio.
se avesse avuto tutti quei CUDA specializzati sarebbe stato un chip da 1000mm^2.

nickname88 · 22-09-2016, 12:06

Quote:

Originariamente inviato da Blake86

Considera che le prestazioni attuali delle consolle con i titoli che hai elencato sono nel migliore dei casi simili al pc che ho infirma con dettagli ovviamente più bassi.

Ciao
Scusa ma se ti riferisci alla tua firma attuale ( 8800GT ??? ) non sono d'accordo

Forse ti riferisci alle console di precedente generazione, non di sicuro alle attuali.

21-09-2016, 16:50	#32
CrapaDiLegno Senior Member Iscritto dal: Jan 2011 Messaggi: 3974	Guarda che raddoppiare i bit di unità FP non è uguale a raddoppiare quelle INT. La logica di gestione è completamente diversa, quindi serve molta logica aggiunta x fare l'aggregazione. AMD storicamente lo fa, e infatti i suoi chip hanno capacità DP più alte. Nvidia no (vedi descrizione precisa dell'architettura su Anandtech). Con unità di calcolo separate fai in fretta a limitare l'uso dei calcoli DP:non le abiliti tramite driver (che come con il layer di aggregazione spegnerà parte della logica che le pilota). Non so quanto sia lo spazio usato dagli shader e della cache sul totale dei mmq usati nella GPU. Se non ricordo male un tempo si parlava di 1/4 dello spazio complessivo. E questo prima che altre unità venissero inserite, come i polymorp engine e i gestori di thread. Mettiamo che gli shader occupino il 20% dello spazio, raddoppiarli significa aggiungere 1/5 dello spazio. Che vuol dire che avanza ancora spazio per cache e altro. Tieni conto che il GP100 usa un MC HBM che su ammissione di AMD è più piccolo di quello per le GDDR5. Sul GP102 hai un controller più complesso del semplice GDDR5, visto che pilota anche le GDDR5X. Facendo due rapidi conti della serva, direi che non è così impossibile che sul GP100 non vi siano unità aggiunte come nvidia ha sempre detto. L'uso di unità specializzate non è estraneo a nessun buon senso nel momento in cui queste portano maggiore efficienza. Non è un caso che avendo fatto una GPU con capacità DP pari a 1/2 FP32 abbia anche deciso di creare un chip più piccolo senza tali unità da vendere nel mondo consumer. Il mercato ora permette di vendere il chippone senza DP, quando prima invece doveva usare la piastrella per il non plus ultra. Poi mi sembra che hai un po' il dente avvelenato con nvidia per giudicare in modo razionale le cose. Il fatto che tu dica che si avvalga di mezzucci per spremerci come limoni quando è quantomeno sciocco guardando i numeri: leader incontrastata per le GPU per il calcolo professionale (non per gli amatori della domenica che il DP lo usano solo per far vedere all'amico che ce l'hanno più lungo) e con un apprezzamento di almeno 2/3 del mercato. Poi se vuoi trovare a tutti i costi dei difetti ad una architettura che rende uguale alla concorrenza usando meno risorse (incluso il consumo che in certi mercati è più importante del TFLOPS teorico in più) puoi continuare a fare digressioni sulle pipeline, la loro lunghezza e la loro efficienza senza sapere in realtà nulla di cosa c'è dentro gli SM e quanto spazio occupano rispetto a tutto il resto. Per ora il risultato è che con 610mmq e 300W non c'è nulla di meglio sul mercato. È il fratellino senza DP è incontrastato nel mercato consumer. Ed è venduto ad un prezzo che AMD può solo sognare, anche se su Vega mette HBM al grafene condito con fullerene. Perché contano i risultati, che la gente paga (anche se per te strizzati come limoni) non le sigle o i numeri sulla carta. Ultima modifica di CrapaDiLegno : 21-09-2016 alle 16:55.

21-09-2016, 18:35	#33
lucusta Bannato Iscritto dal: May 2001 Messaggi: 6246	"On the compute side, Pascal introduces a new type of FP32 CUDA core that supports a form of FP16 execution where two FP16 operations are run through the CUDA core at once (vec2). This core, which for clarity I’m going to call an FP16x2 core, allows the GPU to process 1 FP32 or 2 FP16 operations per clock cycle, essentially doubling FP16 performance relative to an identically configured Maxwell or Kepler GPU" su maxwell i 16b passavano in cuda a 16b+16 nulli, ed infatti FP16:FP32 era 1:1. "GeForce GTX 1080, on the other hand, is not faster at FP16. In fact it’s downright slow. For their consumer cards, NVIDIA has severely limited FP16 CUDA performance. GTX 1080’s FP16 instruction rate is 1/128th its FP32 instruction rate, or after you factor in vec2 packing, the resulting theoretical performance (in FLOPs) is 1/64th the FP32 rate, or about 138 GFLOPs." e sulle gaming ha limitato l'uso dei 16b ad un solo core in uso per 128, che impone un rateo prestazionale di 1/64, visto che puoi operare, con un solo cuda a 32b, 2 word 16b. e questa e' una limitazione imposta per evitare di usare schede consumer per operazioni su calcoli a 16 bit, imponendo di usare schede PRO. l'uso di una sola unità di calcolo abilitata a 16bx2 e' dovuta alla compatibilità per i software scritti in cuda, che in questo modo possono girare sia sulle PRO che sulle gaming. questo implica pero' che Pascal e' meno performante per la fisica nei giochi, dovendo usare lo schema di maxwell (1 cuda a 32b puo' elaborare 1 word a 16b), togliendo unità elaborative complete per compiere questo lavoro (con AMD invece un cluster da 16 SP, che e' l'aggregazione di 4 cluster da 4 SP, puo' calcolare 2 word a 16b, e visto che per una matrice per DX 11 ci vogliono 4 cluster da 16, basta che usi la progressione di una singola ROPs per ottenere 8 word 16b). e se avessi letto bene la recensione dell'architettura di Pascal su Anandtehc, ti saresti accorto che non viene proprio mensionato come nvidia produca computi a DP (e probabilmente perche' ai gamer boys non sarebbe interessato, visto che non ci sono ancora giochi che usano una profondità di colori a 64b). http://images.anandtech.com/doci/105...823.1469274497 http://www.3dcenter.org/dateien/abbi...Die-Shot-1.jpg ti presento GP100 e GP104 (una delle due immagini la devi ruotare di 180° ). uno ha 30 moduli, l'altra 20 moduli. se ruoti GP100 vedrai che la parte inferiore ricalca il disegno di GP104, con la sola differenza che GP100 ha la metà della caches L2 per ogni SM (totale 2MB contro 4MB, ed e' per questo che le bande che vedi tra le striscie di SM sono piu' estese). mettici altri 10 SM, 4 stack HBM, caches L3 condivisa (sulla destra). su GP104 ci sono introno 8 stack 32b per GDDR5x. se ingrandisci i singoli SM potrai vedere le vere differenze trà gli SM GP100 e GP104; essenzialmente le ALU sono identiche (la parte centrale); cambia la dimensione della parte sinistra dell'SM, che lo fa' apparire rettangolare invece che pressoche' quadrato. bene; se avessero raddoppiato le unità di calcolo, quelle ALU sarebbero state il triplo piu' estese, e tu avresti potuto virtualmente eseguire codice 32b e 64b insieme, garantendo una potenza di calcolo enorme in 32b, visto che una pipeline a 64b potrebbe essere tranquillamente usata a 2x32b, come una a 32b puo' essere usata a 2x16b... ma non e' cosi'. quella "fettina" e' il layer fisico che mette in grado di usare 2 ALU 32b come una a 64b e sono essenzialmente registri di passaggio. se avesse avuto tutti quei CUDA specializzati sarebbe stato un chip da 1000mm^2. Ultima modifica di lucusta : 22-09-2016 alle 10:19.

21-09-2016, 12:11	#22
lucusta Bannato Iscritto dal: May 2001 Messaggi: 6246	@calabar, trovo che parlare di roba che non è nemmeno sulla carta, e per giunta per sentito dire, porta solo a sprecare tempo... i 7nm non sono nemmeno in tape-out per due cellette di SDRAM, figuriamoci con chip da 18 miliardi di transistors (ossia, per me il 2018 e' una previsione assai azzardata). che poi, usando lo stesso PP, si cerchi sempre di migliorare il disegno e soprattutto eliminare errori, questo lo fanno spesso. leggevo delle APU bristol ridge (A12-9800)... ecco, quei 28nm planari sono il sunto di anni e anni di affinamenti di quel processo. se conti che le prestazioni di quell'APU io, con la serie immediatamente precedente, le ottengo con 160W, puoi capire quanto ci siano stati dietro per riuscire a minimizzare il consumo. in questo caso porto sempre l'esempio dell'Athlon XP thoroughbred A e B. a differenza di quanto trovi scritto in molti siti non differivano solo per il SOI, ma proprio per la fattezza e la disposizione dei moduli, tanto che il Thoro B aveva il 5% in piu' di superficie rispetto a Thoro A (passati da 80mm^2 a 84mm^2), ed un die con rapporti sui lati leggermente differente. modificarono il design senza modificare l'architettura (e l'alimentazione, avendo lo stesso numero di pin), e riuscirono a donare a quelle CPU un invidiabile rapporto prestazioni/consumo, oltre al fatto di riuscire a superare agevolmente la barriera dei 2.0Ghz (tanto che i primi Thoro B sovente li tiravi a 2.2-2.3Ghz, contro gli A che non andavano mai oltre i 2ghz). quindi gli affinamenti sullo stesso processo produttivo si possono sempre fare... e' diverso quello che stà facendo Intel con il Tic-Toc-Toc-Toc, perche' in quel caso, nei Toc, cambia anche, in parte, l'architettura, e i Toc comunque annoverano diverse rev di maschere (gli errori ci sono sempre).

21-09-2016, 13:44	#23
CrapaDiLegno Senior Member Iscritto dal: Jan 2011 Messaggi: 3974	Il chip Vega 10 così descritto sembra un concorrente per il GP102, non il GP104. Auguri a AMD a cercare di avere un guadagno in quel segmento con quella soluzione. @lucusta Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit? Se i valori di consumo sono corretti, forse finalmente anche AMD potrà sfornare schede competitive. SE. Visti i precedenti con notizie, rumor e poi i fatti reali, aspettetri i test prima di e saltarmi.

21-09-2016, 14:44	#29
Madcrix Senior Member Iscritto dal: Apr 2015 Messaggi: 1105	I primi del 2017 poi, 7 mesi dopo la concorrenza... Memorie HBM2, ossia costi faraonici e ricavi miserrimi a meno che non le mettano a 1000 euro e ne vendano un sacco Intanto Nvidia monta GDDR5X che costano qualche palata in meno e vende a 1200 dollari la TitanX e 700 dollari la GTX1080, con ricavi mostruosi. AMD si sta scavando la fossa esattamente come nella passata generazione, escono a mercato high end già colonizzato e devono vendere a prezzi alti con ricavi largamente inferiori alla concorrenza.

21-09-2016, 15:12	#30
CrapaDiLegno Senior Member Iscritto dal: Jan 2011 Messaggi: 3974	Ermmm... Guarda che nvidia non usa l'aggregazione di 2 unità a 32bit per fare una unità a 64bit, ma aggiunge proprio unità specializzate a 64bit in ogni SM. La loro mancanza (insieme a parte della cache e di nvlink e unità 2x16bit) è quello che differenzia il GP100 dal GP102 in termini di due size. È AMD che storicamente aggrega le unità a 32bit in modo da averne una da 64bit.E visto he questa aggregazione costa in termini di silicio e consumi, è passata da avere storicamente un ratio fp32:fp64 da 2:1 a 24:1 con l'ultima revisione di GCN (quella usata per Fiji per intenderci). Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite. Vista la storia di AMD il buon senso indica che abbia usato una unità FP32 per fare 2 operazioni 16bit contemporaneamente. Non so come tu possa fare i conti con la lunghezza delle pipeline che nessuno conosce. Ma se anche fosse che non riesce a fare 1 operazione 16bit in metà dei cicli di una a 32bit ne deriva che le capacità a 32bit sono superiori della metà, non inferiori, quindi potrebbe avere più di 12TFLOPS.

Strumenti
Mostra una versione stampabile Invia questa pagina per email