Vega 10, 11 e 20: caratteristiche tecniche presunte delle future GPU di AMD [Archivio]

Redazione di Hardware Upg

21-09-2016, 07:48

Link alla notizia: http://www.hwupgrade.it/news/skvideo/vega-10-11-e-20-caratteristiche-tecniche-presunte-delle-future-gpu-di-amd_64674.html

Il debutto della prossima generazione di schede video AMD della famiglia Radeon è previsto per i primi del 2017, con due GPU posizionate nel segmento di fascia media e top di gamma. A seguire Vega 20, con tecnologia a 7 nanometri

Click sul link per visualizzare la notizia.

fraquar

21-09-2016, 07:54

Ottimo articolo sul nulla assoluto.
Intanto ci vendono la serie 10x0 a prezzi folli per colpa di AMD che ha una sola scheda in commercio ed è anche una ciofega.

bomkill

21-09-2016, 08:16

Fammi capire, tu vuoi comprare una scheda da una ditta che sai che ti prende per il c.ulo e ti incazzi che la ditta concorrente non faccia uscire in fretta un prodotto valido ad un prezzo inferiore ,in modo da costringere chi ti sta fott.ndo attualmente di farlo con più garbo,
Siamo in un paese fantastico ho capito dove il bomba prende i voti.

fraquar

21-09-2016, 08:22

Fammi capire, tu vuoi comprare una scheda da una ditta che sai che ti prende per il c.ulo e ti incazzi che la ditta concorrente non faccia uscire in fretta un prodotto valido ad un prezzo inferiore ,in modo da costringere chi ti sta fott.ndo attualmente di farlo con più garbo,
Siamo in un paese fantastico ho capito dove il bomba prende i voti.

Infatti, GENIO, non ho comprato nessuna 10x0.
Sto aspettando o che AMD si decida a rilasciare una scheda DECENTE oppure che fallisca e quindi ci dobbiamo mettere a 90° con nvidia.

Avatar0

21-09-2016, 08:37

Fammi capire, tu vuoi comprare una scheda da una ditta che sai che ti prende per il c.ulo e ti incazzi che la ditta concorrente non faccia uscire in fretta un prodotto valido ad un prezzo inferiore ,in modo da costringere chi ti sta fott.ndo attualmente di farlo con più garbo,
Siamo in un paese fantastico ho capito dove il bomba prende i voti.

:asd: :asd: :asd:

La cosa triste è che la maggior parte della gente ragiona così.

fraquar

21-09-2016, 08:38

Ecco un'altro fenomeno che non legge.

fraquar

21-09-2016, 08:49

La mio "ciofega" va benissimo :asd:

Immagino ma io vorrei giocare con impostazioni alte a 1080p e un frame rate decente anche dopo Natale.

nickname88

21-09-2016, 08:52

Ciao
Se posso dire la mia anche io sono un po' rimasto deluso dal supporto Nvidia di queste ultime Pascal.

Però bisogna ammettere che per il momento è l'unica offerta disponibile ed è in netto vantaggio temporale.

Su AMD se ne parla addirittura nel 2017, ancora più di tre mesi come minimo, visto che ho i miei dubbi sul fatto che saran disponibili già dal 1° Gennaio.

Nvidia ha tutto il tempo per assestare prezzi, disponibilità e driver.
Io ho ordinato una 1080 EVGA SC a 680€ e vedendo trovaprezzi oramai anche i prezzi delle altre stanno scendendo tutte.

Blake86

21-09-2016, 08:57

Immagino ma io vorrei giocare con impostazioni alte a 1080p e un frame rate decente anche dopo Natale.

Quale gioco non puoi fruire a 1080p con quella ciofeca della 480.
Vorrei fare presente che in salotto ho ancora un pc di 8 anni fa, un q9550 con 8 gb di ddr2 (si, ddr2) e una hd7950 e sto giocando a 1080 p a fallout 4 maxato senza problemi di framerate. Lo stesso per the Witcher 3, non proprio maxato ma quasi sempre in full hd e senza rallentamenti.
Meno pippe mentali per favore

Blake86

21-09-2016, 09:04

:asd: :asd: :asd:

La cosa triste è che la maggior parte della gente ragiona così.

Perche questo un paese di new barbons che per non sentirsi tali devono comunque spendere in qualche cosa. Altrimenti non si spiegherebbero certi ragionamenti. Un po cone per gli iphone, 9 su 10 sono a contratto, gia costano il doppio di cosa valgono, presi cosi dopp due anni li hai pagati minimo il 30% in piu.
Chiunque se fosse veramente in grado di permetterselo se lo comprerebbe cache, a meno che non sia masochista.

lucusta

21-09-2016, 09:07

"Molto interessante il dato di potenza di elaborazione indicato per Vega 10: 24 TeraFLOPS con elaborazioni a 16bit di precisione, dal quale deriva per elaborazioni a 32bit un dato di 12 TeraFLOPS per una frequenza di clock stimata alla luce dell'architettura di 1.465 MHz. Ricordiamo come la scheda Radeon RX 480, costruita sempre con tecnologia produttiva a 14 nanometri, operi ad una frequenza di clock massima di default pari a 1.266 MHz."

non hanno rateo 2:1, come non c'e' rateo 2:1 per i 64b, come invece c'e' in maxwell e pascal.
funzionano in modo diverso in aggregazione CU.
24TF a 16b diventano circa 10TF a 32b e circa 625GF a 64b, e con i 16b nei giochi moderni ci fai solo la fisica semplice...

in piu' parlano di 512GB/s di memory bandwitdh con 16GB di HBM.
già fosse solo 512GB/s ne basterebbero 8GB per la potenza computazionale espressa nei giochi da 64CU, ma poi le HBM che useranno potranno essere da 350mhz o 500mhz, da 1 o 2 GB a stack, quindi si parla effettivamente di 8 o 16GB di capacità ma di 720GB/s o 1TB/s di velocità, ed una scheda per videogiochi da 1TB/s e 16GB non serve a nulla, nemmeno in VR a 4K, e 490 non potrà eseguire, con 64 CU a circa 1.2Ghz di base clock, un 4K @60FPS con tutto al massimo, forse nemmeno in DX12...
quindi perche' farla? per costare di piu'?
64CU, 24TF 16b, 1TB/s per 16GB servono in ben altri ambienti.
e' il miscuglio di alcune info tra' gaming e PRO.

Titan X e' "costretta" ad avere 12GB di RAM, per il fatto che gli serve banda memoria (384GB/s); e diminuire il quantitativo di ram usando comunque 12 chip.. 6GB? meno di una 1070?
poi, logico, se c'e' piu' ram si usa, ma questo non implica che e' necessario tutto quel quantitativo con i giochi attuali e futuri, almeno finchè quella scheda rimane l'espressione massima dell'HW da gaming.

con piu' del doppio della velocità della ram e solo il 20% in piu' di potenza assoluta di capacità computazionale (e difficilmente tutta sfruttabile, come ben risaputo) rispetto a gtx 1080, a che servirebbero 16GB di ram?

torgianf

21-09-2016, 09:13

Fammi capire, tu vuoi comprare una scheda da una ditta che sai che ti prende per il c.ulo e ti incazzi che la ditta concorrente non faccia uscire in fretta un prodotto valido ad un prezzo inferiore ,in modo da costringere chi ti sta fott.ndo attualmente di farlo con più garbo,
Siamo in un paese fantastico ho capito dove il bomba prende i voti.

ti stimo troppo, sono 2 ore che rido http://forum.multiplayer.it/images/faccine/rotfl.gif

nickname88

21-09-2016, 09:17

Quale gioco non puoi fruire a 1080p con quella ciofeca della 480.
Vorrei fare presente che in salotto ho ancora un pc di 8 anni fa, un q9550 con 8 gb di ddr2 (si, ddr2) e una hd7950 e sto giocando a 1080 p a fallout 4 maxato senza problemi di framerate. Lo stesso per the Witcher 3, non proprio maxato ma quasi sempre in full hd e senza rallentamenti.
Meno pippe mentali per favore
Quoto in parte, però parliamoci chiaro, anche a 1080p una RX480 non tiene i 60fps costanti su determinati titoli attuali ( se non scendendo a compromessi ) figurati per i prossimi.

Io avevo una 980 e in TW3 senza il pure hair e con HBAO ridotto i problemi di frame rate c'erano in determinati luoghi ed era innegabile, così come in Dragon Age Origins, in The Division, in GTA e stentava sia con Far Cry Primal che con Hitman.

Korn

21-09-2016, 09:28

si ma se son titoli programmati a pene di segugio puoi farti anche un sli di titan x e avrai lo stesso cali di framerate

RealB33rM4n

21-09-2016, 09:31

"Per questa scheda ci si attende un livello di consumo, espresso quale TDP, pari a 225 Watt quindi allineato a quello della scheda NVIDIA Titan X."

Mi sa che avete fatto un errore io ho letto in tutte le testate inglesi questo: "It is mentioned that total board power (not TDP) sits at 225 Watt. Vega 10 should hold HBM2 memory and that's the culprit...."
o anche: AMD is looking at typical board power (TBP) ratings around 225W

Che non sono proprio la stessa cosa :)

calabar

21-09-2016, 09:33

A me sembrano voci completamente campate in aria.
Che senso avrebbe sostituire Polaris 10 già ora? Avrebbero potuto concentrare le risorse di ricerca e sviluppo molto meglio.
Che senso ha parlare di 7nm, che sono lontani anni? A quel punto non ci sarebbe più Vega, ma una qualche sua evoluzione o un'architettura differente.

In passato si parlava di un Vega grande (4000 SP circa, come Fiji, ma migliorata e a 14nm) e un Vega molto grande (6000sp?) con target che immagino dipenderà dalla resa reale del chip.

@Blake86 @Locusta
Dai però un po' di attenzione, se usate termini inglesi fate attenzione ad usare quelli corretti. ;)
cache -> cash (o meglio, in italiano, "in contanti")
rateo -> ratio (o meglio, in italiano, "rapporto" o "proporzione")
Altrimenti si fa proprio quella figura li di quelli che vorrebbero... ma non possono.

nickname88

21-09-2016, 09:39

si ma se son titoli programmati a pene di segugio puoi farti anche un sli di titan x e avrai lo stesso cali di framerate
Si però considera che è da sempre che il giocatore PC deve adattare la macchina al titolo e non viceversa.

Trascurare il singolo titolo di turno mal-ottimizzato è un conto, ma se sappiamo che quasi tutti i titoli in media tendono a peccare da questo punto di vista, trovo giusto adeguarmi se voglio avere la qualità che cerco, specie se vi sono molti titoli che a me piacciono su quel piano.

Sennò ci ritroveremmo a non giocare a nulla.

The_Hypersonic

21-09-2016, 09:43

Inizierò a leggere questi articoli quando ci saranno cose REALI di cui parlare. Qui, per l'ennesima volta, si legge solo ed esclusivamente di ipotesi future di GPU 2017. Idem per ZEN. Fortunatamente posso ancora attendere qualche mese, prima di rinnovare il parco macchine, altrimenti avrei già fatto tutto su INTEL-NVIDIA. Confido in AMD.

lucusta

21-09-2016, 09:52

@calabar
grazie per la correzione (del tutto superflua http://www.treccani.it/enciclopedia/rateo_(Dizionario-delle-Scienze-Fisiche)/ ), ma quando lo fai cerca almeno di scrivere nel modo corretto il mio alias...

ridisegnare un chip per ottenere migliori prestazioni non significa sconvolgerne l'architettura.
i chip di oggi sono modulari, e ridisegnare o ricollocare moduli che possono permettere una migliore costruzione o inferiori perdite è una cosa che tutti fanno.
nvidia ha fatto maxwell 1 e 2 (e non intendo dire che pascal e' maxwell 2, ma proprio che esistono 2 chip differenti di maxwell), AMD lo ha sempre fatto, anche sulle CPU, ed anche intel, ha piu' rev di chip sulla stessa architettura...
quindi se con Vega, avendo avuto piu' tempo per studiare nuove soluzioni, hanno riadattato alcuni moduli e si sono accorti che portavano sufficiente ventaggi, basta rifare le maschere e li otterrai anche in polaris 10.

calabar

21-09-2016, 10:10

@lucusta
Oops pardon, di solito faccio copia-incolla, stavolta il doppio riferimento mi ha fregato.

Per quanto riguarda Vega a 7nm, intendevo dire che è così in la nel tempo che molto probabilmente non si parlerà più di Vega, ma di qualche altro chip (che potrebbe essere un Vega evoluto o persino un cambio totale di architettura, meno probabilme a mio parere ma possibile).

Per quanto riguarda il Vega "piccolo", il problema non è lo sviluppo in se, ma le fasi che precedono la produzione, che sono molto costose.
Nella situazione in cui si trova AMD non avrebbe molto senso sprecare risorse per due chip con lo stesso target prestazionale e così vicini nel tempo.

Blake86

21-09-2016, 10:43

Quoto in parte, però parliamoci chiaro, anche a 1080p una RX480 non tiene i 60fps costanti su determinati titoli attuali ( se non scendendo a compromessi ) figurati per i prossimi.

Io avevo una 980 e in TW3 senza il pure hair e con HBAO ridotto i problemi di frame rate c'erano in determinati luoghi ed era innegabile, così come in Dragon Age Origins, in The Division, in GTA e stentava sia con Far Cry Primal che con Hitman.

Considera che le prestazioni attuali delle consolle con i titoli che hai elencato sono nel migliore dei casi simili al pc che ho infirma con dettagli ovviamente più bassi.

lucusta

21-09-2016, 11:11

@calabar,
trovo che parlare di roba che non è nemmeno sulla carta, e per giunta per sentito dire, porta solo a sprecare tempo...
i 7nm non sono nemmeno in tape-out per due cellette di SDRAM, figuriamoci con chip da 18 miliardi di transistors (ossia, per me il 2018 e' una previsione assai azzardata).

che poi, usando lo stesso PP, si cerchi sempre di migliorare il disegno e soprattutto eliminare errori, questo lo fanno spesso.
leggevo delle APU bristol ridge (A12-9800)...
ecco, quei 28nm planari sono il sunto di anni e anni di affinamenti di quel processo.
se conti che le prestazioni di quell'APU io, con la serie immediatamente precedente, le ottengo con 160W, puoi capire quanto ci siano stati dietro per riuscire a minimizzare il consumo.

in questo caso porto sempre l'esempio dell'Athlon XP thoroughbred A e B.
a differenza di quanto trovi scritto in molti siti non differivano solo per il SOI, ma proprio per la fattezza e la disposizione dei moduli, tanto che il Thoro B aveva il 5% in piu' di superficie rispetto a Thoro A (passati da 80mm^2 a 84mm^2), ed un die con rapporti sui lati leggermente differente.
modificarono il design senza modificare l'architettura (e l'alimentazione, avendo lo stesso numero di pin), e riuscirono a donare a quelle CPU un invidiabile rapporto prestazioni/consumo, oltre al fatto di riuscire a superare agevolmente la barriera dei 2.0Ghz (tanto che i primi Thoro B sovente li tiravi a 2.2-2.3Ghz, contro gli A che non andavano mai oltre i 2ghz).

quindi gli affinamenti sullo stesso processo produttivo si possono sempre fare...
e' diverso quello che stà facendo Intel con il Tic-Toc-Toc-Toc, perche' in quel caso, nei Toc, cambia anche, in parte, l'architettura, e i Toc comunque annoverano diverse rev di maschere (gli errori ci sono sempre).

CrapaDiLegno

21-09-2016, 12:44

Il chip Vega 10 così descritto sembra un concorrente per il GP102, non il GP104.
Auguri a AMD a cercare di avere un guadagno in quel segmento con quella soluzione.

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

Se i valori di consumo sono corretti, forse finalmente anche AMD potrà sfornare schede competitive. SE. Visti i precedenti con notizie, rumor e poi i fatti reali, aspettetri i test prima di e saltarmi.

Blake86

21-09-2016, 12:45

A me sembrano voci completamente campate in aria.
Che senso avrebbe sostituire Polaris 10 già ora? Avrebbero potuto concentrare le risorse di ricerca e sviluppo molto meglio.
Che senso ha parlare di 7nm, che sono lontani anni? A quel punto non ci sarebbe più Vega, ma una qualche sua evoluzione o un'architettura differente.

In passato si parlava di un Vega grande (4000 SP circa, come Fiji, ma migliorata e a 14nm) e un Vega molto grande (6000sp?) con target che immagino dipenderà dalla resa reale del chip.

@Blake86 @Locusta
Dai però un po' di attenzione, se usate termini inglesi fate attenzione ad usare quelli corretti. ;)
cache -> cash (o meglio, in italiano, "in contanti")
rateo -> ratio (o meglio, in italiano, "rapporto" o "proporzione")
Altrimenti si fa proprio quella figura li di quelli che vorrebbero... ma non possono.

Era proprio voluto perché i loro portafogli si svuotano proprio come la cache della cpu quando spegni il computer

:mc:

al135

21-09-2016, 12:59

Ecco un'altro fenomeno che non legge.

ma tu stai ancora a leggere i commenti di questi cespi da forum? :asd:
no non hanno capito un cazzo di quello che hai scritto e fidati che anche se glielo spiegassi bene non capirebbero lo stesso. :D

ps: purtroppo la penso pure io cosi, speriamo in una competizione accanita per i prezzi :)

AceGranger

21-09-2016, 13:01

Il chip Vega 10 così descritto sembra un concorrente per il GP102, non il GP104.
Auguri a AMD a cercare di avere un guadagno in quel segmento con quella soluzione.

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

Se i valori di consumo sono corretti, forse finalmente anche AMD potrà sfornare schede competitive. SE. Visti i precedenti con notizie, rumor e poi i fatti reali, aspettetri i test prima di e saltarmi.

mmm no, cosi descritto sembrerebbe proprio un concorrente del GP104 a meno che non operino un cambio di architettura, perchè i TFlops di AMD si tramutano sempre in meno fps....

GTX 1060 - 3.85 TFLOPs
GTX 1070 - 5.7 TFLOPs
RX480 - 5.1 TFLOPs

guardando i TFLOPs la 480 dovrebbe andare poco meno della 1070 e molto di piu della 1060 e invece va il 50% in meno della prima e uguale alla seconda; se rimarra l'attuale architettura, non credo che con quei valori riusciranno a raggiungere la TitanX; poi magari ci riusciranno, pero credo dovremo aspettare almeno Novembre/Dicembre per qualche cosa di piu veritiero.

matteo1

21-09-2016, 13:26

Ottimo articolo sul nulla assoluto.
Intanto ci vendono la serie 10x0 a prezzi folli per colpa di AMD che ha una sola scheda in commercio ed è anche una ciofega.

in realtà nvidia vende le sue schede a prezzi folli sin da almeno il 2000 epoca in cui era uscita la prima gforce ddr che nei negozi fisici del tempo (store online non credo esistessero, visto che la maggior parte delle persone che navigavano avevano la 56k ) costava la bellezza di 1 milione- 1 milione e due ;) e allora matrox, ati e compagnia bella non avevano nulla che nemmeno si avvicinasse; tenendo conto di 15 anni di inflazione direi che i 650€ per la 1080 non sono nemmeno "troppi" in proporzione.
La 480 poi una ciofeca non lo è, certo i 60 fps stabili su tutto in fhd non li fa, ma la fluidità c'è anche a 40 :read:. Per me è un'ottima scheda, aspetto solo che arrivi a 250, poi tra 2-3 anni si può sempre rivenderla e prendere quella che allora sarà una sua sostituta spendendo sempre una cifra simile e stando sempre sotto alla spesa che oggi si affronta per la 1080. imho.

lucusta

21-09-2016, 13:27

@lucusta
Per quale oscuro motivo le elaborazioni a 16bit non dovrebbero essere il doppio di quelle a 32bit?

non e' oscuro, e' dovuto ad una semplificazione dei vecchi disegni.
prima, sulle PRO, si usavano pipeline a 64b per i calcoli a doppia precisione, e sulle Gaming si disabilitava la possibilità di usare una profondità di calcolo a 64b, via software.
risultava che comunque avevi un rapporto 1:1 trà 64 e 32 (o 16 bit), ma anche un'enorme spreco di spazio, dovendo praticamente inutilizzare mezzo chip.

oggi invece si usano layer di aggregazione per produrre l'estensione FP.
nvidia ha pipeline a 32b, e ne accoppia 2 per farne una a 64b;
in questo modo riesce a fare il doppio dei calcoli a 32b;
a 16b puo' pero' concatenare due parole per farne diventare una a 32b, e quindi raggiunge comunque un rapporto 16:32:64 -> 4:2:1.

AMD invece ha pipeline corte e non estese, e per produrre una pipeline sufficientemente lunga ed estesa deve utilizzare ben 10 delle sue normali pipeline; l'allungamento di pipeline comporta pero' anche l'azione di storage e carico sulla sub-pipeline successiva, che porta ad overload di calcolo.
quindi dai 32b ai 64b perde 16 volte sul computo.
sui 16b con polaris hanno cambiato un po' di cose, ed anche sul modo di unire 2 pipeline per ottenerne una piu' lunga (tanto che un cluster da 16, composto da 4 sub-pipeline non ha overload, ed e' anche la ragione per cui guadagna in DX11 rispetto a tonga ed enormemente rispetto ad hawaii); sta' di fatto che un calcolo a 16b non lo esegue nella metà del tempo di uno a 32b, ma in un tempo inferiore, dovuto appunto alla minimizzazione dell'overload.

quindi il rateo 16:32:64 per polaris dovrebbe essere (circa 38) : (circa 16) : 1 o meglio 2.4:1:1/16 se visto in rapporto ai 32b.

nessuna delle due case utilizza piu' strutture architetturali rigide da circa 5 o 6 generazioni.

quindi vega e' già tanto che abbia 10TF 32b (usato nei giochi), che poi dev'essere visto in ottica di efficienza su DX11 e su DX12 (HSA e 16b per le PRO).
se vuoi che un HW possa operare al meglio in diverse situazioni, devi anche far in modo che sia flessibile, e oggi si gioca su questa flessibilità.

Madcrix

21-09-2016, 13:44

I primi del 2017 poi, 7 mesi dopo la concorrenza...

Memorie HBM2, ossia costi faraonici e ricavi miserrimi a meno che non le mettano a 1000 euro e ne vendano un sacco :asd:

Intanto Nvidia monta GDDR5X che costano qualche palata in meno e vende a 1200 dollari la TitanX e 700 dollari la GTX1080, con ricavi mostruosi.

AMD si sta scavando la fossa esattamente come nella passata generazione, escono a mercato high end già colonizzato e devono vendere a prezzi alti con ricavi largamente inferiori alla concorrenza.

CrapaDiLegno

21-09-2016, 14:12

Ermmm... Guarda che nvidia non usa l'aggregazione di 2 unità a 32bit per fare una unità a 64bit, ma aggiunge proprio unità specializzate a 64bit in ogni SM. La loro mancanza (insieme a parte della cache e di nvlink e unità 2x16bit) è quello che differenzia il GP100 dal GP102 in termini di due size.

È AMD che storicamente aggrega le unità a 32bit in modo da averne una da 64bit.E visto he questa aggregazione costa in termini di silicio e consumi, è passata da avere storicamente un ratio fp32:fp64 da 2:1 a 24:1 con l'ultima revisione di GCN (quella usata per Fiji per intenderci).

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.
Vista la storia di AMD il buon senso indica che abbia usato una unità FP32 per fare 2 operazioni 16bit contemporaneamente.
Non so come tu possa fare i conti con la lunghezza delle pipeline che nessuno conosce.
Ma se anche fosse che non riesce a fare 1 operazione 16bit in metà dei cicli di una a 32bit ne deriva che le capacità a 32bit sono superiori della metà, non inferiori, quindi potrebbe avere più di 12TFLOPS.

lucusta

21-09-2016, 15:04

Ermmm... Guarda che nvidia non usa l'aggregazione di 2 unità a 32bit per fare una unità a 64bit, ma aggiunge proprio unità specializzate a 64bit in ogni SM. La loro mancanza (insieme a parte della cache e di nvlink e unità 2x16bit) è quello che differenzia il GP100 dal GP102 in termini di due size.

È AMD che storicamente aggrega le unità a 32bit in modo da averne una da 64bit.E visto he questa aggregazione costa in termini di silicio e consumi, è passata da avere storicamente un ratio fp32:fp64 da 2:1 a 24:1 con l'ultima revisione di GCN (quella usata per Fiji per intenderci).

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.
Vista la storia di AMD il buon senso indica che abbia usato una unità FP32 per fare 2 operazioni 16bit contemporaneamente.
Non so come tu possa fare i conti con la lunghezza delle pipeline che nessuno conosce.
Ma se anche fosse che non riesce a fare 1 operazione 16bit in metà dei cicli di una a 32bit ne deriva che le capacità a 32bit sono superiori della metà, non inferiori, quindi potrebbe avere più di 12TFLOPS.

GP102 e' da 471mm^2, GP100 da 610mm^2;
GP102 ha 12 miliardi di transistors, GP100 ne ha 15.3;
GP102 ha 3MB di caches condivisa, GP100 ne ha 14MB.

e tu mi dici che con SOLI (e ti ripeto SOLI, visto che GP106 ha 1280 cuda ed e' grande circa 200mm^2) 139mm^2 e 3.3 miliardi di transistors in piu' nvidia riesce ad aggiungere 11MB di caches ed in piu' anche 1792 Units a 64b (che per superficie occupano minimo il doppio di una a 32b e che questi chip sono praticamente solo pipeline di calcolo);
se fosse cosi' gli converrebbe fare solo unità a 64b, visto che gli costano cosi' pochi transistors, ed usarli alla vecchia maniera, ossia a 32b su 64b, avendo rateo 1:1:1 per 16:32:64.
nvidia aggrega i CUDA con layer logico/fisico, e fa' diventare 2 da 32 una da 64b, ed e' quasi inutile dirlo, per quanto e' intuitiva e' la questione.

se t'interessa sapere per quale meschino motivo faccia un'operazione del genere, invece di usare direttamente unità a 64b e andare di aggregazione di word, e' perche' diversamente non potrebbe limitare l'uso delle schede a 32 o 64b, e differenziarle in gaming e PRO.
infatti nessuno ti puo' impedire di usare una nvidia gaming per computi a 16 bit, perche' non converrebbe a nvidia interporre layer fisico di aggregazione per pipeline cosi' poco estese e produrre cosi' x2 i 32b e x4 i 64b;
se ne andrebbe via piu' spazio per i layer che per le pipeline.
(perche', di per se, quel layer non serve a nulla se non a impedirti, quando disabilitato, di usare la scheda a 64 bit).

e' solo un'altro modo per far pagare i propri clienti e spemerli come limoni.

ed io, i conti, li so' fare, perche' se c'e' perdita di lavoro per overload da 16 a 32, a questo punto i DP di AMD sarebbe ben piu' della meta' del SP.

Per quanto riguarda la questione fp16, anche qui nvidia non ha fatto alcuna aggregazione ma ha aggiunto unità di calcolo 2x16bit apposite.

e aggiungici anche unità a 8 bit, visto che ci sei!!
ma quanta robba inutile vuoi ancora mettere in quei chip?
in ambito professionale o usi un tipo di precisione, o usi un altro tipo di precisione; non li puoi mischiare e se un cluster di calcolo deve fare un determinato lavoro prendi HW che faccia esplicitamente quel lavoro.
Quindi e' totalmente inutile replicare unità che non verranno usate mai... spazio e transistors inutili.
sui giochi al massimo usi i 16 bit per la fisica, oltre i 32 per il calcolo del colore (perche' io giochi a 16 bit di colore non li vedo da una vita).
quindi quello che dici e' estraneo ad ogni logica attualmente usata e sarebbe anche stupido (se non hai fondati e meschini propositi) farlo.

CrapaDiLegno

21-09-2016, 15:50

Guarda che raddoppiare i bit di unità FP non è uguale a raddoppiare quelle INT. La logica di gestione è completamente diversa, quindi serve molta logica aggiunta x fare l'aggregazione.
AMD storicamente lo fa, e infatti i suoi chip hanno capacità DP più alte. Nvidia no (vedi descrizione precisa dell'architettura su Anandtech).
Con unità di calcolo separate fai in fretta a limitare l'uso dei calcoli DP:non le abiliti tramite driver (che come con il layer di aggregazione spegnerà parte della logica che le pilota).
Non so quanto sia lo spazio usato dagli shader e della cache sul totale dei mmq usati nella GPU. Se non ricordo male un tempo si parlava di 1/4 dello spazio complessivo. E questo prima che altre unità venissero inserite, come i polymorp engine e i gestori di thread.
Mettiamo che gli shader occupino il 20% dello spazio, raddoppiarli significa aggiungere 1/5 dello spazio. Che vuol dire che avanza ancora spazio per cache e altro.
Tieni conto che il GP100 usa un MC HBM che su ammissione di AMD è più piccolo di quello per le GDDR5. Sul GP102 hai un controller più complesso del semplice GDDR5, visto che pilota anche le GDDR5X.
Facendo due rapidi conti della serva, direi che non è così impossibile che sul GP100 non vi siano unità aggiunte come nvidia ha sempre detto.
L'uso di unità specializzate non è estraneo a nessun buon senso nel momento in cui queste portano maggiore efficienza.
Non è un caso che avendo fatto una GPU con capacità DP pari a 1/2 FP32 abbia anche deciso di creare un chip più piccolo senza tali unità da vendere nel mondo consumer.
Il mercato ora permette di vendere il chippone senza DP, quando prima invece doveva usare la piastrella per il non plus ultra.

Poi mi sembra che hai un po' il dente avvelenato con nvidia per giudicare in modo razionale le cose.
Il fatto che tu dica che si avvalga di mezzucci per spremerci come limoni quando è quantomeno sciocco guardando i numeri: leader incontrastata per le GPU per il calcolo professionale (non per gli amatori della domenica che il DP lo usano solo per far vedere all'amico che ce l'hanno più lungo) e con un apprezzamento di almeno 2/3 del mercato.

Poi se vuoi trovare a tutti i costi dei difetti ad una architettura che rende uguale alla concorrenza usando meno risorse (incluso il consumo che in certi mercati è più importante del TFLOPS teorico in più) puoi continuare a fare digressioni sulle pipeline, la loro lunghezza e la loro efficienza senza sapere in realtà nulla di cosa c'è dentro gli SM e quanto spazio occupano rispetto a tutto il resto.

Per ora il risultato è che con 610mmq e 300W non c'è nulla di meglio sul mercato.
È il fratellino senza DP è incontrastato nel mercato consumer. Ed è venduto ad un prezzo che AMD può solo sognare, anche se su Vega mette HBM al grafene condito con fullerene.
Perché contano i risultati, che la gente paga (anche se per te strizzati come limoni) non le sigle o i numeri sulla carta.

lucusta

21-09-2016, 17:35

"On the compute side, Pascal introduces a new type of FP32 CUDA core that supports a form of FP16 execution where two FP16 operations are run through the CUDA core at once (vec2). This core, which for clarity I’m going to call an FP16x2 core, allows the GPU to process 1 FP32 or 2 FP16 operations per clock cycle, essentially doubling FP16 performance relative to an identically configured Maxwell or Kepler GPU"

su maxwell i 16b passavano in cuda a 16b+16 nulli, ed infatti FP16:FP32 era 1:1.

"GeForce GTX 1080, on the other hand, is not faster at FP16. In fact it’s downright slow. For their consumer cards, NVIDIA has severely limited FP16 CUDA performance. GTX 1080’s FP16 instruction rate is 1/128th its FP32 instruction rate, or after you factor in vec2 packing, the resulting theoretical performance (in FLOPs) is 1/64th the FP32 rate, or about 138 GFLOPs."

e sulle gaming ha limitato l'uso dei 16b ad un solo core in uso per 128, che impone un rateo prestazionale di 1/64, visto che puoi operare, con un solo cuda a 32b, 2 word 16b.
e questa e' una limitazione imposta per evitare di usare schede consumer per operazioni su calcoli a 16 bit, imponendo di usare schede PRO.
l'uso di una sola unità di calcolo abilitata a 16bx2 e' dovuta alla compatibilità per i software scritti in cuda, che in questo modo possono girare sia sulle PRO che sulle gaming.

questo implica pero' che Pascal e' meno performante per la fisica nei giochi, dovendo usare lo schema di maxwell (1 cuda a 32b puo' elaborare 1 word a 16b), togliendo unità elaborative complete per compiere questo lavoro (con AMD invece un cluster da 16 SP, che e' l'aggregazione di 4 cluster da 4 SP, puo' calcolare 2 word a 16b, e visto che per una matrice per DX 11 ci vogliono 4 cluster da 16, basta che usi la progressione di una singola ROPs per ottenere 8 word 16b).

e se avessi letto bene la recensione dell'architettura di Pascal su Anandtehc, ti saresti accorto che non viene proprio mensionato come nvidia produca computi a DP (e probabilmente perche' ai gamer boys non sarebbe interessato, visto che non ci sono ancora giochi che usano una profondità di colori a 64b).
http://images.anandtech.com/doci/10588/GP100Die.png?_ga=1.227456341.999230823.1469274497
http://www.3dcenter.org/dateien/abbildungen/nVidia-GP104-Die-Shot-1.jpg
ti presento GP100 e GP104 (una delle due immagini la devi ruotare di 180° ).
uno ha 30 moduli, l'altra 20 moduli.
se ruoti GP100 vedrai che la parte inferiore ricalca il disegno di GP104, con la sola differenza che GP100 ha la metà della caches L2 per ogni SM (totale 2MB contro 4MB, ed e' per questo che le bande che vedi tra le striscie di SM sono piu' estese).
mettici altri 10 SM, 4 stack HBM, caches L3 condivisa (sulla destra).
su GP104 ci sono introno 8 stack 32b per GDDR5x.
se ingrandisci i singoli SM potrai vedere le vere differenze trà gli SM GP100 e GP104;
essenzialmente le ALU sono identiche (la parte centrale); cambia la dimensione della parte sinistra dell'SM, che lo fa' apparire rettangolare invece che pressoche' quadrato.
bene; se avessero raddoppiato le unità di calcolo, quelle ALU sarebbero state il triplo piu' estese, e tu avresti potuto virtualmente eseguire codice 32b e 64b insieme, garantendo una potenza di calcolo enorme in 32b, visto che una pipeline a 64b potrebbe essere tranquillamente usata a 2x32b, come una a 32b puo' essere usata a 2x16b... ma non e' cosi'.
quella "fettina" e' il layer fisico che mette in grado di usare 2 ALU 32b come una a 64b e sono essenzialmente registri di passaggio.
se avesse avuto tutti quei CUDA specializzati sarebbe stato un chip da 1000mm^2.

nickname88

22-09-2016, 11:06

Considera che le prestazioni attuali delle consolle con i titoli che hai elencato sono nel migliore dei casi simili al pc che ho infirma con dettagli ovviamente più bassi.
Ciao
Scusa ma se ti riferisci alla tua firma attuale ( 8800GT ??? ) non sono d'accordo :stordita:
Forse ti riferisci alle console di precedente generazione, non di sicuro alle attuali.