[THREAD UFFICIALE] Aspettando Nvidia GTX 480 e GTX 470 - Pagina 408

halduemilauno · 24-11-2009, 10:51

Quote:

Originariamente inviato da Andrea deluxe

drammatica la differenza in double precision.....

io penso che nvidia tramite driver riesca ad usare quella potenza bruta in comandi single precision....

illuminatemi.

molto + drammatico che un 708 stia appena del 25% sotto rispetto a un 2720. semper fidelis ehm sempre in attesa di tutti i riscontri del caso.

Andrea deluxe · 24-11-2009, 10:52

Quote:

Originariamente inviato da halduemilauno

molto + drammatico che un 708 stia appena del 25% sotto rispetto a un 2720. semper fidelis ehm sempre in attesa di tutti i riscontri del caso.

in effetti....

yoss che ne pensi?

devAngnew · 24-11-2009, 10:52

Quote:

Originariamente inviato da yossarian

e questo va fatto per ogni singola istruzione e non una tantum, come ho detot in precedenza: il che significa che per ogni istruzione perdi un certo numero di cicli. Che ciò avvenga prima che parta l'esecuzione dello shader, quando le istruzioni sono ancora in coda all'interno del buffer o in runtime non cambia una cippa

IMO cambia e come perchè una cosa è interpretare una MADD a runtime come mi sembra di aver capito dalle tue risposte un' altra è fare una compilazione una volta per tutte dello shader (quindi sostituzione MADD con FMA e compilazione finale).

yossarian · 24-11-2009, 10:54

Quote:

Originariamente inviato da Andrea deluxe

drammatica la differenza in double precision.....

io penso che nvidia tramite driver riesca ad usare quella potenza bruta in comandi single precision....

illuminatemi.

hai le idee un po' confuse, mi pare

il chip o lavora in sp o in dp; non può fare l'una e l'altra cosa contemporaneamente. Quindi non può aviluppare un potenziale teorico di 1,74 Tflops in sp e utilizzare, contemporaneamente, altre 870 Gflops per fare altro. In GT300 non ci sono alu dedicate alla dp ma sono le stesse alu che lavorano in sp che, accoppiate a due a due, eseguono calcoli in dp.
Detto questo, i 1700 MHz sono speculazioni (speranze?) di Rys. L'unico dato di fatto è che le frequenze della serie testla sono più basse di quanto ci si aspettava, il che non depone bene neppure per le geforce, da questo punto di vista. Inoltre, resta l'incognita delle madd e di come saranno eseguite. Saranno sostituite da fma? Forse, se sarà possibile e, comunque, la cosa non avverrà in maniera indolore (cicli persi e impossibilità di effetuare sempre la sostituzione). Se consideri le sole madd, anche ammettendo i 1700 MHz, avresti solo 870 Gflops per fermi in fp32.

yossarian · 24-11-2009, 10:56

Quote:

Originariamente inviato da devAngnew

IMO cambia e come perchè una cosa è interpretare una MADD a runtime come mi sembra di aver capito dalle tue risposte un' altra è fare una compilazione una volta per tutte dello shader (quindi sostituzione MADD con FMA e compilazione finale).

il numero di cicli perso è sempre lo stesso perchè le istruzioni vanno valutate sempre una per una. Che questi cicli li perda all'inizio, prima che parta l'elaborazione, oppure durante la stessa cambia poco o nulla. Anzi, forse sarebbe meglio in runtime per cercare di mascherare almeno in minima parte le latenze (se è possibile) con il multithraeding.
Inoltre, non è detto che ciò avverrà e, sicuramente, non avverrà in tutti i casi (continui a non tener conto della propagazione degli errori per shader più lunghi e le dx11 prevedono shader molto lunghi)

Andrea deluxe · 24-11-2009, 10:56

quindi pensi sia impossibile far lavorare in double precision la gpu eseguendo grafica?

Foglia Morta · 24-11-2009, 10:59

Quote:

Originariamente inviato da yossarian

hai le idee un po' confuse, mi pare

il chip o lavora in sp o in dp; non può fare l'una e l'altra cosa contemporaneamente. Quindi non può aviluppare un potenziale teorico di 1,74 Tflops in sp e utilizzare, contemporaneamente, altre 870 Gflops per fare altro. In GT300 non ci sono alu dedicate alla dp ma sono le stesse alu che lavorano in sp che, accoppiate a due a due, eseguono calcoli in dp.
Detto questo, i 1700 MHz sono speculazioni (speranze?) di Rys. L'unico dato di fatto è che le frequenze della serie testla sono più basse di quanto ci si aspettava, il che non depone bene neppure per le geforce, da questo punto di vista. Inoltre, resta l'incognita delle madd e di come saranno eseguite. Saranno sostituite da fma? Forse, se sarà possibile e, comunque, la cosa non avverrà in maniera indolore (cicli persi e impossibilità di effetuare sempre la sostituzione). Se consideri le sole madd, anche ammettendo i 1700 MHz, avresti solo 870 Gflops per fermi in fp32.

Aspetta... nell' articolo di TechReport mi pare di aver letto che ogni cluster di 32 ALU è composto da 2 blocchi di 16 ALU ciascuno, un blocco fp32 e un blocco fp64 ( sarà utile per ottenere le gpu derivate con die size decente , eliminando le ALU fp64 ). Non porta nessun cambiamento a quanto intendevi chiarire però mi pare sia così

yossarian · 24-11-2009, 11:00

Quote:

Originariamente inviato da halduemilauno

molto + drammatico che un 708 stia appena del 25% sotto rispetto a un 2720. semper fidelis ehm sempre in attesa di tutti i riscontri del caso.

Quote:

Originariamente inviato da Andrea deluxe

in effetti....

yoss che ne pensi?

che quel 708 sta molto sotto al 2720 salvo il caso di esecuzione di codice stravecchio e ottimizzato per le geforce. Evidentemente hal dimentica che con AC in dx10.1 la gtx 280 andava meno della 4850

halduemilauno · 24-11-2009, 11:00

Quote:

Originariamente inviato da Andrea deluxe

in effetti....

yoss che ne pensi?

architetture diverse. è sempre stato cosi(o cmq da molto tempo) che Nvidia nonostante valori ben inferiori era superiore alla concorrenza. e credo che questo sia il dato + importante non quanto la comparazione tra le due case ma tra le due schede ovvero la GTX285 e la GTX380(chiamiamola cosi). se in quell'articolo si citano 1700 chissa può essere altri dicono altro e quindi, non ci rimane che rimanere in attesa di tutti i riscontri del caso.

okorop · 24-11-2009, 11:01

Quote:

Originariamente inviato da Psyco89

è troppo forte sulla carta, difficile che non sia competitiva.

r600 mi ricorda qualcosa

Psyco89 · 24-11-2009, 11:03

bè in effetti la cosa era uguale anche con RV770 e GT200 anzi mi sa che ATi era meglio anche in DP eppure contro una GTX 285 le 48xx le prendevano.

ATi sembra che abbia fatto la moltiplicazione di 2 sui dati della 4890 nulla di più.
sia SP che DP sembrano solo la moltiplicazione di 2 della 4980.

Bè Nvidia invece sembra salire oltre il raddoppio, sia in SP che in DP, anche così comè adesso sembrerebbe poter battere ATi senza troppi problemi.

Il fatto non potrebbero essere i colli di bottigli della banda o dei registri interni, magari anche cache e roba varia ?

Psyco89 · 24-11-2009, 11:06

Quote:

Originariamente inviato da okorop

r600 mi ricorda qualcosa

Non è vero, R600 la cosa che impressionava di più erano gli stream che noi tutti pensavamo come gli stream di nvidia invece eranos tream differenti. Ma come potenza di calcolo teorica era simile al G92.

tieni conto che l'R600 era all'inizio superiore alla 8800GTS, poi ATi è ovvio che non è riuscita a sostenerla, se capitasse una cosa del genere a Nvidia è ovvio che le cose sarebbero differenti, quella si fa ottimizzare tutti i titoli e cerca di puntare tutto sui driver.

yossarian · 24-11-2009, 11:08

Quote:

Originariamente inviato da Foglia Morta

Aspetta... nell' articolo di TechReport mi pare di aver letto che ogni cluster di 32 ALU è composto da 2 blocchi di 16 ALU ciascuno, un blocco fp32 e un blocco fp64 ( sarà utile per ottenere le gpu derivate con die size decente , eliminando le ALU fp64 ). Non porta nessun cambiamento a quanto intendevi chiarire però mi pare sia così

non credo proprio. Le alu fp che eseguono i calcoli a 32 o 64 bit sono le stesse. Non ho letto l'articolo di techreport ma spero non abbiano scritto una stupidaggine del genere

Dallo steso articolo, basta vedere l'immagine iniziale: sono 16 cluster; se ciascuno fosse composto da 16 unità fp32 e 16 fp64, allora in sp fermi avrebbe la metà della potenza elaborativa riportata in tabella (avrebbe solo 256 unità fp32 e non 512).
Ripeto, se hanno scritto qualcosa del genere, hanno le idee piuttosto confuse pure loro

In realtà, ogni cluster è composto da 2 blocchi di 16 alu fp32 che, in caso di calcoli fp64, si comportano come un unico blocco da 16 alu.

okorop · 24-11-2009, 11:12

Quote:

Originariamente inviato da Psyco89

Non è vero, R600 la cosa che impressionava di più erano gli stream che noi tutti pensavamo come gli stream di nvidia invece eranos tream differenti. Ma come potenza di calcolo teorica era simile al G92.

tieni conto che l'R600 era all'inizio superiore alla 8800GTS, poi ATi è ovvio che non è riuscita a sostenerla, se capitasse una cosa del genere a Nvidia è ovvio che le cose sarebbero differenti, quella si fa ottimizzare tutti i titoli e cerca di puntare tutto sui driver.

sia gli stream processors sia il bus tra gpu e memorie, anche su fermi si specula tanto sui numeri che fa in doppia precisione, che poi non son tanto diferenti da quelli di rv870

Quote:

Originariamente inviato da yossarian

non credo proprio. Le alu fp che eseguono i calcoli a 32 o 64 bit sono le stesse. Non ho letto l'articolo di techreport ma spero non abbiano scritto una stupidaggine del genere

Dallo steso articolo, basta vedere l'immagine iniziale: sono 16 cluster; se ciascuno fosse composto da 16 unità fp32 e 16 fp64, allora in sp fermi avrebbe la metà della potenza elaborativa riportata in tabella (avrebbe solo 256 unità fp32 e non 512).
Ripeto, se hanno scritto qualcosa del genere, hanno le idee piuttosto confuse pure loro

In realtà, ogni cluster è composto da 2 blocchi di 16 alu fp32 che, in caso di calcoli fp64, si comportano come un unico blocco da 16 alu.

a perfetto quidni son solo speculazioni fatte da techreport sulle prestazioni della futura gtx380 ipotizzata andare il doppio della gtx285, il dirigibile si sgonfia

Foglia Morta · 24-11-2009, 11:13

Quote:

Originariamente inviato da yossarian

non credo proprio. Le alu fp che eseguono i calcoli a 32 o 64 bit sono le stesse. Non ho letto l'articolo di techreport ma spero non abbiano scritto una stupidaggine del genere

Dallo steso articolo, basta vedere l'immagine iniziale: sono 16 cluster; se ciascuno fosse composto da 16 unità fp32 e 16 fp64, allora in sp fermi avrebbe la metà della potenza elaborativa riportata in tabella (avrebbe solo 256 unità fp32 e non 512).
Ripeto, se hanno scritto qualcosa del genere, hanno le idee piuttosto confuse pure loro

Ho interpretato male io ?

http://techreport.com/articles.x/17815/4

1° pagina:

Fermi now has single-SM clusters, although each SM is effectively a pair of 16-way vector sub blocks. Sub-block configuration is the key to Fermi implementation configuration. GF100, the high-end part that Nvidia outlines in the whitepaper, uses two different sub blocks in each of its sixteen SMs.

4° pagina:

Going back to the sub-block discussion, it should be clear how Nvidia might scale Fermi down to smaller variants and create derivatives. Nvidia could simply (and we use that term with all due respect to the actual difficulty involved) replace the DP-capable sub block with another of the simpler blocks. They could retain everything else about the SM, including the same scheduler, near pools, register file and even the operand gather logic.

That lets them create non-DP variants, losing some of the fearsome integer rate in the process as well (some of the integer hardware is shared with the DP silicon, necessitating that), for derivatives that don't require it, because they're addressing different markets.

Double-precision floating point is almost exclusively a non-graphics feature of GPUs, at least at this point in time (although, of course, extended-precision computation takes place all over the chip in non-programmable forms), and so it still makes sense to remove it from derivative, smaller, cheaper parts.

This modularity might also let Nvidia attempt a part with two DP sub blocks, with fairly minimal changes to the SM front end, if they so wish. Doing so will cost them area and power, but it's something they could take on. Overtaking the per-FPU, per-clock DP rate of Intel's microprocessors has to be appealing on some level.

Psyco89 · 24-11-2009, 11:15

Quote:

Originariamente inviato da okorop

sia gli stream processors sia il bus tra gpu e memorie, anche su fermi si specula tanto sui numeri che fa in doppia precisione, che poi non son tanto diferenti da quelli di rv870

a perfetto quidni son solo speculazioni fatte da techreport sulle prestazioni della futura gtx380 ipotizzata andare il doppio della gtx285, il dirigibile si sgonfia

si solo il 40%

okorop · 24-11-2009, 11:16

Quote:

Originariamente inviato da Psyco89

si solo il 40%

potenza elaborativa che serve per calcoli professionali e tutto fuor'che il gaming, ci servirà? a me no

A.L.M. · 24-11-2009, 11:18

Quote:

Originariamente inviato da Andrea deluxe

il problema e' questo:

a detta di molti e a meno di sorprese e segreti, e' la single precision ad essere maggiormente usata nei giochi.....

E' un discorso trito e ritrito. Fino a GT200 l'efficienza dell'architettura degli shader NVidia (ossia il rapporto tra prestazioni di calcolo teoriche e quelle reali) era nettamente superiore.
I benefici erano vari: ogni shader core è indipendente, quindi può essere sfruttato fino in fondo. I core delle ATi, invece, essendo di fatto Vec4+1 riescono ad usare sì e no la metà delle risorse massime a disposizione in una situazione reale... Ed è questo il motivo per cui è difficile fare una comparazione tra il numero di cores (e quindi i GFlops teorici) delle 2 architetture.
Con Fermi però alcuni punti di forza di quell'architettura sembrano venire meno. L'impatto della trasformazione MADD->FMA è ignoto.

Quote:

Originariamente inviato da Psyco89

bè in effetti la cosa era uguale anche con RV770 e GT200 anzi mi sa che ATi era meglio anche in DP eppure contro una GTX 285 le 48xx le prendevano.

ATi sembra che abbia fatto la moltiplicazione di 2 sui dati della 4890 nulla di più.
sia SP che DP sembrano solo la moltiplicazione di 2 della 4980.

Bè Nvidia invece sembra salire oltre il raddoppio, sia in SP che in DP, anche così comè adesso sembrerebbe poter battere ATi senza troppi problemi.

Il fatto non potrebbero essere i colli di bottigli della banda o dei registri interni, magari anche cache e roba varia ?

Fermi non è nè 2x GT200, figuriamoci se è più di 2x GT200.
L'unica cosa che è più che raddoppiata sono gli shaders, col problema che però ora non sono più in grado di fare nativamente l'operazione che più viene usata nei giochi (MADD), o meglio, la sa fare, ma non non nello stesso esatto modo. Per poter calcolare tutte le MADD che ci saranno nel codice Fermi dovrà prima perdere un pochino di tempo per fare quanto diceva yossarian.
Le TMU non saranno raddoppiate, anzi con Fermi NVidia abbasserà il suo rapporto ALU:TEX al livello di ATI, perdendo un altro dei suoi punti di forza. Ricapitolando: TMU non raddoppiate, ROPs non raddoppiate, banda tutt'altro che raddoppiata, ALU che dovranno perdere più tempo per calcolare le MADD...
Mi chiedo dove stia il raddoppio, o meglio da cosa possa venir fuori.

E' assurdo che ad ogni giro la gente si faccia gabbare da numeri che hanno un valore assoluto molto limitato...
Ai tempi di GT200 dicevo la stessa cosa (che non poteva andare 2x G80) e in pochi mi diedero retta.
Indovinate chi ebbe ragione?

devAngnew · 24-11-2009, 11:20

Quote:

Originariamente inviato da yossarian

il numero di cicli perso è sempre lo stesso perchè le istruzioni vanno valutate sempre una per una. Che questi cicli li perda all'inizio, prima che parta l'elaborazione, oppure durante la stessa cambia poco o nulla. Anzi, forse sarebbe meglio in runtime per cercare di mascherare almeno in minima parte le latenze (se è possibile) con il multithraeding.
Inoltre, non è detto che ciò avverrà e, sicuramente, non avverrà in tutti i casi (continui a non tener conto della propagazione degli errori per shader più lunghi e le dx11 prevedono shader molto lunghi)

Lasciando per ora da parte il problema della propagazione dell'errore quindi possibili artefatti, IMO lo shader viene caricato (shader scritto ad alto livello) successivamente (viene compilato) questo vale sia per ATI che NVIDIA ora si avrà il codice in ASSEMBLER a questo punto dovrebbero partire eventuali ottimizzazioni nel caso NVIDIA sostituitirebbe alla MADD la FMA ma questo lo fà solo una volta prima dell'esecuzione (dello shader) perdendo questo tempo all'inizio prima che una scena venga renderizzata.

Psyco89 · 24-11-2009, 11:22

Quote:

Originariamente inviato da okorop

potenza elaborativa che serve per calcoli professionali e tutto fuor'che il gaming, ci servirà? a me no

Ma scusa lo sai che la 4870 ha una potenza in SP di 1.3TFlop/s ?
& la GTX 285 0.78 Tflop/s in SP ?

Eppure fra GTX 285 e 4870 c'è un bel distacco.
Ripeto che dai dati sembra che Nvidia abbia migliorato più di ATI e ha anche una banda passante, più ROPS ecc, bisogna vedere poi come vengono gestite le cose.

Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?

.

24-11-2009, 10:56	#8146
Andrea deluxe Bannato Iscritto dal: Jan 2006 Città: Red Light District Messaggi: 13937	quindi pensi sia impossibile far lavorare in double precision la gpu eseguendo grafica?

24-11-2009, 11:03	#8151
Psyco89 Bannato Iscritto dal: Nov 2009 Messaggi: 342	bè in effetti la cosa era uguale anche con RV770 e GT200 anzi mi sa che ATi era meglio anche in DP eppure contro una GTX 285 le 48xx le prendevano. ATi sembra che abbia fatto la moltiplicazione di 2 sui dati della 4890 nulla di più. sia SP che DP sembrano solo la moltiplicazione di 2 della 4980. Bè Nvidia invece sembra salire oltre il raddoppio, sia in SP che in DP, anche così comè adesso sembrerebbe poter battere ATi senza troppi problemi. Il fatto non potrebbero essere i colli di bottigli della banda o dei registri interni, magari anche cache e roba varia ?

Strumenti
Mostra una versione stampabile Invia questa pagina per email