[THREAD UFFICIALE] Aspettando Nvidia GTX 480 e GTX 470 - Pagina 401

Foglia Morta · 23-11-2009, 12:40

nVidia ,in mancanza d' altro, invia news sui brevetti depositati:

http://www.tcmagazine.com/comments.p...=31095&catid=6

With nothing new to show until Q1 2010, Nvidia still managed to put on a smile recently due to the fact that its IP portfolio has reached 1,000 patents. The milestone patent was awarded on October 27, it has been stamped with the number 7609272, and it talks about an invention that makes the pixel processing pipeline faster and more efficient through the use of all available circuitry for partial texture loads.

According to the nTersect blog:

"Textures can be 32-bit, 64-bit, or 128-bit. But anything larger than 32-bit requires more than one pass. Before Bastos and Kilgariff's invention, texture lookups were monolithic instructions that took multiple cycles to be executed, leaving other shader functional units to sit idle. “The idle units in the pipe presented the opportunity to try to fit other, non-texture instructions in those slots – i.e., run more than one instruction per cycle,” says Bastos. But to do that, the monolithic texture-load instructions had to be split into chunks. Break a 128-bit texture into four pieces – each of which can be completed in one pass – and that lets one cycle-hungry instruction be broken into four instructions. Doing this means that other circuits keep processing instructions – no more waiting."

The partial texture load invention has first used for the GeForce 6 series cards and it also made its way into the RSX GPU which can be found in Sony's PlayStation 3 console.

Edit:

non conoscevo questo blog , ogni tanto postano qualcosa: http://blogs.nvidia.com/nTersect/

yossarian · 23-11-2009, 12:57

Quote:

Originariamente inviato da A.L.M.

Non mi sono però chiari alcuni passaggi:
- perchè NVidia non dovrebbe aver implementato dei cores in cui è possibile eseguire sia MADD che FMA con lo stesso numero di clocks? Mera questione di spazio dei cores?
- la storia delle MADD "a mezza velocità", da cosa potrebbe derivare? Dal fatto che Fermi eseguendo solo MADD senza rounding intermedio (FMA), ha bisogno di qualche strano workaround per arrivare allo stesso risultato prodotto da normali unità MADD?
- Quello che inoltre non capisco dei calcoli di Hardware.fr è: mi è chiaro che esiste una differenza tra una MADD con rounding intermedi e senza, ma non capisco che differenza ci sia tra l'eseguire una semplice moltiplicazione (MUL) o addizione (ADD) con un'unità solo MADD e con una solo FMA... Non fanno entrambe il rounding alla fine? Perchè dovrebbe esserci una penalità in termini velocistici?

provo a risonderti.
1) nel caso che sia effettivamente confermato che le madd sono l ametà delle fma, si, allora sarebbe una mera questione di spazio perchè unità di tipo fma che eseguano madd devono avere degli stadi in più.
2) ci sono tre possibili risposte: a) la madd richiede il doppio dei cicli di clock perchè viene eseguita in due passate nella stessa alu anzichè in single pass; b) la madd richiede l'impiego di due alu che lavorino in serie e, in tal caso, l'istruzione è eseguita in single pass ma impiegando la metà delle alu totali; c) solo 256 alu hanno gli stadi in più per eseguire madd.
Nel primi due casi le operazioni "mancanti in hardware" vengono emulate.
3) add e mul non sono eseguiti a mezza velocità; semplicemente una madd o una fma sono due flops (quindi devi raddoppiare il numero di istruzioni per avere il numero di operazioni), una add o una mul comportano una singola operazione. Quindi, stando a quanto riportato da hw.fr, in caso di fma hai, in totale, 1024 flops per ciclo (teoriche), ovvero 512*2; in caso di madd, 512 flops per ciclo (256*2), in caso di mul e add 512 flops per ciclo (una per ogni alu).
Da notare che secondo la slide di hw.fr, le alu di GT300, al contrario di quelle di GT200, non eseguono la mul in più.

Psyco89 · 23-11-2009, 12:57

ma scusate quindi 512 stream cuda sono riferiti al top di gamma quindi un ipotetica GTX 380 ? Quindi suppongo che un ipotetica GTX 360 ne dovrebbe avere meno di 512, più probabilmente da punto di vista matematico 480 giusto ?

halduemilauno · 23-11-2009, 13:06

Quote:

Originariamente inviato da Psyco89

ma scusate quindi 512 stream cuda sono riferiti al top di gamma quindi un ipotetica GTX 380 ? Quindi suppongo che un ipotetica GTX 360 ne dovrebbe avere meno di 512, più probabilmente da punto di vista matematico 480 giusto ?

giusto 480 e per un'altra versione ancor + inferiore 448.

Psyco89 · 23-11-2009, 13:09

Quindi con 480 già sarebbe in linea su carta con la proposta ATI. Nel senso che han raddoppiato entrambi le proprie proposte senza vantaggio evolutivo di nessuno dei 2 per ora. Anzi se gli stream CUDA dovessere essere simili agli stream GT200 possiamo prevedere una situazione del tipo 4890 & GTX 275, non mi sembra male.

Vedremo come saranno questi stream CUDA, ma non potrebbero essere anche superiori a quelli di GT200 ?

okorop · 23-11-2009, 13:16

Quote:

Originariamente inviato da devAngnew

Kharonte85 ha ragione nvidia non può aver cambiato proprio niente la tesselation Unit hardware o c'è o non c'è anche perchè a settembre già c'era da tempo la revisione A0 della gpu e cmq. queste cose si decido già a livello progettuale quando la gpu fisica ancora non esiste.

bisogna vedere quale versione han fatto, ricordo che la versione della gpu tesla non ha l'hardware tessaletion

Psyco89 · 23-11-2009, 13:21

bè ma comunque bisogna vedere le prossime uscite di giochi per vedere chi sarà la vga migliore perchè Nvidia anche se inferiore va a finire che i giochi se li fa adattare dalle case.

tessellation hardware o emulato il modo di farcelo mandar giù lo trovano.

okorop · 23-11-2009, 13:23

Quote:

Originariamente inviato da Ratatosk

Chi l'ha detto?

se c'è qualcosa in piu' nvida lo deve dichiarare visto che il progetto di fermi l'ha rilasciato a settembre per coerenza logica a mio avviso, e in quel progetto l'hardware tessalation non viene menzionato

pandyno · 23-11-2009, 13:29

Quote:

Originariamente inviato da Psyco89

bè ma comunque bisogna vedere le prossime uscite di giochi per vedere chi sarà la vga migliore perchè Nvidia anche se inferiore va a finire che i giochi se li fa adattare dalle case.

tessellation hardware o emulato il modo di farcelo mandar giù lo trovano.

"Adattare" in che senso?

okorop · 23-11-2009, 13:32

Quote:

Originariamente inviato da Ratatosk

Non ha mai parlato di GeForce e Quadro, ma solo Tesla, per le quali il tessellator è del tutto irrilevante, perché parlarne?

ma scusa, l'unica vga che va a quanto pare è la tesla, l'archittettura della tesla pare essere uguale alla quadro e alla versione Geforce e dagli schemi sto hardware tessalation non c'è, o l'hanno aggiunto e per coerenza dovrebbero annunciarlo almeno in una slide oppure non c'è

Ren · 23-11-2009, 13:33

Yoss, grazie per la tua risposta sulle FMA.

Volevo lanciare un ragionamento sulle capacità INT di Fermi. Come vediamo dagli schemi sono in misura preponderante rispetto a GT200 o Cypress.

E' plausibile un utilizzo obbligato (dalle dimensioni del chip) per emulare le fixed-fuction ?

Che io sappia il filtraggio delle texture e le rop's annoverano anche unità integer per calcoli come l'interpolazione.

Prevedi un calo prestazionale considerevole se la previsione si rivelasse esatta ?

Ultima domanda che avevo già posto,
Quanto influiscono nei giochi attuali le capacità di addressing delle texture ?

Psyco89 · 23-11-2009, 13:33

Quote:

Originariamente inviato da pandyno

"Adattare" in che senso?

che ottimizzano per Nvidia e mettono particolari funzioni o effetti o magari utilizzando particolari algoritmi che avantaggiano Nvidia e penalizzano ATI, io infatti mi ritrovo abbastanza problematicizzato con questa ATi che ho preso, prestazioni superiori alla evcchia GTX 275 ovvio però a livello di software non è il max.

Anche la 4890 come potenza elaborativa era superiore alla GTX 285 eppure è molto inferiore.

A.L.M. · 23-11-2009, 13:36

Quote:

Originariamente inviato da yossarian

provo a risonderti.
1) nel caso che sia effettivamente confermato che le madd sono l ametà delle fma, si, allora sarebbe una mera questione di spazio perchè unità di tipo fma che eseguano madd devono avere degli stadi in più.
2) ci sono tre possibili risposte: a) la madd richiede il doppio dei cicli di clock perchè viene eseguita in due passate nella stessa alu anzichè in single pass; b) la madd richiede l'impiego di due alu che lavorino in serie e, in tal caso, l'istruzione è eseguita in single pass ma impiegando la metà delle alu totali; c) solo 256 alu hanno gli stadi in più per eseguire madd.
Nel primi due casi le operazioni "mancanti in hardware" vengono emulate.
3) add e mul non sono eseguiti a mezza velocità; semplicemente una madd o una fma sono due flops (quindi devi raddoppiare il numero di istruzioni per avere il numero di operazioni), una add o una mul comportano una singola operazione. Quindi, stando a quanto riportato da hw.fr, in caso di fma hai, in totale, 1024 flops per ciclo (teoriche), ovvero 512*2; in caso di madd, 512 flops per ciclo (256*2), in caso di mul e add 512 flops per ciclo (una per ogni alu).
Da notare che secondo la slide di hw.fr, le alu di GT300, al contrario di quelle di GT200, non eseguono la mul in più.

Direi che ho capito, grazie.

Tra l'altro rileggendo l'articolo di hw.fr sembra che loro propendano per una soluzione in cui i CUDA cores nel caso in cui ricevano istruzioni MADD dividano l'operazione in una MUL ed una ADD, in modo da avere i 2 rounding "necessari". Questo appunto li porterebbe a fare le MADD in double pass (uno per la MUL e uno per l'ADD).

okorop · 23-11-2009, 13:36

Quote:

Originariamente inviato da Psyco89

che ottimizzano per Nvidia e mettono particolari funzioni o effetti o magari utilizzando particolari algoritmi che avantaggiano Nvidia e penalizzano ATI, io infatti mi ritrovo abbastanza problematicizzato con questa ATi che ho preso, prestazioni superiori alla evcchia GTX 275 ovvio però a livello di software non è il max.

Anche la 4890 come potenza elaborativa era superiore alla GTX 285 eppure è molto inferiore.

le prestazioni della tessalation emulata via software rispetto a una già calcolata via hardwre non son del tutto simili anzi, non c'è adattamenti che tengano..

Quote:

Originariamente inviato da Ratatosk

Eh ma sono slide, non è che vanno nel dettaglio di ogni singolo componente architetturale, se non quelli di interesse alla discussione, che in tutti i casi è stata incentrata sulle Tesla.

Oppure dovremmo partire dal presupposto che le schede non hanno TMU...

si si certo, mi auguro che a breve facciano dei chiarimenti in merito anche sulla scheda video gaming alias gtx380

pandyno · 23-11-2009, 13:44

Quote:

Originariamente inviato da Psyco89

che ottimizzano per Nvidia e mettono particolari funzioni o effetti o magari utilizzando particolari algoritmi che avantaggiano Nvidia e penalizzano ATI, io infatti mi ritrovo abbastanza problematicizzato con questa ATi che ho preso, prestazioni superiori alla evcchia GTX 275 ovvio però a livello di software non è il max.

Anche la 4890 come potenza elaborativa era superiore alla GTX 285 eppure è molto inferiore.

Ma cosa intendi per potenza?

tu hai problemi di alimentazione fidati.

Psyco89 · 23-11-2009, 13:48

Quote:

Originariamente inviato da pandyno

Ma cosa intendi per potenza?

tu hai problemi di alimentazione fidati.

Io parlo di GFlops/s

ATi nella seri 4 ne faceva di più della GTX 285 ma Nvidia penso che abbia sfruttato meglio le proprie funzionalità, no ?

Tessellation o no, io queste grandi performance non le ho viste su ATI, cioè va come una 4870 x2 e meno di una GTX 295, teoricamente quando esce una new generation in automatico tutte le altre schede dovrebbero essergli inferiori e invece questa sembra un po' impacciata no ?

okorop · 23-11-2009, 13:51

Quote:

Originariamente inviato da Psyco89

Io parlo di GFlops/s

ATi nella seri 4 ne faceva di più della GTX 285 ma Nvidia penso che abbia sfruttato meglio le proprie funzionalità, no ?

Tessellation o no, io queste grandi performance non le ho viste su ATI, cioè va come una 4870 x2 e meno di una GTX 295, teoricamente quando esce una new generation in automatico tutte le altre schede dovrebbero essergli inferiori e invece questa sembra un po' impacciata no ?

ribadisco che questo è il thread aspettando le nuove schede video nvida e non come mai cypress non va di piu' della gtx295

, son domande che ti poni comunque lecite ma totalmente ot. Vedremo come andrà gt300, e in base a come va valuteremo il mercato delle gpu meglio di come lo stiamo faccendo attualmente. leggendo l'articolo di hw.fr sono un po scettico su tutta sta potenza in ambito videoludico di fermi, spero e mi auguro che non sia cosi........
per quanto riguarda i GFlops/s marchi male, le nvida son sempre state inferiori rispetto alle ati dall'uscita di rv780 di un anno e mezzo fa......

The_SaN · 23-11-2009, 13:53

Quote:

Originariamente inviato da Psyco89

Io parlo di GFlops/s

ATi nella seri 4 ne faceva di più della GTX 285 ma Nvidia penso che abbia sfruttato meglio le proprie funzionalità, no ?

Tessellation o no, io queste grandi performance non le ho viste su ATI, cioè va come una 4870 x2 e meno di una GTX 295, teoricamente quando esce una new generation in automatico tutte le altre schede dovrebbero essergli inferiori e invece questa sembra un po' impacciata no ?

Si ma non é mai successo che la single new gen fosse piú potente della dual old gen.
Nemmeno con la 8800gtx (la migliore nVidia di sempre, e la migliore scheda di sempre insieme alla 9700pro), visto che quando lo SLI funzionava a dovere la 7900gx2 era davanti...

Oltre al fatto che sono schede progettate per le dx11 (grande potenza negli SP, banda nella media cosi come il texturing), quindi vedremo le vere potenzialitá solo con i titoli dx11. Lo stesso dovrebbe valere per Fermi.

Psyco89 · 23-11-2009, 13:53

Quote:

Originariamente inviato da okorop

ribadisco che questo è il thread aspettando le nuove schede video nvida e non come mai cypress non va di piu' della gtx295

, son domande che ti poni comunque lecite ma totalmente ot. Vedremo come andrà gt300, e in base a come va valuteremo il mercato delle gpu meglio di come lo stiamo faccendo attualmente. leggendo l'articolo di hw.fr sono un po scettico su tutta sta potenza in ambito videoludico di fermi, spero e mi auguro che non sia cosi........
per quanto riguarda i GFlops/s marchi male, le nvida son sempre state inferiori rispetto alle ati dall'uscita di rv780 di un anno e mezzo fa......

Sperem così magari ripasso ad Nvidia.

yossarian · 23-11-2009, 13:55

Quote:

Originariamente inviato da okorop

ma scusa, l'unica vga che va a quanto pare è la tesla, l'archittettura della tesla pare essere uguale alla quadro e alla versione Geforce e dagli schemi sto hardware tessalation non c'è, o l'hanno aggiunto e per coerenza dovrebbero annunciarlo almeno in una slide oppure non c'è

diciamo che non ne hanno parlato; il che può voler dire due cose: non è integrata nel chip oppure non è stata menzionata perchè non è funzionale al gpgpu. Nel primo caso può essere presente su un chip esterno (non credo che fermi abbia il chip NVIO esterno o, addirittura, che abbia unità interne dedicate al 2D. Penso piuttosto che la gestione del 2D sia affidata alle alu dello shader core).

Quote:

Originariamente inviato da Ren

Yoss, grazie per la tua risposta sulle FMA.

Volevo lanciare un ragionamento sulle capacità INT di Fermi. Come vediamo dagli schemi sono in misura preponderante rispetto a GT200 o Cypress.

E' plausibile un utilizzo obbligato (dalle dimensioni del chip) per emulare le fixed-fuction ?

Che io sappia il filtraggio delle texture e le rop's annoverano anche unità integer per calcoli come l'interpolazione.

Prevedi un calo prestazionale considerevole se la previsione si rivelasse esatta ?

Ultima domanda che avevo già posto,
Quanto influiscono nei giochi attuali le capacità di addressing delle texture ?

le unità di tipo INT di cui parla hw.fr sono quelle dello shader core. Sono utilizzate per calcoli di tipo gpgpu (alla stregua di quelle di tipo INT delle cpu) come, ad esempio, elaborazioni video o audio (si occupano delle operazioni di integer bitshift).
Per quanto riguarda le operazioni di texture filtering, in rv870 (di sicuro) e in fermi (molto probabilmente) le operazioni di interpolazione saranno affidate allo shader core; questo perchè dalle dx10.1 in poi sono previsti anche filtri di tipo custom non necessariamente frutto di interpolazione lineare. Ciò comporta l'abbandono delle unità fixed function dedicate nelle tmu per le operazioni di resolve ma non per quelle di texture sampling e texture fetch. La maggior propensione al'effettuazione di calcoli di tipo ff delle alu di GT300 avvantaggerà il chip nVidia nelle operazioni di testure filtering di tipo lineare (terreno in cui, storicamente, nVidia ha sempre avuto un certo margine di vantaggio a livello di potenza di calcolo).
Le operazioni di texture fetch e texture sampling sono tra quelle a più alta la tenza ed il loro impatto sull'elaborazione è piuttosto alto; non a caso, ad esempio ATi, da r600 in poi, ha previsto un numero di texture sampling unit di 4 volte superiore rispetto a quello di texture addressing e texture filtering unit. Per queste operazioni è previsto ancora l'uso di fixed function persino su larrabee (dove, invece, pare che si siano abbandonate le fixed function nelle rop's). A detta di Intel, questo tipo di operazioni, se emulato tramite unità programmabili può richiedere fino a 16 cicli di clock per operazioni che le fixed function eseguono in 1 o 2 cicli. In ogni caso, l'adozione di una gestione di centinaia di thread in contemporanea permette di mascherare, oggi, abbastanza bene le latenze delle operazioni di texturing (questo permette di effettuare multitexturing con molti layer senza un hit prestazionale troppo elevato).
Per quanto riguarda le rop's, fino alla generazione dx10 erano composta da fixed function per le operazioni relative all'applicazione del MSAA. Già con le dx10.1 si sono adottati filtri di tipo custom e lo stesso succederà con le dx11; sarà da vedere se si deciderà di mantenere, comunque, le unità dedicate alle operazioni di resolve del MSAA box (ovvero con filtraggio di tipo lineare) all'interno delle rop's

23-11-2009, 12:40	#8001
Foglia Morta Senior Member Iscritto dal: Jul 2005 Messaggi: 7819	nVidia ,in mancanza d' altro, invia news sui brevetti depositati: http://www.tcmagazine.com/comments.p...=31095&catid=6 With nothing new to show until Q1 2010, Nvidia still managed to put on a smile recently due to the fact that its IP portfolio has reached 1,000 patents. The milestone patent was awarded on October 27, it has been stamped with the number 7609272, and it talks about an invention that makes the pixel processing pipeline faster and more efficient through the use of all available circuitry for partial texture loads. According to the nTersect blog: "Textures can be 32-bit, 64-bit, or 128-bit. But anything larger than 32-bit requires more than one pass. Before Bastos and Kilgariff's invention, texture lookups were monolithic instructions that took multiple cycles to be executed, leaving other shader functional units to sit idle. “The idle units in the pipe presented the opportunity to try to fit other, non-texture instructions in those slots – i.e., run more than one instruction per cycle,” says Bastos. But to do that, the monolithic texture-load instructions had to be split into chunks. Break a 128-bit texture into four pieces – each of which can be completed in one pass – and that lets one cycle-hungry instruction be broken into four instructions. Doing this means that other circuits keep processing instructions – no more waiting." The partial texture load invention has first used for the GeForce 6 series cards and it also made its way into the RSX GPU which can be found in Sony's PlayStation 3 console. Edit: non conoscevo questo blog , ogni tanto postano qualcosa: http://blogs.nvidia.com/nTersect/ __________________ Sample is selezionated ! Ultima modifica di Foglia Morta : 23-11-2009 alle 12:44.

23-11-2009, 12:57	#8003
Psyco89 Bannato Iscritto dal: Nov 2009 Messaggi: 342	ma scusate quindi 512 stream cuda sono riferiti al top di gamma quindi un ipotetica GTX 380 ? Quindi suppongo che un ipotetica GTX 360 ne dovrebbe avere meno di 512, più probabilmente da punto di vista matematico 480 giusto ?

23-11-2009, 13:09	#8005
Psyco89 Bannato Iscritto dal: Nov 2009 Messaggi: 342	Quindi con 480 già sarebbe in linea su carta con la proposta ATI. Nel senso che han raddoppiato entrambi le proprie proposte senza vantaggio evolutivo di nessuno dei 2 per ora. Anzi se gli stream CUDA dovessere essere simili agli stream GT200 possiamo prevedere una situazione del tipo 4890 & GTX 275, non mi sembra male. Vedremo come saranno questi stream CUDA, ma non potrebbero essere anche superiori a quelli di GT200 ?

23-11-2009, 13:21	#8007
Psyco89 Bannato Iscritto dal: Nov 2009 Messaggi: 342	bè ma comunque bisogna vedere le prossime uscite di giochi per vedere chi sarà la vga migliore perchè Nvidia anche se inferiore va a finire che i giochi se li fa adattare dalle case. tessellation hardware o emulato il modo di farcelo mandar giù lo trovano.

23-11-2009, 13:33	#8011
Ren Senior Member Iscritto dal: Apr 2003 Città: Roma Messaggi: 3237	Yoss, grazie per la tua risposta sulle FMA. Volevo lanciare un ragionamento sulle capacità INT di Fermi. Come vediamo dagli schemi sono in misura preponderante rispetto a GT200 o Cypress. E' plausibile un utilizzo obbligato (dalle dimensioni del chip) per emulare le fixed-fuction ? Che io sappia il filtraggio delle texture e le rop's annoverano anche unità integer per calcoli come l'interpolazione. Prevedi un calo prestazionale considerevole se la previsione si rivelasse esatta ? Ultima domanda che avevo già posto, Quanto influiscono nei giochi attuali le capacità di addressing delle texture ?

Strumenti
Mostra una versione stampabile Invia questa pagina per email