|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#8161 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
secondo l'articolo ogni cluster è composto da 16 alu fp64 divise in due sub-blocchi fp32 (il concetto è lo stesso epsresso da me prima ma partendo dall'assunto che si tratta di unità fp64 che possono lavorare a fp32 raddoppiando la capacità di calcolo teorica invece del contrario). Si sostiene che nVidia possa ricavare chip di fasci più bassa utilizzando, invece di cluster di 16 alu fp64 (ovvero 32 alu fp32) cluster di 16 alu fp32. (in tal caso, sembrerebbe che questi chip derivati non siano in grado di eseguire calcoli a fp64). La cosa mi lascia piuttosto perplesso in quanto intanto non mi risulta che la alu di GT300 siano di tipo fp64 native me che, come in larrabee, si utilizzino 2 alu fp32 per eseguire calcoli a fp64. In secondo luogo, mi suona strano che per passare ad un chip derivato si modifichi la struttura del singolo cluster (cosa mai avvenuta finora). |
|
|
|
|
|
#8162 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
|
|
|
|
|
|
#8163 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 25157
|
Quote:
|
|
|
|
|
|
#8164 | |
|
Senior Member
Iscritto dal: Apr 2005
Messaggi: 2544
|
Quote:
io da profano confronterei la 4870 con la 280 e nn con la 285
__________________
[CM Cosmos Pure] [GIgabyte Z77 X-UP7] [i7 2600K@4,2 Ghz cooled by COrsari H110] [4x2Gb Crucial Ballistic 8-8-8-24] [Radeon R9 290] [SO Crucial M4 120Gb; Games WD Caviar Black 1Tb; Storage WD Caviar Green 2Tb] [Asus Xonar D2X] [Creative Gigaworks T40 II] [Windows 7 Professional SP1 64bit] [Logitech G15] [Logitech G9x] |
|
|
|
|
|
#8165 |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 25157
|
quoto ed aggiungo che la gtx280 andava un 20% in piu' della 4870 proprio per gli shader unificati in cui gt200 riusciva a trarre maggior vantaggio rispetto alla soluzione ati, lo scenario che si prospetta con gt100 potrebbe anche essere completamente diverso, con ati che dovrà svolgere meno ottimizzazione dei driver rispetto a nvida
|
|
|
|
|
#8166 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Inoltre, con codice dx10.1 la 4890 riesce a battere la 285 gtx. Se prorpio vuoi fare un confronto fallo completo: la 4890 è dx10.1 la 285 gtx no. http://www.hwupgrade.it/articoli/skv...a-media_9.html ad esempio, per hawx leggo 91/77/67 per la 285 gtx in dx10 e 102/86/78 per la 4890 in dx10.1. Peccato che i driver acerbi non facciano avere gli stessi incrementi percentuali alle vga con rv870 Ultima modifica di yossarian : 24-11-2009 alle 11:53. |
|
|
|
|
|
#8167 | |||
|
Senior Member
Iscritto dal: Feb 2006
Città: Looking for a place to call home
Messaggi: 5325
|
Quote:
![]() Quote:
![]() Erano talmente utili che alla prima occasione utile se le sono levate dai piedi... Quote:
![]() Solo se si riescono a tenere occupati tutti e 5 i core di ogni shader unit si raggiunge la potenza teorica max. Dato che questo non avviene, ma al massimo se ne occupano 2-3, questo porta ad un primo ridimensionamento delle prestazioni. Dipende molto da come è scritto il gioco. E' il prezzo che si deve pagare per avere shaders che occupano poco spazio nella gpu. Un altro limite che hanno le ATI è nel texturing power, che a partire da R600 in poi è più limitato che nelle NVidia. Considera però che Fermi avrà lo stesso rapporto tra numero di shaders e numero di TMU di RV870, quindi questo vantaggio è andato.
__________________
A.L.M. @ HWBOT | Personal PC: Asus N56VZ | Work PC: Lenovo Thinkpad T420 (Core i5 2520M, 4GB ram, 320GB 7200rpm) | Mobile device: iPhone 4S Work It Harder, Make It Better, Do It Faster, Makes Us Stronger, More Than Ever Hour After Hour Work Is Never Over Ultima modifica di A.L.M. : 24-11-2009 alle 11:39. |
|||
|
|
|
|
#8168 | |
|
Senior Member
Iscritto dal: Oct 2005
Messaggi: 3669
|
Quote:
Bha allora i compilatori e gli ottimizzatori a cosa servono a nulla da quello che dici tu. Questo non ha senso. |
|
|
|
|
|
#8169 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Un ulteriore problema sorge nel momento in cui questo tipo di operazioni non sono sempre possibili (ed è il caso di shader molto lunghi o che richiedono una particolare precisione). Questo significa che l'operazione deve essere analizzata caso per caso e non si può effettuare indiscriminatamente l'operazione di sostituzione dell'istruzione. Può sembrare strano parlare di precisione quando sappiamo che le fma restituiscono risultati più precisi delle madd, ma le cose stanno propio così. Quando un coder dà una certa istruzione è perchè si aspetta un determinato risultato che tiene conto anche degli eventuali arrotondamenti o troncamenti. L'assenza di uno qualsiasi dei passaggi previsti può dar luogo a risultati diversi da quelli desiderati o attesi. Ultima modifica di yossarian : 24-11-2009 alle 11:54. |
|
|
|
|
|
#8170 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Visto che sei così sicuro, ti invito a trovarmi un documento in cui si spieghi come effettuare la sostituzione o un documento in cui si spieghi come eseguire delle madd su pipeline di tipo fma Ultima modifica di yossarian : 24-11-2009 alle 12:04. |
|
|
|
|
|
#8171 |
|
Senior Member
Iscritto dal: Oct 2005
Messaggi: 3669
|
Se non ricordo male già dai tempi di NV30 Nvidia faceva uso di un compilatore di shader e se non erro in G80 e derivati quindi G200 fanno lo stesso ed hanno ottimizzato la cosa ancor di più in Fermi con JIT compiler performante però ora non ricordo dove lo lessi.
|
|
|
|
|
#8172 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Il principio è sempre lo stesso: quando incontri quel tipo di istruzione sostituiscila con quest'altra. Che questo valga per una singola istruzione o per un intero shader (con nv30 si sotituivano interi pezzi di codice dx9 con codice dx8) la cosa non cambia. State montando un caso per una battuta di Rys (ed è quello che dovranno fare i driver) buttata li senza spiegare come o quando e se la stessa sarà possibile senza problemi (e non credo che neppure lui sia in grado di rispondere) Questa fa il paio con quella del tessellator che "tanto sarà emulato via sw senza alcun problema" (poi magari ci spiegherà come e perchè si perde tempo a implementare funzioni in hw se possono essere emulate via sw senza problemi) o con quella sulle alu fp64 che su chip di fascia bassa diventano fp32 Forse, prima di avventurarsi in previsioni, sarebbe opportuno avere qualche informazione in più anche a livello di benchmark. Ultima modifica di yossarian : 24-11-2009 alle 12:25. |
|
|
|
|
|
#8173 |
|
Senior Member
Iscritto dal: Jul 2005
Messaggi: 7819
|
Nel caso di nVidia è questo: http://developer.nvidia.com/object/cg_toolkit.html . edit. risolto
__________________
Sample is selezionated !
Ultima modifica di Foglia Morta : 24-11-2009 alle 12:21. |
|
|
|
|
#8174 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 25157
|
Quote:
|
|
|
|
|
|
#8175 | ||
|
Senior Member
Iscritto dal: Oct 2005
Messaggi: 3669
|
Quote:
Quote:
Appunto non cambia, una volta compilato e ottimizzato lo shader è eseguito alla max velocità possibile dalla GPU quindi l'overhead di sostituzione delle istruzione non persiste più ma ci sarà solo quello dovuto all'exe dell' FMA. |
||
|
|
|
|
#8176 | |
|
Senior Member
Iscritto dal: Jul 2005
Messaggi: 7819
|
Quote:
__________________
Sample is selezionated !
|
|
|
|
|
|
#8177 | ||
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 25157
|
Quote:
Quote:
|
||
|
|
|
|
#8178 | ||
|
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10395
|
Quote:
Quote:
Poi una cosa è la capacità di calcolo di picco, un'altra è quella effettivamente raggiungibile nelle applicazioni. RV770 da alcuni dati emersi in rete ha su applicazioni grafiche una utilizzazione media delle unità shader del 70%, mentre GT200 tende a superare il 90%. Per cui le capacità di calcolo -pratiche- di tali chip sono pressappoco sullo stesso piano e le differenze riguardano gli altri fattori visti prima. Infine viene la programmazione: se il codice tende a sfruttare meglio le unità di RV770 allora questo sarà più veloce, se invece ad esempio si utilizza codice con parecchie istruzioni scalari e dipendenti GT200 è favorito.
__________________
PC Specialist Recoil 17 - 13900HX - 32 GB DDR5 5200 - Geforce RTX 4080 Mobile 12Gb 175W - 1 SSD Corsair Core XT MP600 2 TB NVMe - 1SSD Solidigm P41+ 2TB NVMe |
||
|
|
|
|
#8179 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
La sostituzione o la fai prima o dopo non cambia nulla; se l'esecuzione inizia con n cicli di ritardo perchè si devono sosittuire le madd con fma hai lo stesso sprecato dei cicli. Cosa non ti torna? |
|
|
|
|
|
#8180 |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Yoss, volevo chiederti una cosa slegata dal discorso fermi.
Vedo che le moderne GPU possono indirizzare solo 16 vertici per ciclo di clock. Quante unità simd possono essere allocate per il calcolo dei vertex ? Mi verrebbe spontaneo pensare che al massimo un solo stream cluster possa essere allocato, dato che ogni vettore fp32 gestisce un triangolo. Le animazioni impegnano i geometry o i vertex shader ? In che misura rispetto alla mera generazione della scena tridimensionale ? Scusa OT. |
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 19:26.























