Torna indietro   Hardware Upgrade Forum > Componenti Hardware > Schede Video > Schede Video - Discussioni generali

Plaud NotePin S, il registratore IA si fa indossabile (ma è facile da perdere)
Plaud NotePin S, il registratore IA si fa indossabile (ma è facile da perdere)
Quattro modi di indossarlo, stessa app del Plaud Note Pro e integrazione con il desktop. Il registratore IA da indossare di Plaud eccelle in mobilità, ma resta vincolato all'abbonamento ed è facile da perdere
Redmi Watch 6 in prova: lo smartwatch con ampio display da 2000 nit a meno di 100 euro
Redmi Watch 6 in prova: lo smartwatch con ampio display da 2000 nit a meno di 100 euro
Xiaomi ha portato Redmi Watch 6 anche sul mercato italiano, puntando su un display AMOLED da 2,07 pollici con picco di luminosità a 2000 nit, frame in alluminio da 9,9mm e un'autonomia dichiarata di 12 giorni. Lo smartwatch gira su HyperOS 3 e integra GPS, Bluetooth 5.4 e oltre 150 sport mode. Il tutto a meno di 100 euro
Mad Catz M.M.O. 7+: lo stesso DNA del R.A.T. 8+ ADV, ma con molti più pulsanti
Mad Catz M.M.O. 7+: lo stesso DNA del R.A.T. 8+ ADV, ma con molti più pulsanti
Con 22 tasti, il pulsante 5D, lo Shift Mode e il sensore PixArt 3395 da 26.000 DPI, il nuovo mouse wireless di Mad Catz si rivolge in modo preciso ai giocatori di MMO e RPG. Ma chi conosce già il R.A.T. 8+ ADV si accorgerà subito di quanto i due prodotti condividano, e di dove invece divergono
Tutti gli articoli Tutte le news

Vai al Forum
Discussione Chiusa
 
Strumenti
Old 24-11-2009, 11:23   #8161
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da Foglia Morta Guarda i messaggi
Ho interpretato male io ?

http://techreport.com/articles.x/17815/4

1° pagina:

Fermi now has single-SM clusters, although each SM is effectively a pair of 16-way vector sub blocks. Sub-block configuration is the key to Fermi implementation configuration. GF100, the high-end part that Nvidia outlines in the whitepaper, uses two different sub blocks in each of its sixteen SMs.

4° pagina:

Going back to the sub-block discussion, it should be clear how Nvidia might scale Fermi down to smaller variants and create derivatives. Nvidia could simply (and we use that term with all due respect to the actual difficulty involved) replace the DP-capable sub block with another of the simpler blocks. They could retain everything else about the SM, including the same scheduler, near pools, register file and even the operand gather logic.

That lets them create non-DP variants, losing some of the fearsome integer rate in the process as well (some of the integer hardware is shared with the DP silicon, necessitating that), for derivatives that don't require it, because they're addressing different markets.

Double-precision floating point is almost exclusively a non-graphics feature of GPUs, at least at this point in time (although, of course, extended-precision computation takes place all over the chip in non-programmable forms), and so it still makes sense to remove it from derivative, smaller, cheaper parts.

This modularity might also let Nvidia attempt a part with two DP sub blocks, with fairly minimal changes to the SM front end, if they so wish. Doing so will cost them area and power, but it's something they could take on. Overtaking the per-FPU, per-clock DP rate of Intel's microprocessors has to be appealing on some level.
mi sa di si
secondo l'articolo ogni cluster è composto da 16 alu fp64 divise in due sub-blocchi fp32 (il concetto è lo stesso epsresso da me prima ma partendo dall'assunto che si tratta di unità fp64 che possono lavorare a fp32 raddoppiando la capacità di calcolo teorica invece del contrario). Si sostiene che nVidia possa ricavare chip di fasci più bassa utilizzando, invece di cluster di 16 alu fp64 (ovvero 32 alu fp32) cluster di 16 alu fp32. (in tal caso, sembrerebbe che questi chip derivati non siano in grado di eseguire calcoli a fp64).
La cosa mi lascia piuttosto perplesso in quanto intanto non mi risulta che la alu di GT300 siano di tipo fp64 native me che, come in larrabee, si utilizzino 2 alu fp32 per eseguire calcoli a fp64. In secondo luogo, mi suona strano che per passare ad un chip derivato si modifichi la struttura del singolo cluster (cosa mai avvenuta finora).
yossarian è offline  
Old 24-11-2009, 11:26   #8162
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da devAngnew Guarda i messaggi
Lasciando per ora da parte il problema della propagazione dell'errore quindi possibili artefatti, IMO lo shader viene caricato (shader scritto ad alto livello) successivamente (viene compilato) questo vale sia per ATI che NVIDIA ora si avrà il codice in ASSEMBLER a questo punto dovrebbero partire eventuali ottimizzazioni nel caso NVIDIA sostituitirebbe alla MADD la FMA ma questo lo fà solo una volta prima dell'esecuzione (dello shader) perdendo questo tempo all'inizio prima che una scena venga renderizzata.
ripeto, non cambia assolutamente nulla: se hai 20 madd in uno shader devi eseguire 20 volte la sostituzione, che sia all'interno del buffer o in runtime. Non basta eseguire una sostituzione che valga per 20 o 50 istruzioni. La sostituzione avviene ogni volta che si incontra un'istruzione di tipo madd
yossarian è offline  
Old 24-11-2009, 11:26   #8163
okorop
Senior Member
 
L'Avatar di okorop
 
Iscritto dal: Jan 2007
Messaggi: 25157
Quote:
Originariamente inviato da Psyco89 Guarda i messaggi
Ma scusa lo sai che la 4870 ha una potenza in SP di 1.3TFlop/s ?
& la GTX 285 0.78 Tflop/s in SP ?

Eppure fra GTX 285 e 4870 c'è un bel distacco.
Ripeto che dai dati sembra che Nvidia abbia migliorato più di ATI e ha anche una banda passante, più ROPS ecc, bisogna vedere poi come vengono gestite le cose.


Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?



.
l'uso degli stream processors in fermi è diverso da quello di gt200, ati è andata molto vicina alle prestazioni in singola scheda della gtx285 con la 4890
__________________
okorop è online  
Old 24-11-2009, 11:28   #8164
Severnaya
Senior Member
 
L'Avatar di Severnaya
 
Iscritto dal: Apr 2005
Messaggi: 2544
Quote:
Originariamente inviato da Psyco89 Guarda i messaggi
Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?

io da profano confronterei la 4870 con la 280 e nn con la 285
__________________
[CM Cosmos Pure] [GIgabyte Z77 X-UP7] [i7 2600K@4,2 Ghz cooled by COrsari H110] [4x2Gb Crucial Ballistic 8-8-8-24] [Radeon R9 290] [SO Crucial M4 120Gb; Games WD Caviar Black 1Tb; Storage WD Caviar Green 2Tb] [Asus Xonar D2X] [Creative Gigaworks T40 II] [Windows 7 Professional SP1 64bit] [Logitech G15] [Logitech G9x]
Severnaya è offline  
Old 24-11-2009, 11:31   #8165
okorop
Senior Member
 
L'Avatar di okorop
 
Iscritto dal: Jan 2007
Messaggi: 25157
Quote:
Originariamente inviato da Severnaya Guarda i messaggi
io da profano confronterei la 4870 con la 280 e nn con la 285
quoto ed aggiungo che la gtx280 andava un 20% in piu' della 4870 proprio per gli shader unificati in cui gt200 riusciva a trarre maggior vantaggio rispetto alla soluzione ati, lo scenario che si prospetta con gt100 potrebbe anche essere completamente diverso, con ati che dovrà svolgere meno ottimizzazione dei driver rispetto a nvida
__________________
okorop è online  
Old 24-11-2009, 11:34   #8166
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da Psyco89 Guarda i messaggi
Ma scusa lo sai che la 4870 ha una potenza in SP di 1.3TFlop/s ?
& la GTX 285 0.78 Tflop/s in SP ?

Eppure fra GTX 285 e 4870 c'è un bel distacco.
Ripeto che dai dati sembra che Nvidia abbia migliorato più di ATI e ha anche una banda passante, più ROPS ecc, bisogna vedere poi come vengono gestite le cose.


Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?



.
facciamo un'altra precisazione; i dati riportati in tabella riguardano le madd per gt200 e non le flops; gt200 può eseguire una madd e una mul per ciclo, quindi la potenza di calcolo teorica è di 1,063 Tflops e non di 708. Invece, GT300 pare non abbia la capacità di eseguire mul aggiuntive ma solo madd (o fma).
Inoltre, con codice dx10.1 la 4890 riesce a battere la 285 gtx. Se prorpio vuoi fare un confronto fallo completo: la 4890 è dx10.1 la 285 gtx no.

http://www.hwupgrade.it/articoli/skv...a-media_9.html

ad esempio, per hawx leggo 91/77/67 per la 285 gtx in dx10 e 102/86/78 per la 4890 in dx10.1. Peccato che i driver acerbi non facciano avere gli stessi incrementi percentuali alle vga con rv870

Ultima modifica di yossarian : 24-11-2009 alle 11:53.
yossarian è offline  
Old 24-11-2009, 11:36   #8167
A.L.M.
Senior Member
 
L'Avatar di A.L.M.
 
Iscritto dal: Feb 2006
Città: Looking for a place to call home
Messaggi: 5325
Quote:
Originariamente inviato da yossarian Guarda i messaggi
ripeto, non cambia assolutamente nulla: se hai 20 madd in uno shader devi eseguire 20 volte la sostituzione, che sia all'interno del buffer o in runtime. Non basta eseguire una sostituzione che valga per 20 o 50 istruzioni. La sostituzione avviene ogni volta che si incontra un'istruzione di tipo madd
Interessante, non ho capito se però Rys (che scrive l'articolo) sia della stessa idea.

Quote:
Originariamente inviato da yossarian Guarda i messaggi
facciamo un'altra precisazione; i dati riportati in tabella riguardano le madd per gt200 e non le flops; gt200 può eseguire una madd e una mul per ciclo, quindi la potenza di calcolo teorica è di 1,063 Tflops e non di 708. Invece, GT300 pare non abbia la capacità di eseguire mul aggiuntive ma solo madd (o fma).
Mah, sulle missing MUL io non farei molto affidamento...
Erano talmente utili che alla prima occasione utile se le sono levate dai piedi...

Quote:
Originariamente inviato da Psyco89 Guarda i messaggi
Ma scusa lo sai che la 4870 ha una potenza in SP di 1.3TFlop/s ?
& la GTX 285 0.78 Tflop/s in SP ?

Eppure fra GTX 285 e 4870 c'è un bel distacco.
Ripeto che dai dati sembra che Nvidia abbia migliorato più di ATI e ha anche una banda passante, più ROPS ecc, bisogna vedere poi come vengono gestite le cose.


Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?
Per essere più chiari, la potenza teorica delle ATI è più teorica di quella delle NVidia...

Solo se si riescono a tenere occupati tutti e 5 i core di ogni shader unit si raggiunge la potenza teorica max. Dato che questo non avviene, ma al massimo se ne occupano 2-3, questo porta ad un primo ridimensionamento delle prestazioni. Dipende molto da come è scritto il gioco. E' il prezzo che si deve pagare per avere shaders che occupano poco spazio nella gpu.
Un altro limite che hanno le ATI è nel texturing power, che a partire da R600 in poi è più limitato che nelle NVidia. Considera però che Fermi avrà lo stesso rapporto tra numero di shaders e numero di TMU di RV870, quindi questo vantaggio è andato.
__________________
A.L.M. @ HWBOT | Personal PC: Asus N56VZ | Work PC: Lenovo Thinkpad T420 (Core i5 2520M, 4GB ram, 320GB 7200rpm) | Mobile device: iPhone 4S
Work It Harder, Make It Better, Do It Faster, Makes Us Stronger, More Than Ever Hour After Hour Work Is Never Over

Ultima modifica di A.L.M. : 24-11-2009 alle 11:39.
A.L.M. è offline  
Old 24-11-2009, 11:40   #8168
devAngnew
Senior Member
 
L'Avatar di devAngnew
 
Iscritto dal: Oct 2005
Messaggi: 3669
Quote:
Originariamente inviato da yossarian Guarda i messaggi
ripeto, non cambia assolutamente nulla: se hai 20 madd in uno shader devi eseguire 20 volte la sostituzione, che sia all'interno del buffer o in runtime. Non basta eseguire una sostituzione che valga per 20 o 50 istruzioni. La sostituzione avviene ogni volta che si incontra un'istruzione di tipo madd
Secondome stiamo parlano due lingue diverse
Bha allora i compilatori e gli ottimizzatori a cosa servono a nulla da quello che dici tu.
Questo non ha senso.
devAngnew è offline  
Old 24-11-2009, 11:48   #8169
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da A.L.M. Guarda i messaggi
Interessante, non ho capito se però Rys (che scrive l'articolo) sia della stessa idea.
quale sia l'idea di Rys conta relativamente: innanzitutto è da vedere se è possibile eseguire la sostituzione; poi è da vedere quando è possibile. Infine, a livello di driver, l'unico modo in cui si può agire è quello che ho descritto: il driver può solo indicare all'hw di effettuare una determinata operazione quando si trova di fronte ad un certo tipo di chiamata. Ad esempio, di fronte ad una madd, il driver indica all'hw di eseguire una mull un troncamento ed una add con arrotondamento. Il processo è questo: il thread processor preleva l'istruzione, la legge, la interpreta e la manda in esecuzione in base a quelli che sono i parametri della programmazione a basso livello. Il driver può intervenire su questi parametri andando a modificare l'esecuzione dell'istruzione. In tal caso può suggerire al chip di sostituire una madd con una fma. Il thread processor, quindi preleva la istruzione la decodifica e, una volta capito che si tratta di una madd la sostituisce con una fma (uno step in più rispetto all'esecuzione standard) e poi la manda in esecuzione.
Un ulteriore problema sorge nel momento in cui questo tipo di operazioni non sono sempre possibili (ed è il caso di shader molto lunghi o che richiedono una particolare precisione). Questo significa che l'operazione deve essere analizzata caso per caso e non si può effettuare indiscriminatamente l'operazione di sostituzione dell'istruzione.
Può sembrare strano parlare di precisione quando sappiamo che le fma restituiscono risultati più precisi delle madd, ma le cose stanno propio così. Quando un coder dà una certa istruzione è perchè si aspetta un determinato risultato che tiene conto anche degli eventuali arrotondamenti o troncamenti. L'assenza di uno qualsiasi dei passaggi previsti può dar luogo a risultati diversi da quelli desiderati o attesi.

Ultima modifica di yossarian : 24-11-2009 alle 11:54.
yossarian è offline  
Old 24-11-2009, 11:50   #8170
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da devAngnew Guarda i messaggi
Secondome stiamo parlano due lingue diverse
Bha allora i compilatori e gli ottimizzatori a cosa servono a nulla da quello che dici tu.
Questo non ha senso.
stai suggerendo che i chip nVidia, con architettura superscalare, operino at compile time? Oppure non hai idea di come funzioni internamente un chip? O, magari, pensi che la sostituzione avvenga, come per incanto, istantaneamente, in tutto lo shader o, magari, in tutti gli shader caricati?
Visto che sei così sicuro, ti invito a trovarmi un documento in cui si spieghi come effettuare la sostituzione o un documento in cui si spieghi come eseguire delle madd su pipeline di tipo fma

Ultima modifica di yossarian : 24-11-2009 alle 12:04.
yossarian è offline  
Old 24-11-2009, 12:05   #8171
devAngnew
Senior Member
 
L'Avatar di devAngnew
 
Iscritto dal: Oct 2005
Messaggi: 3669
Quote:
Originariamente inviato da yossarian Guarda i messaggi
stai suggerendo che i chip nVidia, con architettura superscalare, operino at compile time? Oppure non hai idea di come funzioni internamente un chip
Se non ricordo male già dai tempi di NV30 Nvidia faceva uso di un compilatore di shader e se non erro in G80 e derivati quindi G200 fanno lo stesso ed hanno ottimizzato la cosa ancor di più in Fermi con JIT compiler performante però ora non ricordo dove lo lessi.
devAngnew è offline  
Old 24-11-2009, 12:14   #8172
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da devAngnew Guarda i messaggi
Se non ricordo male già dai tempi di NV30 Nvidia faceva uso di un compilatore di shader e se non erro in G80 e derivati quindi G200 fanno lo stesso ed hanno ottimizzato la cosa ancor di più in Fermi con JIT compiler performante però ora non ricordo dove lo lessi.
tutti fanno uso di compilatori, spesso si fanno anche operazioni di shader reordering e, talvolta, di shader replacement (molto frequenti ai tempi di nv30).
Il principio è sempre lo stesso: quando incontri quel tipo di istruzione sostituiscila con quest'altra. Che questo valga per una singola istruzione o per un intero shader (con nv30 si sotituivano interi pezzi di codice dx9 con codice dx8) la cosa non cambia.
State montando un caso per una battuta di Rys (ed è quello che dovranno fare i driver) buttata li senza spiegare come o quando e se la stessa sarà possibile senza problemi (e non credo che neppure lui sia in grado di rispondere)
Questa fa il paio con quella del tessellator che "tanto sarà emulato via sw senza alcun problema" (poi magari ci spiegherà come e perchè si perde tempo a implementare funzioni in hw se possono essere emulate via sw senza problemi) o con quella sulle alu fp64 che su chip di fascia bassa diventano fp32
Forse, prima di avventurarsi in previsioni, sarebbe opportuno avere qualche informazione in più anche a livello di benchmark.

Ultima modifica di yossarian : 24-11-2009 alle 12:25.
yossarian è offline  
Old 24-11-2009, 12:19   #8173
Foglia Morta
Senior Member
 
L'Avatar di Foglia Morta
 
Iscritto dal: Jul 2005
Messaggi: 7819
Nel caso di nVidia è questo: http://developer.nvidia.com/object/cg_toolkit.html . edit. risolto
__________________
Sample is selezionated !

Ultima modifica di Foglia Morta : 24-11-2009 alle 12:21.
Foglia Morta è offline  
Old 24-11-2009, 12:22   #8174
okorop
Senior Member
 
L'Avatar di okorop
 
Iscritto dal: Jan 2007
Messaggi: 25157
Quote:
Originariamente inviato da Foglia Morta Guarda i messaggi
Nel caso di nVidia è questo: http://developer.nvidia.com/object/cg_toolkit.html . edit. risolto
http://developer.amd.com/Pages/default.aspx
__________________
okorop è online  
Old 24-11-2009, 12:27   #8175
devAngnew
Senior Member
 
L'Avatar di devAngnew
 
Iscritto dal: Oct 2005
Messaggi: 3669
Quote:
Originariamente inviato da yossarian Guarda i messaggi
tutti fanno uso di compilatori, spesso si fanno anche operazioni di shader reordering e, talvolta, di shader replacement (molto frequenti ai tempi di nv30).
Ovviamente

Quote:
Il principio è sempre lo stesso: quando incontri quel tipo di istruzione sostituiscila con quest'altra. Che questo valga per una singola istruzione o per un intero shader (con nv30 si sotituivano interi pezzi di codice dx9 con codice dx8) la cosa non cambia.

Appunto non cambia, una volta compilato e ottimizzato lo shader è eseguito alla max velocità possibile dalla GPU quindi l'overhead di sostituzione delle istruzione non persiste più ma ci sarà solo quello dovuto all'exe dell' FMA.
devAngnew è offline  
Old 24-11-2009, 12:30   #8176
Foglia Morta
Senior Member
 
L'Avatar di Foglia Morta
 
Iscritto dal: Jul 2005
Messaggi: 7819
Quote:
Originariamente inviato da yossarian Guarda i messaggi
tutti fanno uso di compilatori, spesso si fanno anche operazioni di shader reordering e, talvolta, di shader replacement (molto frequenti ai tempi di nv30).
Il principio è sempre lo stesso: quando incontri quel tipo di istruzione sostituiscila con quest'altra. Che questo valga per una singola istruzione o per un intero shader (con nv30 si sotituivano interi pezzi di codice dx9 con codice dx8) la cosa non cambia.
State montando un caso per una battuta di Rys (ed è quello che dovranno fare i driver) buttata li senza spiegare come o quando e se la stessa sarà possibile senza problemi (e non credo che neppure lui sia in grado di rispondere)
Questa fa il paio con quella del tessellator che "tanto sarà emulato via sw senza alcun problema" (poi magari ci spiegherà come e perchè si perde tempo a implementare funzioni in hw se possono essere emulate via sw senza problemi) o con quella sulle alu fp64 che su chip di fascia bassa diventano fp32
Forse, prima di avventurarsi in previsioni, sarebbe opportuno avere qualche informazione in più anche a livello di benchmark.
Penso sia perchè JHH pone fiducia nel compilatore. Secondo lui NV30 è una bella architettura ma rimasta incompresa... e non vuole che anche Fermi resti una gpu incompresa , almeno da questa intervista pare così: http://tech.tbreak.com/2009/11/nvidi...-hsun-huang/3/
__________________
Sample is selezionated !
Foglia Morta è offline  
Old 24-11-2009, 12:31   #8177
okorop
Senior Member
 
L'Avatar di okorop
 
Iscritto dal: Jan 2007
Messaggi: 25157
Quote:
Originariamente inviato da devAngnew Guarda i messaggi
Ovviamente




Appunto non cambia, una volta compilato e ottimizzato lo shader è eseguito alla max velocità possibile dalla GPU quindi l'overhead di sostituzione delle istruzione non persiste più ma ci sarà solo quello dovuto all'exe dell' FMA.
ma scusa una cosa la gpu compila le fma poi deve sostituirle in madd tutte le volte e quindi gli exe dell'fma si presenteranno sempre creando overhead, oppure sbaglio qualcosa?

Quote:
Originariamente inviato da Foglia Morta Guarda i messaggi
Penso sia perchè JHH pone fiducia nel compilatore. Secondo lui NV30 è una bella architettura ma rimasta incompresa... e non vuole che anche Fermi resti una gpu incompresa , almeno da questa intervista pare così: http://tech.tbreak.com/2009/11/nvidi...-hsun-huang/3/
mi metto le mani nei capelli allora, ci sarà da piangere........
__________________
okorop è online  
Old 24-11-2009, 12:33   #8178
leoneazzurro
Senior Member
 
Iscritto dal: Jan 2003
Messaggi: 10395
Quote:
Originariamente inviato da Kharonte85 Guarda i messaggi
In realtà lui fa riferimento proprio a quelle in quasi tutto l'articolo...per il resto credo che lo scenario che disegni sia molto credibile, dubito fortemente anche io che riesca a superare hemlock.

Sul fatto del tesselatore mi rende perplesso che siano così sicuri in quell'articolo...sbaglio o il tesselatore via hardware è espressamente richiesto come requisito delle dx11? In questo caso come farebbe nvidia a dichiararsi dx11 se non ce l'ha?
Non so, non c'è nemmeno un accenno a quanti fps "faccia" GF100, le speculazioni sono tutte sul lato delle prestazioni teoriche (quanti FLOPs, quanti texel, il fill rate, ecc.) che come sappiamo spesso non si traducono in prestazioni pure. Per esempio, lo SLI di GTX285 avrà sempre più banda passante e più triangoli/s rispetto a GF100. Se si tende ad essere limitati da questi fattori ci si ritrova esattamente nella situazione della 5870 rispetto alla 4870x2. Per il tessellatore, basta che si rispettino le chiamate dell'API.

Quote:
Originariamente inviato da Psyco89 Guarda i messaggi
Ma scusa lo sai che la 4870 ha una potenza in SP di 1.3TFlop/s ?
& la GTX 285 0.78 Tflop/s in SP ?

Eppure fra GTX 285 e 4870 c'è un bel distacco.
Ripeto che dai dati sembra che Nvidia abbia migliorato più di ATI e ha anche una banda passante, più ROPS ecc, bisogna vedere poi come vengono gestite le cose.

Come mai la 4870 non è stata in grado di battere la GTX 285 ? nonostante la differenza netta in SP ? quella potenza in più dove è finita ?

.
Ci sono diversi fattori che influenzano le prestazioni oltre ai FLOPS: le capacità di texturing, la banda passante, il fill rate e lo z-rate delle ROPs, le capacità di elaborazione geometrica, ecc. Quindi dire che la 4870 avesse più FLOPS della GTX285 è poco significativo se non si ricorda che fill rate, Z rate, banda passante e capacità di texturing erano maggiori nelle GTX285.
Poi una cosa è la capacità di calcolo di picco, un'altra è quella effettivamente raggiungibile nelle applicazioni. RV770 da alcuni dati emersi in rete ha su applicazioni grafiche una utilizzazione media delle unità shader del 70%, mentre GT200 tende a superare il 90%. Per cui le capacità di calcolo -pratiche- di tali chip sono pressappoco sullo stesso piano e le differenze riguardano gli altri fattori visti prima. Infine viene la programmazione: se il codice tende a sfruttare meglio le unità di RV770 allora questo sarà più veloce, se invece ad esempio si utilizza codice con parecchie istruzioni scalari e dipendenti GT200 è favorito.
__________________
PC Specialist Recoil 17 - 13900HX - 32 GB DDR5 5200 - Geforce RTX 4080 Mobile 12Gb 175W - 1 SSD Corsair Core XT MP600 2 TB NVMe - 1SSD Solidigm P41+ 2TB NVMe
leoneazzurro è offline  
Old 24-11-2009, 12:34   #8179
yossarian
Senior Member
 
Iscritto dal: Mar 2001
Messaggi: 5390
Quote:
Originariamente inviato da devAngnew Guarda i messaggi




Appunto non cambia, una volta compilato e ottimizzato lo shader è eseguito alla max velocità possibile dalla GPU quindi l'overhead di sostituzione delle istruzione non persiste più ma ci sarà solo quello dovuto all'exe dell' FMA.
e l'overhead per la compilazione e l'ottimizzazione dello shader non lo calcoli? O quelle sono gratis?
La sostituzione o la fai prima o dopo non cambia nulla; se l'esecuzione inizia con n cicli di ritardo perchè si devono sosittuire le madd con fma hai lo stesso sprecato dei cicli. Cosa non ti torna?
yossarian è offline  
Old 24-11-2009, 12:37   #8180
Ren
Senior Member
 
L'Avatar di Ren
 
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
Yoss, volevo chiederti una cosa slegata dal discorso fermi.

Vedo che le moderne GPU possono indirizzare solo 16 vertici per ciclo di clock.

Quante unità simd possono essere allocate per il calcolo dei vertex ?

Mi verrebbe spontaneo pensare che al massimo un solo stream cluster possa essere allocato, dato che ogni vettore fp32 gestisce un triangolo.

Le animazioni impegnano i geometry o i vertex shader ?
In che misura rispetto alla mera generazione della scena tridimensionale ?

Scusa OT.
Ren è offline  
 Discussione Chiusa


Plaud NotePin S, il registratore IA si fa indossabile (ma è facile da perdere) Plaud NotePin S, il registratore IA si fa indoss...
Redmi Watch 6 in prova: lo smartwatch con ampio display da 2000 nit a meno di 100 euro Redmi Watch 6 in prova: lo smartwatch con ampio ...
Mad Catz M.M.O. 7+: lo stesso DNA del R.A.T. 8+ ADV, ma con molti più pulsanti Mad Catz M.M.O. 7+: lo stesso DNA del R.A.T. 8+ ...
Radeon RX 9070 GRE, AMD la porta in tutto il mondo | Recensione Gigabyte Gaming OC Radeon RX 9070 GRE, AMD la porta in tutto il mon...
Reolink OMVI 3i WiFi: videosorveglianza più intelligente e facile da usare Reolink OMVI 3i WiFi: videosorveglianza pi&ugrav...
Formula V vi farà cambiare l'airf...
Netflix usa l'IA generativa per battere ...
Quando l'AI costruisce sé stessa:...
Meno ventole, più raffreddamento:...
Adidas Trionda: come funziona la tecnolo...
Withings BodyFit, la bilancia che va ben...
QNAP annuncia QuTS hero h6.0: il sistema...
ColorOS 17 con Android 17: la lista dei ...
DDR4, il ritorno che nessuno si aspettav...
Corsair vuole un singolo cavo per colleg...
Linux 7.2 si avvierà sui Mac M3, ...
Xiaomi 17T e 17T Pro a prezzi mai visti:...
Microsoft annuncia Majorana 2 e prevede ...
Windows 11: addio ai menu contestuali ca...
Maxi raid internazionale contro la pirat...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 19:27.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v