|
|
|
![]() |
|
Strumenti |
![]() |
#41 | ||
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
![]() Quindi la mia risposta era del tipo:"non gudagni praticamente niente facendo questo tipo di operazione, poichè il guadagno in ternmini di transistor è quello di un moltiplicatore di frequenza in meno. In quanto alla possibilità di scheduare n thread per ciclo, questa è indipendente dalla frequenza di funzionamento dello shader core ma dipende dal numero di registri a disposizione per SM. Ogni SM di fermi può schedulare 2 warp, ovvero 2 volte 32 thread, uno per ogni 16 alu. Ossia, ogni gruppo di 16 alu ha a dispsizione 16384 registri da 32 bit in modo tale da poter "caricare" i dati relativi a 32 thread di cui, ad ogni ciclo, ne viene mandato uno in esecuzione, indipendentemente dala frequenza del chip. Stavolta spero di aver risposto ![]() Quote:
![]() |
||
![]() |
![]() |
![]() |
#42 |
Senior Member
Iscritto dal: Jan 2011
Messaggi: 3574
|
Grazie yossarian.
Ora ho capito. Il fraintendimento è su cosa si intenda per shader a questo punto. Un po' come lo è stato con il VLIW. Effettivamente è difficile catalogare questo tipo di architetture. Perché contare le semplici ALU senza considerare la dimensione del vettore su cui operano, non è ancora giusto. 100 unità che operano su un vettore x4 sono diverse da 100 che operano su un vettore x2. Tuttavia il fraintendimento è tra il numero di queste ALU e quelle vecchie scalari. Una volta che si è capito come "contarle" allora si possono fare i confronti. A questo punto la cosa più facile per "indovinare" le presunte prestazioni è vedere quali altre risorse hanno aumentato. Le TMU sono raddoppiate, e se tanto mi dà tanto... |
![]() |
![]() |
![]() |
#43 | |
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
![]() |
|
![]() |
![]() |
![]() |
#44 | ||
Senior Member
Iscritto dal: Oct 2005
Messaggi: 38297
|
Quote:
Quote:
![]() edit: se così fosse l'architettura nvidia, si perderebbe quella "facilità" a programmare i driver che si aveva con la superscalare, e che era imho uno dei punti di forza nVidia da g80 a Fermi?
__________________
Corsair 5000D - Ryzen 7 7700 - Asrock B650E PG - 2x16gb G.Skill Trident Z5 ddr5 6000 mhz - GeForce Rtx 4070Ti S. - Samsung 980 pro 1tb + Crucial mx500 1tb + WD 1tb - Corsair rm850w - LG oled C4 48 le vga che ho avuto Ultima modifica di appleroof : 11-02-2012 alle 13:47. |
||
![]() |
![]() |
![]() |
#45 | ||
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Quote:
non necessariamente, ma perderesti l'efficienza di un'architettura superscalare, guadagnando in "forza bruta". Insomma, tante unità di calcolo in più ma minor efficienza architetturale |
||
![]() |
![]() |
![]() |
#46 | ||
Senior Member
Iscritto dal: Oct 2005
Messaggi: 38297
|
Quote:
![]() Quote:
![]() ok grazie, spero comunque non si abbia una situazione tipo la vliw e il compilatore ecc ecc
__________________
Corsair 5000D - Ryzen 7 7700 - Asrock B650E PG - 2x16gb G.Skill Trident Z5 ddr5 6000 mhz - GeForce Rtx 4070Ti S. - Samsung 980 pro 1tb + Crucial mx500 1tb + WD 1tb - Corsair rm850w - LG oled C4 48 le vga che ho avuto |
||
![]() |
![]() |
![]() |
#47 | |
Bannato
Iscritto dal: Jan 2012
Messaggi: 1798
|
Quote:
![]() ![]() ![]() ![]() |
|
![]() |
![]() |
![]() |
#48 |
Senior Member
Iscritto dal: Oct 2001
Messaggi: 14734
|
Beh a dire il vero, a parte nelle prime incarnazioni, le Vliw mi pare finora abbiano funzionato meglio della concorrenza.
Ma come ha detto Yossarian, due elementi ne hanno favorito l'abbandono da parte di AMD: la difficoltà ad ottimizzare i driver dovuta alla crescente complessità e la necessità di utilizzare la gpu come strumento di calcolo generico fino alla sua integrazione con la cpu (hsa). |
![]() |
![]() |
![]() |
#49 | |
Bannato
Iscritto dal: Jan 2012
Messaggi: 1798
|
Quote:
![]() ![]() |
|
![]() |
![]() |
![]() |
#50 | |
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Rimuovere hotclock, ma mantenere lo stesso throughtput con il doppio delle alu al reference clock. Se nvidia non spara numeri a caso (0.1mm2|40nm per una FPU, oltretutto a 64bit), stiamo parlando di qualche decina di mm2 in più. Ultima modifica di Ren : 11-02-2012 alle 18:05. |
|
![]() |
![]() |
![]() |
#51 | |
Senior Member
Iscritto dal: Oct 2001
Messaggi: 14734
|
Quote:
Ma dato che qui stiamo parlando di architettura, ciò che conta è il chip con migliori prestazioni per mm^2 e con certi consumi, non quello che aveva migliori prestazioni in assoluto. |
|
![]() |
![]() |
![]() |
#52 | |
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Sul risparmio energetico, invece, è vero che se ho il doppio delle unità di calcolo a frequenza dimezzata consumo di meno. |
|
![]() |
![]() |
![]() |
#53 | |
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Per la serie, se una fpu 64bit occupa 0.1mm2, quella da 32bit occuperà ancora meno... |
|
![]() |
![]() |
![]() |
#54 |
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
ma fermi non ha fpu a 64 bit, per questo non ho chiaro a cosa abbiano fatto riferimento e non mi è chiaro cosa c'entri la frequenza dimezzata delle alu con i calcoli a 64 bit.
|
![]() |
![]() |
![]() |
#55 | |
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Infatti la frequenza non centra niente nei calcoli 64bit. Ultima modifica di Ren : 11-02-2012 alle 19:34. |
|
![]() |
![]() |
![]() |
#56 | ||
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
Quote:
Ultima modifica di yossarian : 11-02-2012 alle 23:31. |
||
![]() |
![]() |
![]() |
#57 | |
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Yoss non fissarti su questa benedetta alu fp64, perchè era una semplice unità di misura in mm2, per capire quanto una alu occupi. Non c'entra una mazza (è fuori contesto) con il funzionamento di fermi o altre GPU.
Quote:
Spero di essermi spiegato, perchè comincio ad accusare la stanchezza... ![]() |
|
![]() |
![]() |
![]() |
#58 | |
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
![]() 512x2 non ha senso. Il fatto che le 512 alu di fermi funzionino a frequenza doppia rispetto al resto del chip non comporta il raddoppio della logica di controllo. Si tratta semplicemente di uno stadio che lavora a velocità doppia rispetto al resto ma i cui risultati sono messi a disposizione dei restanti stadi che lavorano a frequenze "ordinarie". Insomma, non c'è una doppia pipeline una per le frequenze normali e una per le frequenze doppie ma un'unica pipeline con stadi che lavorano a frequenza differente per il semplice motivo che il numero di fpu è sottodimensionato rispetto ai restanti blocchi del chip. Questo significa che le linee di trasmissione controllo, i thread processor, gli scheduler, i sequencer non sono raddoppiati. Questo significa che passare da 512 alu da 1500 Mhz a 1024 alu da 750 MHz ti permette di risparmiare solo i transistor necessari ai moltiplicatori di frequenza (ovvero, praticamente, niente). Quello che ti permette di risparmiare è l'utilizzo di alu vettoriali. Se fosse vero quello che sostieni, allora nVidia avrebbe, finora, sbagliato tutto, in quanto se avesse sostituito n alu a x MHz con 2n alu a x/2 MHz avrebbe ottenuto le stesse prestazioni con consumi minori, a parità di die size. Invece era proprio questo che non era possibile ottenere e si è dovuti ricorrere al "trucco" delle frequenze doppie per le fpu. Per farlo,è sufficiente inserire dei moltiplicatori di frequenza lungo la pipeline che raddoppino il clock in ingresso allo shader dore e lo dimezzino in uscita dallo shader core. Ultima modifica di yossarian : 12-02-2012 alle 00:41. |
|
![]() |
![]() |
![]() |
#59 | |
Senior Member
Iscritto dal: Oct 2005
Messaggi: 38297
|
Quote:
No andavano di più perché più efficiente l'architettura, e forse se nvidia non avesse avuto la necessità -di fatto non è stata proprio una scelta- di entrare nel mercato hpc, forse sarebbero state pure più vicine alle p/w della concorrenza in ambito gaming. In ambito gpgpu pensa che fermi è vantaggioso performance/watt.
__________________
Corsair 5000D - Ryzen 7 7700 - Asrock B650E PG - 2x16gb G.Skill Trident Z5 ddr5 6000 mhz - GeForce Rtx 4070Ti S. - Samsung 980 pro 1tb + Crucial mx500 1tb + WD 1tb - Corsair rm850w - LG oled C4 48 le vga che ho avuto |
|
![]() |
![]() |
![]() |
#60 | |
Senior Member
Iscritto dal: Oct 2001
Messaggi: 14734
|
Quote:
Prima di tutto, l'efficienza intesa come sfruttamento delle alu non è un parametro di paragone. Si sa che VLIW ha più difficoltà a sfruttare tutte le unità di calcolo, ma questo fa parte della scelta di questo tipo di architettura. Per capirci... che ti importa se riesci a sfruttare solo la metà delle tue alu quando rispetto all'altra architettura, nello stesso spazio, riesci a metterne il triplo? (i numeri sono a caso, è giusto per fare un esempio concettuale). Per l' "andare di più" non vedo come tu possa affermare una cosa simile, dato che il rapporto dimensione/potenza è sempre stato a favore delle amd con architettura VLIW, con casi eclatanti come le hd4xxx contro le gtx2xx. |
|
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 17:47.