|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#61 | |
|
Senior Member
Iscritto dal: Oct 2001
Città: Civitavecchia (RM)
Messaggi: 1525
|
Quote:
Come vedi a parita' di pipe e tmu in dx9 la seconda vanta guadagni prestazionali fino al 50%, il tutto grazie alla sostituzione di unita' di calcolo integer con unita' di calcolo fp. Cio' dimostra come per questa generazione di schede sia fortemente ingannevole basarsi solo sui dati che citi tu. E' ovvio e innegabile che avere piu' pipeline o tmu possa portare dei vantaggi, ma la cosa non e' piu' automatica e proporzionale come accadeva un tempo, il tutto sempre riferendoci alle dx9. Come ti ha sottolineato yoss, non e' consequenziale il concetto "meno pipe = meno unita' PS", il dato e' assolutamente svincolato.
__________________
Com'era l'onda sullo scoglio aperta / cosi su quella fronte a me diletta era il mio amore - e non sapevo quanto / ne gioisse lo scoglio o fosse in pianto. |
|
|
|
|
|
|
#62 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
ciao |
|
|
|
|
|
|
#63 | ||||
|
Senior Member
Iscritto dal: Sep 2001
Città: Pescara
Messaggi: 3695
|
Ok yossarian ora hai davvero destato la mia curiosità...
Innanzitutto complimenti, sei impressionate! Ora passiamo a cose serie Quote:
Sorry! Quote:
L'R300 ha 8 pipe ognuno con una TMU 2 unita FP96? Queste 2 unità compongono entrambe un'unita PS? E quando dici "si tratta di tutte unità di tipo vettoriale, composte da 4 unità scalari FP24" vuoi dire che ogni singola unità FP96 è composta da 4 unità FP24 (1 per canale colore e alpha)? Quote:
Quote:
Vediamo se ho capito! In pratica un'unità VS diciamo dell'R300 può lavorare contemporaneamente su ognuna della 4 coordinate necessarie per gestire correttamente un vertice (a proposito, le coordinate sono la x, y, z e ???) e fa questo raggruppando le unità di calcolo 4 a 4. In questo contesto però un'unità di calcolo nel suo gruppo da 4 può gestire solo un determinato tipo di valore, o per lo meno le 4 unità del gruppo devono necessariamente lavorare su coordinate diverse (es: una con la x, una con la y, ecc.). In un processore come il VP10 invece questo raggruppamento non esiste e le sue unità possono gestire uno qualsiasi delle coordinate di qualsiasi vertice, quindi potremmo trovarci in un caso in cui tutte e 16 le unità di calcolo stanno calcolando la coordinata x di 16 vertici diversi. Giusto (mmm... credo che così sia troooooppo semplice... c'è sicuramente qualcosa che mi sfugge). Ancora: in una GPU come l'R300 ogni unità di calcolo può lavorare su qualsiasi coordinata (es: in una circostanza può ritrovarsi a lavorare con la x, in un'altra con la y, ecc.) oppure sono ottimizzate per eseguire i calcoli sempre su una determinata coordinata, ad es. sempre e solo sulla x (mi sembrerebbe strano però se fosse così...). Un'ultima domanda: cos'è che fa perdere prestazioni (parli di 1/3) alle unità VS del VP10? A proposito credo non sia nemmeno appropriato parlare di unità VS, visto che da quello che ho capito il VP10 "costruisce" le unità a seconda dei calcoli e delle esigenze da soddisfare... giusto? Scusatemi per la palese ignoranza e per la lunghezza del post, ma quando ci vuole ci vuole (e che cavolo... le ultime discussioni hanno un tasso di contenuto tecnico a volte bassissimo; il 90% non sono altro che collezioni di cori da stadio! CIAO! |
||||
|
|
|
|
|
#64 | |
|
Senior Member
Iscritto dal: Sep 2001
Città: Pescara
Messaggi: 3695
|
Quote:
Sisi CS25 su questo hai ragionissima e forse mi sono espresso male io. Volevo solo indicare che secondo me (quindi è tutto da verificare Prova a pensare a un'ipotetica 5700 con sole due pipeline: sicuramente andrebbe molto meno. A proposito, da qualche parte lessi un articolo molto ben fatto dove veniva dimostrato che la 5600 (e quindi suppongo anche la 5700) in realtà avevano una struttura molto flessibile, che permetteva a queste schede di comportarsi come 2x2 o 4x1 a seconda dei casi... qualcuno sa qualcosa del genere? CIAO! |
|
|
|
|
|
|
#65 | |
|
Senior Member
Iscritto dal: Sep 2001
Città: Pescara
Messaggi: 3695
|
Quote:
La Voodoo e la KyroII anche a 16 bit eseguivano internamente i calcoli a una profondita superiore (la Kyro sempre a 32 bit) e quindi, anche quando questi erano scalati a 16 bit in modo da essere "compatibili" con la profondità del framebuffer, il risultato a 16 bit era comunque migliore (a volte di molto) rispetto a quello di altre schede sempre a 16 bit (in genere le schede da me sopra menzionate offrivano un dithering molto meno visibile). E' anche vero che la Voodoo3 aggiungeva un post-filter che poteva cambiare anche significativamente la qualità dell'output (in genere in meglio naturalmente), però credo che come esempio sia comunque valido... CIAO! |
|
|
|
|
|
|
#66 | |
|
Senior Member
Iscritto dal: Oct 2002
Città: San Jose, California
Messaggi: 11794
|
Quote:
No, e' il contrario Proprio adesso che si hanno a disposizione i pixel shader il multitexturing e' diventato praticamente quotidiano. Praticamente ogni shader che ho visto o che ho scritto usa al minimo due texture, spesso tre, quattro (ne ho scritto uno con 8 accessi per passata!). La differenza fra 4x2 e 8x1 non e' tanto data dal single o dal multitexturing ma da quanti accessi a texture si fanno in un blocco di istruzioni o, in altre parole, dal rapport fra istruzioni matematiche e accessi a texture nel pixel shader. Faccio un esempio. Immaginiamo di avere un pixel shader che faccia le seguenti operazioni: 1) accesso a texture 2) somma 3) somma 4) moltiplicazione 5) accesso a texture Ed immaginiamo che la pipeline possa eseguire nello stesso colpo di clock due accessi e a texture e due operazioni matematiche (NV35). Le istruzioni 1, 2 e 3 vengono eseguite in un colpo di clock e poi vengono eseguite le istruzioni 4 e 5. In entrambi i casi, pur essendoci due accessi a texture nel pixel shader (multitexturing), questi vengono eseguiti in due colpi di clock sulle 4 pipeline. In pratica per ogni colpo di clock spreco un accesso a texture che mi sarebbe stato fatto gratis (relativamente). Immaginiamo ora di avere una pipeline che esegue un accesso a texture e due operazioni matematiche (NV40) per colpo di clock, il pixel shader di cui sopra viene eseguito sempre in due colpi di clock ma usa l'hardware al massimo (non spreco nulla). Ovviamente il secondo caso e' piu' veloce perche' ho il doppio di pipeline e quindi riesco a processare il doppio dei pixel nello stesso tempo.
__________________
"We in the game industry are lucky enough to be able to create our visions" @ NVIDIA |
|
|
|
|
|
|
#67 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
|
|
|
|
|
|
|
#68 | |
|
Senior Member
Iscritto dal: Aug 2000
Messaggi: 17963
|
Quote:
__________________
. |
|
|
|
|
|
|
#70 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
ciao |
|
|
|
|
|
|
#71 | |
|
Senior Member
Iscritto dal: Oct 2002
Città: San Jose, California
Messaggi: 11794
|
Quote:
Esatto. Come mi hanno detto ieri, hanno imparato dai loro errori in questa generazione. E hanno aggiunto che ne commetteranno sicuramente altri Sono piuttosto fiducioso per questo chip.
__________________
"We in the game industry are lucky enough to be able to create our visions" @ NVIDIA |
|
|
|
|
|
|
#73 | |
|
Senior Member
Iscritto dal: Oct 2002
Città: San Jose, California
Messaggi: 11794
|
Quote:
L'NV40 implementera' tutte del DX9.1 e sicuramente sara' lo stesso per ATI. Purtroppo sull'R4X0 non ho alcuna informazione.
__________________
"We in the game industry are lucky enough to be able to create our visions" @ NVIDIA |
|
|
|
|
|
|
#74 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
molto dipendarà da quanto si riusciranno ad ottimizzare i cicli interni e da quanti dati sarà possibile processare ad ogni ciclo di clock; con le attuali gpu il calo di prestazioni quando si applicano più textures è ancora imbarazzante. I parametri su cui si sta lavorando e si dovrà lavorare in futuro sono proprio questi due: questo è il motivo per cui l'utilizzo di registri interni sta acquistando sempre maggiore importanza; la difficoltà è trovare un equilibrio tra le varie componenti, tenendo conto delle dimensioni fisiche del die, che non permettono di integrare tutto ciò che si vorrebbe. |
|
|
|
|
|
|
#75 | |
|
Senior Member
Iscritto dal: Aug 2000
Messaggi: 17963
|
Quote:
dico così perchè se considere che una 9800xt su un p4 da 4ghz iperovercloccato da 9000 punti al 3mark2k3 fa 50 fps nel g3 e g4 considera che il 3dmark non sfrutta massivamente le dx9 considera che aa ed aniso erano disabilitati converrai con me che è ben distante dalll'essere il chip definitivo dx9 vedremo loki
__________________
. Ultima modifica di checo : 06-11-2003 alle 17:55. |
|
|
|
|
|
|
#76 | |
|
Senior Member
Iscritto dal: Sep 2001
Città: Pescara
Messaggi: 3695
|
Quote:
CIAO! |
|
|
|
|
|
|
#77 |
|
Senior Member
Iscritto dal: Sep 2001
Città: Pescara
Messaggi: 3695
|
Yossarian posso farti una domada?
Vedo che parli spesso di recirculating pipeline... potresti spiegarmi cosa sono e che vantaggi/svataggi apportano? Ciao e grazie. |
|
|
|
|
|
#78 | ||
|
Senior Member
Iscritto dal: Oct 2002
Città: San Jose, California
Messaggi: 11794
|
Quote:
Quote:
__________________
"We in the game industry are lucky enough to be able to create our visions" @ NVIDIA |
||
|
|
|
|
|
#79 | |
|
Bannato
Iscritto dal: Jul 2003
Città: c'est
Messaggi: 1199
|
Quote:
un test schifoso cosi, con motori ottimizzati col cul@ nn è da prendere in considerazione come abdra un gioco, poi nn è manco dx9 e pure scatta, ma siamo fuori? quelli della futuremark so stupidi inbecilli. ci prendono in giro, o forse c'è l'allenaza futuremark,nvidia,ati cosi la gente stupida vede che i test vanno a 5 fps e si comprano la scheda da 1000 € |
|
|
|
|
|
|
#80 | |
|
Senior Member
Iscritto dal: Mar 2001
Messaggi: 5390
|
Quote:
ciao |
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 16:39.



















