[Riflessioni] Intervista a David Kirk di Vifani - Pagina 4

Banus · 14-11-2004, 14:13

Quote:

Originariamente inviato da yossarian
Si, R500 dovrebbe avere un'architettura con 48 alu polifunzionali più 16 texture unit; una società consociata di ATi (intrinsity) sta da tempo conducendo esperimenti su processori con unità SIMD, enormi cache interne e frequenze molto elevate (raggiungibili grazie alla semplicità del chip).

Questa cosa non la sapevo...

Comunque con unità semplici non ci sono problemi per la propagazione dei segnali nel chip e sulla lunghezza delle interconnessioni, che pongono un limite superiore al clock raggiungibile...
C'è da considerare che la potenza delle GPU attuali è limitata dalla frequenza relativamente bassa. Un ipotetico NV40 a 2GHz avrebbe l'impressionante potenza teorica di 128 Gflops a 32 bit.

Quote:

Ho parlato di risparmio di banda perchè, nel caso la tile 8x8, quella alla display resolution, tanto per intenderci, non è caricata on chip, la sua analisi avviene in post processing, quando è già stata effettuata l'operazione di texturing; questo significa che è sempre presente il rischio di overdraw. In caso contrario, lo z-test preventivo rimuove tutti i poligoni, non si ha overdraw e lo z-test effettuato in post processing (perchè in ogni caso si effettua un doppio controllo, prima e dopo le operazioni di texturing), ha solo il compito di mero controllo

Lo Z-test preventivo non può essere eseguito anche prelevando i pixel direttamente dallo Z-buffer senza caricare in memoria tutto il blocco? in ogni modo il test sui blocchi avviene sul "Tile Z Buffer", e richiede nel caso di decisione a livello 2x2 pixel, 4x4 valori. Eventuali pixel non scartati saranno rimossi dallo Z-test preventivo, senza sprecare cicli di shading/texturing.
Comunque questo significa fare 2 accessi successivi alla memoria, prima sullo Z buffer e poi sul texture buffer.

Una cosa che non stavo assolutamente considerando:qui viene sottolineato il fatto che l'efficacia di Hierarchical Z e Early Z test dipende strettamente dall'ordine dei poligoni. Se l'ordine è back to front si ottiene overdraw massimo con in più l'overhead dei test aggiuntivi. Al contrario il Kyro eseguendo un'ordinamento di tutti i poligoni della tile ha in ogni caso overdraw nullo.

yossarian · 14-11-2004, 14:35

Quote:

Originariamente inviato da Banus
Questa cosa non la sapevo...

Comunque con unità semplici non ci sono problemi per la propagazione dei segnali nel chip e sulla lunghezza delle interconnessioni, che pongono un limite superiore al clock raggiungibile...
C'è da considerare che la potenza delle GPU attuali è limitata dalla frequenza relativamente bassa. Un ipotetico NV40 a 2GHz avrebbe l'impressionante potenza teorica di 128 Gflops a 32 bit.

problemi sulla propagazione dei segnali no; sulla lunghezza e sulla quantità (e di conseguenza sulla tipologia) delle interconnessioni, invece, si (esistono diverse soluzioni al riguardo.
E oltre a questo, ci sono anche altri problemi da risolvere (che sarebbe un po' lungo da elencare). Però si tratta, in ogni caso, di architetture più efficienti e, soprattutto, che possono garantire un parallelismo notevolmente maggiore (necessario nelle applicazioni video, coma ha giustamente sottolineato Kirk).

Quote:

Originariamente inviato da Banus
.

Lo Z-test preventivo non può essere eseguito anche prelevando i pixel direttamente dallo Z-buffer senza caricare in memoria tutto il blocco? in ogni modo il test sui blocchi avviene sul "Tile Z Buffer", e richiede nel caso di decisione a livello 2x2 pixel, 4x4 valori. Eventuali pixel non scartati saranno rimossi dallo Z-test preventivo, senza sprecare cicli di shading/texturing.
Comunque questo significa fare 2 accessi successivi alla memoria, prima sullo Z buffer e poi sul texture buffer.

un'analisi pixel per pixel nello z-buffer canonico imporrebbe continui accessi alla ram video (cosa assolutamente da evitare per non vedere decadere le prestazioni, poichè si tratta di una delle operazioni più "lente" di un chip grafico 8l'elevato parallelismo serve proprio a processare il maggior numero di pixel per pass, evitando, il più possibile, accessi alla ram video).

Quote:

Originariamente inviato da Banus

Una cosa che non stavo assolutamente considerando:qui viene sottolineato il fatto che l'efficacia di Hierarchical Z e Early Z test dipende strettamente dall'ordine dei poligoni. Se l'ordine è back to front si ottiene overdraw massimo con in più l'overhead dei test aggiuntivi. Al contrario il Kyro eseguendo un'ordinamento di tutti i poligoni della tile ha in ogni caso overdraw nullo.

il link che hai postato, fa riferimento allo z-test dell'R200 che ancora presentava il problema dell'overdraw.
Una scansione back to front, in quel caso, non solo era affetta da overdraw (che era presente anche nella front to back) ma costringeva anche il chip ad effettuare quasi sempre entrambi gli step dello hyerarchical-z test, con notevole spreco di cicli di clock (praticamente si ottiene l'effetto opposto a quello che un ordinamento di tipo hyerarchical si propone, ossia di risparmiare cicli).
Il TBR del Kyro, invece, per la sua stessa natura, risulta quasi "trasparente" all'ordine in cui sono effettuate le operaziooni.
Nel caso dell'R300/R420, invece, in caso di back to front, non si ha overdraw, ma si ha il problema dello spreco di cicli di clock (per giunta peggio che nel caso dell'R200, poichè l'R300 ha un livello in più).

Banus · 14-11-2004, 15:17

Quote:

Una scansione back to front, in quel caso, non solo era affetta da overdraw (che era presente anche nella front to back) ma costringeva anche il chip ad effettuare quasi sempre entrambi gli step dello hyerarchical-z test, con notevole spreco di cicli di clock (praticamente si ottiene l'effetto opposto a quello che un ordinamento di tipo hyerarchical si propone, ossia di risparmiare cicli).

Sì hai ragione, mi sono confuso. Stavo ragionando pensando al caso della rasterizzazione immediata del triangolo.

Strumenti
Mostra una versione stampabile Invia questa pagina per email