blade9722
18-07-2007, 09:40
Buongiorno a tutti,
ho effettuato qualche prova con le mie 8800GTS 640MB, sia in configurazione single GPU, sia in SLI. In questo modo ho cercato di ricavare informazioni utili su tutte le schede video di fascia alta, e su quanto queste possano essere limitate dalle CPU odierne.
Il mio sistema è:
CPU: Athlon64 X2 3800+ AM2 @ 2700MHz
GPU: 2x8800 GTS 640 MB SLI @ 590/1350/998 MHz
RAM: 2x1GB DDR2
Innanzitutto anticipo che dai test sintetici (Fill-rate, vertex shaders, pixel shaders) le due schede il AFR SLI si comportano secondo le aspettative: un raddoppio secco delle prestazioni. I test nel 3dmark sono stati ripetuti 3 volte per assicurare la stabilità del risultato.
1) 3dmark2006: ricerca dei limiti della CPU
Per cercare i limiti dati dalla CPU ho eseguito i test a risoluzioni più basse fino a quando gli FPS non hanno smesso di aumentare. Il risultato finale, ottenuto in 800x600, è il seguente:
GT1 - Return To Proxycon 36,092 FPS
GT2 - Firefly Forest 37,297 FPS
HDR1 - Canyon Flight 80,030 FPS
HDR2 - Deep Freeze 46,788 FPS
2) 3dmark2006 default settings (1280x1024 no AA)
Single GPU:
3DMark Score 9218 3DMarks
SM2.0 Score 4277
HDR/SM3.0 Score 4275
CPU Score 2071
GT1 - Return To Proxycon 34,778 FPS
GT2 - Firefly Forest 36,501 FPS
CPU1 - Red Valley 0,653 FPS
CPU2 - Red Valley 1,051 FPS
HDR1 - Canyon Flight 39,770 FPS
HDR2 - Deep Freeze 45,735 FPS
SLI:
3DMark Score 10234 3DMarks
SM2.0 Score 4269
HDR/SM3.0 Score 6000
CPU Score 2065
GT1 - Return To Proxycon 34,572 FPS
GT2 - Firefly Forest 36,573 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 66,640 FPS
HDR2 - Deep Freeze 46,064 FPS
Appare evidente come, a parte la scena del Canyon (HDR1), con questi settaggi già una singola 8800GTS sia pesantemente limitata dalla CPU: i valori di 34.7 FPS (GT1), 36.5FPS (GT2), 46FPS (HDR2) sono quelli massimi dati dal limite della CPU
3) 3dmark 2006 1600x1200- AF 16x - AA 8x0
Single CPU:
3DMark Score 7220 3DMarks
SM2.0 Score 3354
HDR/SM3.0 Score 2859
CPU Score 2065
Game Score N/A
GT1 - Return To Proxycon 27,473 FPS
GT2 - Firefly Forest 28,427 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 26,870 FPS
HDR2 - Deep Freeze 30,301 FPS
SLI:
3DMark Score 9663 3DMarks
SM2.0 Score 4427
HDR/SM3.0 Score 4707
CPU Score 2065
Game Score N/A
GT1 - Return To Proxycon 36,155 FPS
GT2 - Firefly Forest 37,635 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 48,275 FPS
HDR2 - Deep Freeze 45,872 FPS
In questo caso la scheda singola non raggiunge i limiti della CPU, ed è correttamente sfruttata. Le due schede in SLI su tre scene su 4 invece sono tarpate dalla CPU. Si noti comi nella scena HDR1, l'unica che appare in grado di mettere alla frusta la GPU, le prestazioni in SLI si avvicinino di molto al raddoppio.
Conclusioni sul benchmark 3dmark2006
I risultati parlano chiaro: in 1280x1024 senza filtri una singola 8800GTS è limitata dalla CPU in tre scene. In 1600x1200 con i filtri attivati la singola scheda invece è ben sfruttata, mentre le due schede in SLI necessitano di un processore più potente. L'unica scena che sembra sfruttare le schede in tutte le situazioni è quella del dragone nel Canyon (HDR1)
____________________________________________________________________________________________________
Lost planet demo: DX9 e DX10
Il demo di Lost Planet recentemente è stato preson in esame da tutte le riviste in quanto permette un confronto diretto fra DX9 e DX10. Come conseguenza, le DX10 sono subito state messe sotto accusa: le prestazioni sembrano calare vertiginosamente senza nessun guadagno nella qualità del rendering.
Per questo motivo ho effettuato un confronto fra DX9 e DX10, oltre che fra single e multi GPU.
1280x960 16xAF 8xAA. Dettagli al massimo. Shadows quality: medium
Ho effettuato direttamente i test con i filtri in quanto senza superavo facilmente 100 FPS.
Single GPU
DX9: Snow 35 FPS Cave 45 FPS
DX10: Snow 31 FPS Cave 41 FPS
SLI AFR
DX9: Snow 65 FPS Cave 46 FPS
DX10: Snow 60 FPS Cave 42 FPS
La prima scena, Snow, sfrutta a dovere la scheda video (barre di carico sempre al massimo), ed in SLI si ha un raddoppio secco delle prestazioni. La seconda scena, Cave, è invece pesantemente CPU limited ed è inchiodata a 40-45 FPS in tutte le condizioni di test.
Confronto DX9-DX10: perlomeno con la 8800GTS, il calo di prestazioni è trascurabile. Per quanto riguarda la qualità video, dagli screenshots è difficle vedere qualche differenza. Dinamicamente si può notare come in DX10 i particle effects (la bufera di neve e le esplosioni) siano più convincenti e volumetrici, e il motion blur sia più accentuato. In definitiva: un leggero miglioramento della qualità di alcuni effetti con un leggero calo di prestazioni.
Ora attivo le shadows quality:high, possibile solo con DX10
In SLI ottengo:
Snow 29 FPS Cave 36 FPS.
La qualità massima delle ombre in DX10 dimezza le prestazioni!!!
Probabilmente è questo che causava il calo vertiginoso descritto dai vari articoli.
Conclusioni sui test di Lost Planet
Anche in questo caso si conferma la tendenza del 3dmark: una scena (snow) sfrutta appieno sia la scheda singola che in SLI, mentre l'altra (Cave) è limitata completamente dalla CPU.
Per quanto riguarda il confronto DX9-DX10, purchè si eviti di attivare la massima qualità delle ombre le DX10 offrono un paio di miglioramenti su alcuni effetti dinamici (particle e motion blur) al prezzo di un leggero calo di prestazioni.
________________________________________________________________________________________________________________
Ma i multi core servono?
Il motivo di tali deludenti risultati va ricercato nell'evoluzione delle CPU negli ultimi anni. Se prendete un Athlon XP 3000+ del 2003 a 1.8 GHz, confrontate i risultati di un benchmark sintetico con un Athlon64 X2 o un Core Duo, vi renderete conto come, una volta disattivato il multi-core e le istruzioni SSE nelle CPU recenti, a parità di condizioni non risulti così lento.
Esempio, usando RightMark CPULite su un Athlon XP 3000+, solo FPU e MMX
Frames processed: 300
Solver FPS: 41.5081
Prerenderer FPS: 98.1367
Renderer FPS: 4.8718
Overall FPS: 4.1746
Su un Core Duo 1.86 GHz, singolo thread, solo FPU e MMX
Frames processed: 300
Solver FPS: 30.0826
Prerenderer FPS: 99.2754
Renderer FPS: 6.2178
Overall FPS: 4.8985
A questo punto, se nel Core Duo il test viene effettuato in multi-thread e sfruttando SSE2/SSE3, la musica cambia:
Frames processed: 300
Solver FPS: 41.5602
Prerenderer FPS: 243.1008
Renderer FPS: 15.8507
Overall FPS: 10.9573
In sintesi, a causa della cronica difficoltà, negli ultimi anni, ad incrementare le frequenze di clock dei processori, AMD e Intel hanno seguito la strategia vincente delle GPU, cioè il parallelismo. Tuttavia una applicazione deve essere sviluppata in modo specifico per sfruttare più core. Con le applicazioni single thread, che sono purtoppo ancora la maggioranza, le CPU attuali non sono poi così più veloci rispetto a quelle del passato, e questa sembra essere la ragione principale dei limit evidenziati
Ritornando sui test effettuati in precedenza, ho notato che se un'applicazione non è veramente multi threaded, l'utilizzo della CPU si aggira intorno al 60% (50% per il rendering + 10% altri processi). Ora, il 3dmark2006 dimostra il tipico comportamento da single thread, con un carico sulla CPU intorno al 50-60%, e abbiamo visto quanto sia CPU limited. In Lost Planet è possibile attivare "concurrent rendering" e "concurrent operations", e l'occupazione della CPU risulta intorno al 90-95%. Ed infatti, almeno per quanto riguarda la scena SNOW, si ha un raddoppio secco delle prestazioni in SLI. Segno che le CPU odierne hanno cmunque un potenziale maggiore di quanto non venga attualmente sfruttato
ho effettuato qualche prova con le mie 8800GTS 640MB, sia in configurazione single GPU, sia in SLI. In questo modo ho cercato di ricavare informazioni utili su tutte le schede video di fascia alta, e su quanto queste possano essere limitate dalle CPU odierne.
Il mio sistema è:
CPU: Athlon64 X2 3800+ AM2 @ 2700MHz
GPU: 2x8800 GTS 640 MB SLI @ 590/1350/998 MHz
RAM: 2x1GB DDR2
Innanzitutto anticipo che dai test sintetici (Fill-rate, vertex shaders, pixel shaders) le due schede il AFR SLI si comportano secondo le aspettative: un raddoppio secco delle prestazioni. I test nel 3dmark sono stati ripetuti 3 volte per assicurare la stabilità del risultato.
1) 3dmark2006: ricerca dei limiti della CPU
Per cercare i limiti dati dalla CPU ho eseguito i test a risoluzioni più basse fino a quando gli FPS non hanno smesso di aumentare. Il risultato finale, ottenuto in 800x600, è il seguente:
GT1 - Return To Proxycon 36,092 FPS
GT2 - Firefly Forest 37,297 FPS
HDR1 - Canyon Flight 80,030 FPS
HDR2 - Deep Freeze 46,788 FPS
2) 3dmark2006 default settings (1280x1024 no AA)
Single GPU:
3DMark Score 9218 3DMarks
SM2.0 Score 4277
HDR/SM3.0 Score 4275
CPU Score 2071
GT1 - Return To Proxycon 34,778 FPS
GT2 - Firefly Forest 36,501 FPS
CPU1 - Red Valley 0,653 FPS
CPU2 - Red Valley 1,051 FPS
HDR1 - Canyon Flight 39,770 FPS
HDR2 - Deep Freeze 45,735 FPS
SLI:
3DMark Score 10234 3DMarks
SM2.0 Score 4269
HDR/SM3.0 Score 6000
CPU Score 2065
GT1 - Return To Proxycon 34,572 FPS
GT2 - Firefly Forest 36,573 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 66,640 FPS
HDR2 - Deep Freeze 46,064 FPS
Appare evidente come, a parte la scena del Canyon (HDR1), con questi settaggi già una singola 8800GTS sia pesantemente limitata dalla CPU: i valori di 34.7 FPS (GT1), 36.5FPS (GT2), 46FPS (HDR2) sono quelli massimi dati dal limite della CPU
3) 3dmark 2006 1600x1200- AF 16x - AA 8x0
Single CPU:
3DMark Score 7220 3DMarks
SM2.0 Score 3354
HDR/SM3.0 Score 2859
CPU Score 2065
Game Score N/A
GT1 - Return To Proxycon 27,473 FPS
GT2 - Firefly Forest 28,427 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 26,870 FPS
HDR2 - Deep Freeze 30,301 FPS
SLI:
3DMark Score 9663 3DMarks
SM2.0 Score 4427
HDR/SM3.0 Score 4707
CPU Score 2065
Game Score N/A
GT1 - Return To Proxycon 36,155 FPS
GT2 - Firefly Forest 37,635 FPS
CPU1 - Red Valley 0,652 FPS
CPU2 - Red Valley 1,047 FPS
HDR1 - Canyon Flight 48,275 FPS
HDR2 - Deep Freeze 45,872 FPS
In questo caso la scheda singola non raggiunge i limiti della CPU, ed è correttamente sfruttata. Le due schede in SLI su tre scene su 4 invece sono tarpate dalla CPU. Si noti comi nella scena HDR1, l'unica che appare in grado di mettere alla frusta la GPU, le prestazioni in SLI si avvicinino di molto al raddoppio.
Conclusioni sul benchmark 3dmark2006
I risultati parlano chiaro: in 1280x1024 senza filtri una singola 8800GTS è limitata dalla CPU in tre scene. In 1600x1200 con i filtri attivati la singola scheda invece è ben sfruttata, mentre le due schede in SLI necessitano di un processore più potente. L'unica scena che sembra sfruttare le schede in tutte le situazioni è quella del dragone nel Canyon (HDR1)
____________________________________________________________________________________________________
Lost planet demo: DX9 e DX10
Il demo di Lost Planet recentemente è stato preson in esame da tutte le riviste in quanto permette un confronto diretto fra DX9 e DX10. Come conseguenza, le DX10 sono subito state messe sotto accusa: le prestazioni sembrano calare vertiginosamente senza nessun guadagno nella qualità del rendering.
Per questo motivo ho effettuato un confronto fra DX9 e DX10, oltre che fra single e multi GPU.
1280x960 16xAF 8xAA. Dettagli al massimo. Shadows quality: medium
Ho effettuato direttamente i test con i filtri in quanto senza superavo facilmente 100 FPS.
Single GPU
DX9: Snow 35 FPS Cave 45 FPS
DX10: Snow 31 FPS Cave 41 FPS
SLI AFR
DX9: Snow 65 FPS Cave 46 FPS
DX10: Snow 60 FPS Cave 42 FPS
La prima scena, Snow, sfrutta a dovere la scheda video (barre di carico sempre al massimo), ed in SLI si ha un raddoppio secco delle prestazioni. La seconda scena, Cave, è invece pesantemente CPU limited ed è inchiodata a 40-45 FPS in tutte le condizioni di test.
Confronto DX9-DX10: perlomeno con la 8800GTS, il calo di prestazioni è trascurabile. Per quanto riguarda la qualità video, dagli screenshots è difficle vedere qualche differenza. Dinamicamente si può notare come in DX10 i particle effects (la bufera di neve e le esplosioni) siano più convincenti e volumetrici, e il motion blur sia più accentuato. In definitiva: un leggero miglioramento della qualità di alcuni effetti con un leggero calo di prestazioni.
Ora attivo le shadows quality:high, possibile solo con DX10
In SLI ottengo:
Snow 29 FPS Cave 36 FPS.
La qualità massima delle ombre in DX10 dimezza le prestazioni!!!
Probabilmente è questo che causava il calo vertiginoso descritto dai vari articoli.
Conclusioni sui test di Lost Planet
Anche in questo caso si conferma la tendenza del 3dmark: una scena (snow) sfrutta appieno sia la scheda singola che in SLI, mentre l'altra (Cave) è limitata completamente dalla CPU.
Per quanto riguarda il confronto DX9-DX10, purchè si eviti di attivare la massima qualità delle ombre le DX10 offrono un paio di miglioramenti su alcuni effetti dinamici (particle e motion blur) al prezzo di un leggero calo di prestazioni.
________________________________________________________________________________________________________________
Ma i multi core servono?
Il motivo di tali deludenti risultati va ricercato nell'evoluzione delle CPU negli ultimi anni. Se prendete un Athlon XP 3000+ del 2003 a 1.8 GHz, confrontate i risultati di un benchmark sintetico con un Athlon64 X2 o un Core Duo, vi renderete conto come, una volta disattivato il multi-core e le istruzioni SSE nelle CPU recenti, a parità di condizioni non risulti così lento.
Esempio, usando RightMark CPULite su un Athlon XP 3000+, solo FPU e MMX
Frames processed: 300
Solver FPS: 41.5081
Prerenderer FPS: 98.1367
Renderer FPS: 4.8718
Overall FPS: 4.1746
Su un Core Duo 1.86 GHz, singolo thread, solo FPU e MMX
Frames processed: 300
Solver FPS: 30.0826
Prerenderer FPS: 99.2754
Renderer FPS: 6.2178
Overall FPS: 4.8985
A questo punto, se nel Core Duo il test viene effettuato in multi-thread e sfruttando SSE2/SSE3, la musica cambia:
Frames processed: 300
Solver FPS: 41.5602
Prerenderer FPS: 243.1008
Renderer FPS: 15.8507
Overall FPS: 10.9573
In sintesi, a causa della cronica difficoltà, negli ultimi anni, ad incrementare le frequenze di clock dei processori, AMD e Intel hanno seguito la strategia vincente delle GPU, cioè il parallelismo. Tuttavia una applicazione deve essere sviluppata in modo specifico per sfruttare più core. Con le applicazioni single thread, che sono purtoppo ancora la maggioranza, le CPU attuali non sono poi così più veloci rispetto a quelle del passato, e questa sembra essere la ragione principale dei limit evidenziati
Ritornando sui test effettuati in precedenza, ho notato che se un'applicazione non è veramente multi threaded, l'utilizzo della CPU si aggira intorno al 60% (50% per il rendering + 10% altri processi). Ora, il 3dmark2006 dimostra il tipico comportamento da single thread, con un carico sulla CPU intorno al 50-60%, e abbiamo visto quanto sia CPU limited. In Lost Planet è possibile attivare "concurrent rendering" e "concurrent operations", e l'occupazione della CPU risulta intorno al 90-95%. Ed infatti, almeno per quanto riguarda la scena SNOW, si ha un raddoppio secco delle prestazioni in SLI. Segno che le CPU odierne hanno cmunque un potenziale maggiore di quanto non venga attualmente sfruttato