NVIDIA Fermi, la nuova architettura scopre le carte

NVIDIA Fermi, la nuova architettura scopre le carte

L'architettura Fermi, nome ufficiale sicuramente più suggestivo scelto da Nvidia per GT300, mostra le proprie potenzialità con numeri davvero impressionanti. Fermi andrà a costituire la base per le proposte commerciali destinate al mondo desktop di fascia alta, per i professionisti e per gli High Performance Computer

di , , pubblicato il nel canale Schede Video
NVIDIA
 

Interfaccia memoria

Molte novità sono state introdotte nell'architettura Fermi anche per quanto concerne la memoria video. L'importanza di questo componente è ben nota, per quanto concerne la bandwidth massima messa a disposizione, in ambito gaming ma non bisogna dimenticare come più che la bandwidth pura in ambito HPC il quantitativo di memoria video rivesta un ruolo fondamentale. Questo spiega, ad esempio, il passaggio da una dotazione di 1,5 Gbytes a quella di 4 Gbytes implementato da NVIDIA tra prima e seconda generazione di schede video della famiglia Tesla.

NVIDIA non ha specificamente dichiarato quali saranno i quantitativi di memoria video implementati nelle diverse famiglie di schede basate su architettura Fermi. Considerando l'ampiezza del bus memoria una proposta base, destinata presumibilmente al mercato delle soluzioni gaming della serie GeForce, integrerà 1,5 Gbytes di memoria video, quantitativo che potrebbe crescere a 3 Gbytes sino a 6 Gbytes per le proposte delle serie Quadro e Tesla.

Il bus memoria introdotto con le soluzioni Fermi avrà ampiezza di 384 bit, valore superiore del 50% rispetto ai 256bit delle soluzioni RV870 di ATI ma inferiore prendendo quale riferimento i 512 bit delle soluzioni GeForce GTX serie 200 top di gamma. Per meglio capire la ratio che ha portato NVIDIA a questa scelta architetturale è necessario indicare quale tecnologia di memoria video verrà supportata: parliamo di GDDR5, la stessa delle soluzioni RV870, capace del doppio di bandwidth a parità di frequenza di clock rispetto alle memorie GDDR3 adottate da NVIDIA per le soluzioni della famiglia GT200.

Mancando indicazioni sulla frequenza di clock delle memorie abbinate alle GPU Fermi possiamo avanzare solo alcune supposizioni su quello che ne sarà il valore di bandwidth, ipotesi che riassumiamo nella tabella seguente:

Specifiche NVIDIA Fermi NVIDIA GTX 285 NVIDIA GTX 295 ATI Radeon HD 4890 ATI Radeon HD 4870X2 ATI Radeon HD 5870
quantitativo memoria 1.500MB (?) 1.024MB 1.792MB 1.024MB 2.048MB 1.024MB
tipologia memoria GDDR5 GDDR3 GDDR3 GDDR5 GDDR5 GDDR5
clock memoria 4.000 MHz (?)
4.800 MHz (?)
2.480 MHz 2.200 MHz 3.900 Mhz 3.600 MHz 4.800 MHz
interfaccia memoria 384bit 512bit 2x448bit 256bit 2x256bit 256bit
bandwidth memoria 192 GB/s
230,4 GB/s
158,7 GB/s 246,4 GB/s 124,8 GB/s 230,4 GB/s 153,6 GB/s

Ipotizzando una frequenza di clock della memoria GDDR5 conservativa, pari a 4.000 MHz effettivi, se ne ottiene un valore di bandwidth massimo teorico pari a 192 Gbytes al secondo, in aumento del 21% circa rispetto a quanto messo a disposizione dalle soluzioni GeForce GTX 285. Prendendo quale riferimento i 4.800 MHz delle schede ATI Radeon HD 5870 se ne otterrebbe una bandwidth massima teorica pari a 230,4 Gbytes al secondo, identica a quella delle soluzioni ATI Radeon HD 4870 X2 che tuttavia possono contare su due GPU e due quantitativi di memoria che operano parallelamente, per i quali quindi la bandwidth complessiva viene aggregata.

Una delle principali innovazioni introdotte da NVIDIA sul versante memoria in Fermi è il supporto ECC (Error Correcting Code), implementato in modo completo. A titolo di confronto le soluzioni RV870 implementano un dispositivo di controllo degli errori all'interno del bus memoria, ma non possono correggerli: questa funzionalità è stata invece implementata in Fermi pensando non all'ambito gaming ma specificamente alle applicazioni Tesla. Il controllo ECC è stato implementato su tutte le tipologie di memoria interne alla GPU: dal file di registro alle cache L1 e L2. L'implementazione ECC scelta per la memoria DRAM è compatibile sia con moduli GDDR5 sia con quelli SDDR3, a seconda del tipo di implementazione scelto per la specifica scheda.

Lo spazio di accesso alla memoria è stato unificato nelle soluzioni Fermi, con un approccio a 64bit: la conseguenza è che c'è solo una istruzione per il caricamento della memoria, indipendentemente dal fatto che questa sia di tipo locale per uno specifico thread, condivisa tra gruppi di thread o globale per il kernel. Questo semplifica l'approccio seguito dai programmatori nello scrivere il proprio codice, funzionalità inoltre richiesta esplicitamente per poter abilitare il supporto C++ con queste nuove architetture di GPU.

Anche la dimensione dello spazio che può essere indirizzato è aumentato dai 32bit delle precedenti architetture G80 e GT200 sino a 64bit: questo permette di gestire schede video che integrino un quantitativo di memoria video superiore a 4 Gbytes. Il limite attuale implementato nel chip è di 40bit, pari quindi a 1 Terabyte di memoria.

 
^