Pascal: nuova architettura con memoria 3D e NVLink

Pascal: nuova architettura con memoria 3D e NVLink

Jen-Hsun Huang ha rivelato al GTC le prossime due architetture NVIDIA per le future GPU: si tratta di Pascal e di Volta.

di pubblicata il , alle 19:10 nel canale Schede Video
NVIDIA
 

La prossima architettura NVIDIA, nome in codice Pascal, sarà pensata principalmente per sfruttare le nuove tecnologie come le DirectX 12. Pascal, che arriverà nel 2016, offrrirà il doppio delle performance per watt rispetto a Maxwell e sarà quattro volte più performante in termini di mixed precision.

Sarà il primo chip grafico con memoria stacked, sfruttando una nuova tecnologia che consente di installare memoria DRAM su più strati. La memoria 3D chip stack all'interno dello stesso chip della GPU, infatti, permetterà al processore grafico di elaborare i dati più velocemente aumentando allo stesso tempo la larghezza di banda, con miglioramenti sensibili anche in termini di efficienza energetica.

Il nuovo sistema di memoria unificata, inoltre, permetterà alla CPU di accedere alla memoria della GPU e viceversa. Pascal si caratterizzerà anche per NVLink, il nuovo sistema di connessione che sostituirà l'attuale bus PCI-Express. NVLink migliorerà le comunicazioni tra CPU e GPU, passando a 80GB al secondo rispetto agli 16GB al secondo della connessione PCIe. Visto che NVLink richiede un nuovo design per le schede madri, però, è probabilmente che almeno inizialmente venga utilizzato solo per le soluzioni server.

23 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
gd350turbo17 Marzo 2015, 19:41 #1
Tutto bello, tranne l'nvlink...
AleLinuxBSD17 Marzo 2015, 19:52 #2
Trattandosi di un bus proprietario nVidia è improbabile che troverà spazio in soluzioni desktop o normali server.
Non resta che sperare in miglioramenti sostanziali dello standard Pci Express in grado di limitare il collo di bottiglia che produce inferiori prestazioni nel caso d'uso di sistemi a memoria unificata.
Problema non di poco conto, dato che non essere limitati alla memoria della scheda video, ma fortemente penalizzati al livello di prestazioni, non è in grado di soddisfare determinati requisiti in determinate applicazioni.
Mentre al livello di collegamenti tra sole schede video nVidia (GPU↔GPU connections) ritengo usciranno soluzioni, senza problemi, dato che non penso richiedano modifiche di nessun genere alla scheda madre.

Riferimenti:
NVLink, Pascal and Stacked Memory: Feeding the Appetite for Big Data
NVIDIA Updates GPU Roadmap; Unveils Pascal Architecture For 2016
What Is NVLink? And How Will It Make the World’s Fastest Computers Possible?
pabloski17 Marzo 2015, 22:18 #3
Perchè non sono entrati nella fondazione HSA invece di reinventare la ruota? La loro soluzione è in pratica uguale a hUMA, con l'aggravante di aver aggiunto un bus proprietario.

Sul fronte HSA la situazione attuale è questa http://www.phoronix.com/scan.php?pa...-1.0-Final-Spec
marchigiano17 Marzo 2015, 22:22 #4
be a me piacerebbe che la mobo fosse senza slot ram e la cpu potesse accedere a quella video che è velocissima... ma non credo che questo nvlink funzioni così
acerbo18 Marzo 2015, 00:16 #5
Originariamente inviato da: marchigiano
be a me piacerebbe che la mobo fosse senza slot ram e la cpu potesse accedere a quella video che è velocissima... ma non credo che questo nvlink funzioni così


cosi' buttiamo tutti i sistemi con gpu integrata nella cpu
cdimauro18 Marzo 2015, 06:26 #6
Originariamente inviato da: marchigiano
be a me piacerebbe che la mobo fosse senza slot ram e la cpu potesse accedere a quella video che è velocissima...

Ma anche no, visto che la memoria video (GDDR) ha latenze molto più elevate rispetto alla memoria di sistema (DDR), che incidono negativamente sul codice più "general purpose" che è quello eseguito dalla CPU (anche quando esegue codice SIMD, che è più lineare e trae vantaggio dalla maggior banda, le istruzioni non posso rimanere appese per centinaia e centinaia di cicli di clock perché le prestazioni ne risentono tantissimo).

Banda != velocità. C'è anche la latenza come parametro prestazionale.
roccia123418 Marzo 2015, 07:29 #7
Niente da fare, nvidia è come sony, se non tira fuori qualcosa di proprietario non è contenta .

Spero che questo nvlink fallisca miseramente... che cavolo di bisogno c'è di fare una soluzione proprietaria quando pci-express 4 è alle porte e garantirà 32GB/s di banda per collegamenti 16x?
CrapaDiLegno18 Marzo 2015, 09:42 #8
Originariamente inviato da: pabloski
Perchè non sono entrati nella fondazione HSA invece di reinventare la ruota? La loro soluzione è in pratica uguale a hUMA, con l'aggravante di aver aggiunto un bus proprietario.

Sul fronte HSA la situazione attuale è questa http://www.phoronix.com/scan.php?pa...-1.0-Final-Spec

Perché accedere alla memoria su scheda discreta non è uguale ad accedere alla memoria di sistema condivisa tra CPU e GPU integrata?
Non puoi accedere alla memoria della GPU discreta se il controller di memoria a bordo della CPU (che ora è di Intel/AMD, non più su chipset esterno come un tempo) non ha un bus fatto apposta per accedervi.

Originariamente inviato da: roccia1234
Niente da fare, nvidia è come sony, se non tira fuori qualcosa di proprietario non è contenta .

Spero che questo nvlink fallisca miseramente... che cavolo di bisogno c'è di fare una soluzione proprietaria quando pci-express 4 è alle porte e garantirà 32GB/s di banda per collegamenti 16x?

Si parla di 32GB contro 80. 2,5 volte. Forse per giocare a Battlefield non ha importanza, ma per le operazioni di calcolo ogni GB è importante.
Non è reinventare la ruota o creare una soluzoine proprietaria tanto per: è necessaria per nvidia per superare i limiti imposti da Intel/AMD con i loro memory controller e linee PCI risicate.
pabloski18 Marzo 2015, 09:59 #9
Originariamente inviato da: CrapaDiLegno
Perché accedere alla memoria su scheda discreta non è uguale ad accedere alla memoria di sistema condivisa tra CPU e GPU integrata?


Dal punto di vista dei componenti coinvolti cambia l'implementazione fisica, ma il meccanismo è lo stesso. In pratica se non hai la memoria unificata non puoi nemmeno cominciare a fare questa cosa.

Non credo ci siano differenze insanabili tra le due implementazioni ( ma magari mi sbaglio ), per questo mi sono chiesto "perchè non si sono messi d'accordo con AMD piuttosto che introdurre l'ennesimo meccanismo proprietario?".

Poi ho letto "deep learning" e ho capito il perchè!
CrapaDiLegno18 Marzo 2015, 10:03 #10
Originariamente inviato da: pabloski
Dal punto di vista dei componenti coinvolti cambia l'implementazione fisica, ma il meccanismo è lo stesso. In pratica se non hai la memoria unificata non puoi nemmeno cominciare a fare questa cosa.

Non credo ci siano differenze insanabili tra le due implementazioni ( ma magari mi sbaglio ), per questo mi sono chiesto "perchè non si sono messi d'accordo con AMD piuttosto che introdurre l'ennesimo meccanismo proprietario?".

Poi ho letto "deep learning" e ho capito il perchè!


Perché quella AMD non è l'unica piattaforma su cui le schede nvidia devono funzionare. Anzi. Interesse su quelle pari a zero.
Le discrete di nvidia devono funzionare principalmente sui server (da qui l'accordo con IBM) e poi sulle worstation.
Se Intel non vuole (come ovvio che sia) che il suo memory controller possa accedere a pezzi di memoria esterni a velocità supersonica, per nvidia non c'è altro modo che inventarsi una soluzione diversa che bypassi il problema alla radice. E che vale per tutti.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^