17-11-2020, 20:09
|
#9
|
Senior Member
Iscritto dal: May 2005
Messaggi: 12108
|
Quote:
Originariamente inviato da joe4th
Va notato che Fugaku e' un sistema omogeneo, ossia e' basato su processore ARM64 e non ha acceleratori GPU. Per il successivo sistema Fujitsu invece hanno abbandonato quell'architettura e sono tornati ai classici Xeon piu' un certo numero di schede GPU.
Da un punto di vista dell'utilizzo (lato utente) un sistema omogeneo e' molto meno complicato rispetto ai sistemi ibridi. I sistemi ibridi hai le CPU e le GPU e devono essere programmate in maniera differente, inoltre le GPU hanno vantaggi ma anche limitazioni: vantaggi hanno memorie molto veloci, svantaggi, hanno quantitativi molto limitati rispetto alla memoria centrale del nodo. Inoltre le GPU danno il meglio di se in algebra densa. I valori di TFLOPS delle GPU sono generalmente riferiti ai valori di picco in DGEMM (moltiplicazione matrice-matrice in doppia precisione) per una particolare dimensione della matrice, prossima a saturare la memoria della GPU. Fuori da quelle condizioni le prestazioni decrescono molto piu' velocemente che non le CPU.
Quindi programmi sul nodo, e poi aggreghi i nodi in MPI, chiedendo al gestore delle code un certo numero di processori. Raramente ci sono sistemi "logici" che aggregano tutto e li usi in maniera trasparente.
Sarebbe interessante avere qualche altro riscontro che non il semplice risultato del Linpack RMax.
Va ricordato che il primo sistema EXAFLOPS distribuito e' stato raggiunto a marzo/aprile di quest'anno ed era la potenza computazionale del folding@home orientato al covid.
Visto che parlate di potenza computazionale aggregata per paese, sarebbe interessante conoscere il valore della potenza aggregata dell'Unione Europea (tra Marconi-ITA, Julich-GER, MareNostrum-SPA, un centinaio di petaflops penso li spuntiamo, i francesi ce ne hanno?).
|
eh ma piano piano stanno arrivando anche a colmare quel gap; con le A100 da 80GB appena presentate si puo arrivare a 640GB su singolo nodo con 8 GPU e a 1,2 TB di HBM2 condivise con gli HGX e gli nVSwitch da 16 GPU.
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360
|
|
|