Instinct MI250 e MI250X, così AMD vuole sverniciare NVIDIA nei settori HPC e IA

Instinct MI250 e MI250X, così AMD vuole sverniciare NVIDIA nei settori HPC e IA

Due GPU su un singolo package, 58 miliardi di transistor, 128 GB di memoria HBM2E e prestazioni da urlo per i nuovi acceleratori AMD Instinct MI250 e MI250X che vogliono sconvolgere totalmente lo scenario di mercato aggredendo la leadership di NVIDIA.

di pubblicata il , alle 18:01 nel canale Schede Video
Radeon InstinctAMDCDNA
 

AMD ha presentato Instinct MI250 e MI250X, i nuovi acceleratori della serie Instinct MI200. Oltre a basarsi sulla nuova architettura CDNA 2, successore della CDNA a bordo della serie Instinct MI100, i due prodotti destinati ad accelerare i calcoli HPC e di intelligenza artificiale sono di assoluta rilevanza perché si basano sulla prima GPU multi-die al mondo.

In base a quanto annunciato da AMD, l'acceleratore Instinct MI250X è in grado di offrire prestazioni fino a 4,9 volte maggiori delle proposte concorrenti (NVIDIA A100 Ampere) nei calcoli HPC a doppia precisione (FP64).

L'acceleratore, inoltre, supera i 380 teraflops con i calcoli half-precision (FP16) tipici del settore dell'intelligenza artificiale, lasciandosi alle spalle NVIDIA A100 del 20%. In pratica, con la nuova serie Instinct, AMD dice di essere riuscita a compiere in 1 anno un balzo prestazionale che finora aveva richiesto 7 anni.

I nuovi acceleratori sono, insieme alle CPU EPYC di terza generazione e alla piattaforma open source ROCm 5.0, il cuore pulsante del nuovo supercomputer Frontier dell'Oak Ridge National Laboratory del Dipartimento dell'Energia statunitense, un sistema capace di raggiungere una potenza di picco superiore a 1,5 exaflops.

Soffermiamoci sulla GPU, una soluzione da 58 miliardi di transistor prodotta con processo a 6 nanometri da TSMC. Come detto, si tratta della prima soluzione al mondo basata su due die (AMD parla di GCD, Graphic Compute Die), ognuno con un massimo di 110 CUMI250X conta quindi 220 CU per un totale di 14080 stream processor. L'acceleratore offre una potenza di calcolo con calcoli vettoriali FP32/64 di 47,9 TFLOPs e arriva a 383 TOPs con calcoli INT4/8.

Modello Compute Unit Stream processor FP64 | FP32 Vector (picco) FP64 | FP32 Matrix (picco)  FP16 | bf16 (picco)  INT4 | INT8 (picco)  HBM2E ECC  Bandwidth memoria 
AMD Instinct MI250X 220 (110 x 2) 14080 47,9 TFLOPs 95,7 TFLOPs 383 TFLOPs 383 TOPS 128 GB 3,2 TB/s
AMD Instinct MI250 208 (104 x 2) 13312 45,3 TFLOPs 90,5 TFLOPs 362,1 TFLOPs 362,1 TOPS 128 GB 3,2 TB/s

Il modello MI250, invece, vede alcune unità disabilitate (104 CU attivi) e si ferma a 208 CU e 13.312 stream processor totali. La sua potenza di calcolo scende quindi a 45,3 TFLOPs con calcoli vettoriali FP32/64  e a 362,1 TOPS con INT4/8. In realtà, un GDC completo offre 112 unità (per un totale di 224 sull'intera GPU), ma per questioni di rese produttive AMD ne ha disabilitati alcuni a seconda dell'acceleratore. Per riferimento, una Instinct MI100, la top di gamma di precedente generazione, prevede 120 CU per un totale di 7680 stream processor e 32 GB di memoria HBM2 a 1,2 TB/s.

Ogni GDC è dotato anche di due Video Codec Next (VCN) per codifica e decodifica dei flussi di dati (immagini e video) in entrata e uscita. Il VCN supporta H.264/AVC, HEVC, VP9 e JPEG per la decodifica e H.264/AVC e HEVC per la codifica.

AMD ha rivisto anche la gerarchia della memoria: ogni GCD offre 8 MB di cache L2 con una bandwidth raddoppiata a 128 byte per clock. L'architettura CDNA 2 integra inoltre fino a 880 Matrix Core di seconda generazione per accelerare operazioni tra matrici FP64 e FP32, fornendo fino a quattro volte la potenza di picco teorica FP64 rispetto alle GPU di generazione precedente. A tutto questo si aggiungono 64 GB di memoria HBM2E per GCD, per un totale di 128 GB di memoria HBM2E a 3,2 TB/s.

Realizzare una GPU multi-die ha richiesto ad AMD di approntare una nuova tecnologia chiamata 2.5D Elevated Fanout Bridge (EFB) che permette di avere l'80% di core in più e 2,7 volte la bandwidth di memoria delle GPU AMD precedenti, il tutto usando substrati standard.

Un altro tassello per realizzare sistemi come Frontier è la terza generazione della tecnologia di interconnessione Infinity Fabric: un massimo di 8 collegamenti permettono agli acceleratori di scambiarsi dati ad altissima velocità (fino a 800 GB/s) con le CPU EPYC e gli altri acceleratori Instinct presenti nel "nodo di calcolo", offrendo una memoria unificata e coerente tra CPU e GPU per un throughput al massimo livello.

L'interconnessione Infinity Fabric di terza generazione è usata anche all'interno della GPU per collegare i GCD tra loro con una bandwidth bidirezionale di 400 GB/s e questo permette al sistema di vedere la GPU come se fosse una sola nonostante vi siano due die. Quanto ai consumi, gli acceleratori richiedono raffreddamento a liquido per toccare le massime prestazioni e gestire il TDP di picco di 560W. Nel caso si usi un sistema di raffreddamento ad aria, si perde qualcosa sul fronte prestazionale e anche la richiesta scende a 500W. A completare il tutto, la nuova piattaforma open ROCm 5.0 per dare a scienziati e ricercatori il massimo del supporto in termini di sviluppo, al fine di ottimizzare il loro codice per la nuova architettura CDNA 2.

AMD Instinct MI250X e MI250 debuttano formato nel OCP Accelerator Module (OAM), ma arriverà anche una scheda chiamata Instinct MI210 in formato PCI Express per i server generici.

Il modello MI250X è attualmente disponibile da HPE tramite il supercomputer Cray EX, mentre bisognerà attendere il Q1 2022 per vederla sui sistemi di ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo e Supermicro.

9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
joe4th08 Novembre 2021, 20:00 #1
47.9 TFLOPS in FP64 (sempre che siano veri, l'asterisco "di picco" e' gia' sospetto...), cioe' 5 volte l'A100 e' pazzesco. Ci equipaggeranno i prossimi sistemi della Top500. Vedremo NVidia come rispondera'...
rolling7108 Novembre 2021, 20:06 #2
Il titolo rovina l’articolo “sverniciare”, un po’ più di sobrietà sarebbe gradita.
supertigrotto08 Novembre 2021, 21:02 #3
prove generali su come potrebbe essere rdna3?
Intel e Amd già avevano dichiarato che il futuro delle gpu è chiplet,mentre Nvidia per ora e nel prossimo futuro userà architetture monolitiche,a detta di Nvidia,le monolitiche sono più efficienti,anche se ha tenuto una porticina aperta per un futuro chiplet anche per le sue geforce.
In effetti il monolitico è più efficiente in termini di latenza e velocità ma la complessità delle architetture produce molti scarti,mi ricordo che le titan con tutto attivato,arrivarono molto ma molto dopo,appunto per via delle rese molto scarse.
Con i chiplet le architetture sono semplificate,sono più semplici da produrre,hanno delle rese di produzioni maggiori e pochissimi scarti,se ben orchestrate la differenza con il monolitico è veramente pochissima,solo che è più facile scalare in potenza.
Tetrahydrocannabin08 Novembre 2021, 21:47 #4
Originariamente inviato da: rolling71
Il titolo rovina l’articolo “sverniciare”, un po’ più di sobrietà sarebbe gradita.

Concordo in pieno, mi sono cadute le braccia quando l'ho letto.
giuvahhh09 Novembre 2021, 04:01 #5
se introducessero una sorta di sli (trasparente al software cioe' fatto in modo che i programmi e i giochi non si accorgano della doppia gpu e credano di lavorare con una sola, quindi nessuna riscrittura del software) per unire gpu meno performanti sarebbe una bella cosa.
boboviz09 Novembre 2021, 10:59 #6
Il problema, a mio avviso, rimane l'ecosistema sw di AMD.
ROCM deve assolutamente fare un bel balzo in avanti.
jepessen09 Novembre 2021, 11:58 #7
Scusate l'ignoranza, ma non ho capito come questi chip vengano collegati al sistema con quei PCB, dato che non mi sembra di vedere nessun connettore. Forse ci sono dei pin nell'altro lato del PCB che si inseriscono nella scheda madre?
--Less-09 Novembre 2021, 18:15 #8
Originariamente inviato da: rolling71
Il titolo rovina l’articolo “sverniciare”, un po’ più di sobrietà sarebbe gradita.


Mi unisco al coro
tuttodigitale26 Novembre 2021, 17:55 #9
Originariamente inviato da: supertigrotto
Con i chiplet le architetture sono semplificate,sono più semplici da produrre,hanno delle rese di produzioni maggiori e pochissimi scarti,se ben orchestrate la differenza con il monolitico è veramente pochissima,solo che è più facile scalare in potenza.

queste tecniche di integrazione multi-chip non sono certo economiche e infatti ogni volta, guarda caso, viene puntualizzato il fatto che le nuove tecniche permettano di abbattere i costi e aumentare le rese.
Non mi è chiaro in che modo l'IF permetta di vedere una sola GPU invece di 2.... seguendo questa logica anche una cpu da 16 core (ma anche 64) dovrebbe essere vista dal sistema operativo come un unico grande core....

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^