Nvidia A100, ci sono 54 miliardi di transistor nella GPU GA100 Ampere

Nvidia ha presentato l'acceleratore Nvidia A100, fino a 20 volte più potente di Tesla V100. A bordo la nuova GPU GA100 basata su architettura Ampere, prodotta a 7 nanometri. Il chip conta 54 miliardi di transistor ed è affiancato da 40 GB di memoria HBM2.

di Manolo De Agostini pubblicata il 14 Maggio 2020, alle 15:36 nel canale Schede Video
NVIDIA Tesla

Nvidia ha presentato il nuovo acceleratore Nvidia A100, successore del Tesla V100 presentato tre anni fa. La nuova proposta punta a scuotere il mercato HPC (High Performance Computing) e dell'intelligenza artificiale con prestazioni fino a 20 volte maggiori rispetto al predecessore.

Per raggiungere questo traguardo, Nvidia ha messo a punto una nuova architettura chiamata Ampere e una GPU identificata dal nome GA100. Realizzata con processo produttivo a 7 nanometri, questa GPU occupa un'area di 826 mm2, conta 54,2 miliardi di transistor e nell'incarnazione a bordo di Nvidia A100 offre 6912 CUDA core FP32 all'interno di 108 SM, affiancati da 432 Tensor core e altrettante unità texture.

Non ci troviamo di fronte al GA100 nella sua forma completa, in quanto la GPU conta nella sua massima espressione ben 128 SM per un totale di 8192 CUDA core, 512 Tensor core e altrettante texture unit. Per confronto, il predecessore GV100, realizzato a 12 nanometri e dotato di 21,1 miliardi di transistor, offre 5376 CUDA core FP32, 672 Tensor core e 336 unità texture in un'area di 815 mm2. In tale forma però non l'abbiamo mai visto, infatti la Tesla V100 offre al massimo 5120 CUDA core e 640 Tensor core per effetto di quattro SM disabilitati (80 attivi su 84).

L'acceleratore Nvidia A100, dotato di connettività PCI Express 4.0, vede anche la presenza sullo stesso package della GPU di 40 GB di memoria HBM2 (5 stack), in grado di offrire un bandwidth di 1,6 TB/s su bus a 5120 bit (10 controller a 512 bit). Anche in questo caso però un GA100 al massimo livello offre qualcosina in più, ossia 6 stack HBM2 con 12 controller a 512 bit per un totale di 48 GB di memoria e un bus a 6144 bit.

La nuova proposta della casa di Santa Clara è inoltre dotata di collegamento NVLink 3.0 con 12 linee bidirezionali a 25 GB/s per un totale di 600 GB/s (300*2) nella comunicazione "GPU to GPU". Con la Tesla V100 il collegamento NVLink arrivava a 300 GB/s. La scheda ha un TDP di 400 watt.

Data Center GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Nome in codice	GP100	GV100	GA100
Architettura	NVIDIA Pascal	NVIDIA Volta	NVIDIA Ampere
Form Factor	SXM	SXM2	SXM4
SM	56	80	108
TPC	28	40	54
FP32 Core / SM	64	64	64
FP32 Core / GPU	3584	5120	6912
FP64 Core / SM	32	32	32
FP64 Core / GPU	1792	2560	3456
INT32 Core / SM	NA	64	64
INT32 Core / GPU	NA	5120	6912
Tensor Core / SM	NA	8	4
Tensor Core / GPU	NA	640	432
Boost Clock GPU	1480 MHz	1530 MHz	1410 MHz
FP16 Tensor TFLOPS con FP16 Accumulate (picco)	NA	125	312/624
FP16 Tensor TFLOPS con FP32 Accumulate (picco)	NA	125	312/624
BF16 Tensor TFLOPS con FP32 Accumulate (picco)	NA	NA	312/624
TF32 Tensor TFLOPS (picco)	NA	NA	156/312
FP64 Tensor TFLOPS (picco)	NA	NA	19.5
INT8 Tensor TOPS (picco)	NA	NA	624/1248
INT4 Tensor TOPS (picco)	NA	NA	1248/2496
FP16 TFLOPS (picco)	21.2	31.4	78
BF16 TFLOPS (picco)	NA	NA	39
FP32 TFLOPS (picco)	10.6	15.7	19.5
FP64 TFLOPS (picco)	5.3	7.8	9.7
INT32 TOPS (picco)	NA	15.7	19.5
Unità texture	224	320	432
Interfaccia di memoria (bus)	4096-bit HBM2	4096-bit HBM2	5120-bit HBM2
Memoria	16 GB	32 GB / 16 GB	40 GB
Data rate memoria	703 MHz DDR	877.5 MHz DDR	1215 MHz DDR
Bandwidth memoria	720 GB/sec	900 GB/sec	1.6 TB/sec
Cache L2	4096 KB	6144 KB	40960 KB
Memoria condivisa / SM	64 KB	Configurabile fino a 96 KB	Configurabile fino a 164 KB
Dimensione file di registro / SM	256 KB	256 KB	256 KB
Dimensione file di registro / GPU	14336 KB	20480 KB	27648 KB
TDP	300 Watt	300 Watt	400 Watt
Transistor	15,3 miliardi	21,1 miliardi	54,2 miliardi
Dimensione die GPU	610 mm2	815 mm2	826 mm2
Processo produttivo	16 nm FinFET+	12 nm FFN	7 nm N7

Con "prestazioni 20 volte superiori" Nvidia si riferisce all'allenamento di intelligenze artificiali (operazioni a singola precisione, FP32) e inferenza (operazioni INT8). Si parla invece di prestazioni 2,5 volte maggiori di Tesla V100 con calcoli a doppia precisione (FP64). Un ruolo decisivo nel raggiungere queste prestazioni lo hanno i Tensor core, giunti alla terza generazione e migliorati ulteriormente grazie al supporto del nuovo formato TF32 (TensorFloat-32) che permette l'accelerazione di operazioni in virgola mobile a singola precisione. I nuovi Tensor core supportano inoltre, per la prima volta, anche i calcoli a doppia precisione. Come se non bastasse, le unità si avvalgono di nuova tecnica chiamata "structural sparsity" che raddoppia la velocità di esecuzione dei calcoli legati all'IA - supporta i formati TF32, FP16, BFLOAT16, INT8 e INT4.

Un'altra novità dell'architettura Ampere è la possibilità di partizionare la GPU (soluzione che Nvidia definisce Multi-instance GPU o MIG) per permetterle di eseguire in parallelo sette istanze diverse, ognuna con le proprie risorse.

L'acceleratore Nvidia A100 è già in produzione e arriverà sotto diverse forme: la prima è il sistema per il deep learning DGX A100 venduto a 200 mila dollari. Al suo interno ci sono otto GPU GA100 per una potenza di calcolo di 5 petaflops (IA) o 10 petaflops (INT8). Tra l'altro è interessante segnalare l'abbandono della piattaforma Intel Xeon in favore di due AMD EPYC 7742 (Rome) con 64 core ciascuno - una scelta obbligata, oggi come oggi, per avere compatibilità con il PCI Express 4.0. La piattaforma conta 15 TB di SSD PCI Express 4.0 e sei NVSwitch (bandwidth di 4,8 TB/s bidirezionale). Tra i primi acquirenti troviamo l'Argonne National Laboratory del Dipartimento dell'Energia statunitense.

C'è poi HGX A100, che non è altro che il blocco fondante di DGX destinato ai produttori di server, e l'inedito EGX A100, che combina una Nvidia A100 con Mellanox SmartNIC per l'ambito dell'edge computing. Nvidia ha anche annunciato DGX SuperPOD, un cluster formato da 140 sistemi DGX A100 che raggiunge una potenza di calcolo di 700 petaflops; sarà usato internamente in aree di ricerca come la genomica e la guida autonoma.

Per finire, l'azienda ha dichiarato che Atos, Dell Technologies, Fujitsu, Gigabyte, H3C, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta e Supermicro commercializzeranno server con il nuovo acceleratore e diversi fornitori di servizi cloud - tra cui Alibaba Cloud, Amazon Web Services, Baidu Cloud, Google Cloud e Tencent Cloud - sono pronti a offrire istanze basate su Nvidia A100.

I migliori sconti su Amazon oggi

-43%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

149.90 85.03€ Compra ora

-3%

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

429.90 419.00€ Compra ora

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

Di Samsung e Xiaomi i 6 smartphone Android più venduti a inizio 2020

AMD, APU desktop Ryzen 4000 fino a 8 core: spunta una lista dettagliata

protonIT14 Maggio 2020, 15:54 #1

News sulle rtx?

Gyammy8514 Maggio 2020, 15:59 #2

Ma come, niente 8000 sp?
Ma come, niente boost 2,8 GHz a 150 watt di tdp?
Ma come, non erano 50 tf?

Già mi vedo i bios da 700 watt per la gaming

Originariamente inviato da: protonIT

News sulle rtx?

Just around the corner

Manolo De Agostini14 Maggio 2020, 16:09 #3

Originariamente inviato da: Gyammy85

Ma come, niente 8000 sp?

Il chip nella sua forma migliore ha 8192 core, ma nel caso della Nvidia A100 sono attivi molti meno.

cronos199014 Maggio 2020, 16:16 #4

Sbaglio o è un "chippone" bello grosso?

Gyammy8514 Maggio 2020, 16:21 #5

Originariamente inviato da: cronos1990

Sbaglio o è un "chippone" bello grosso?

No dai, giusto un pochino

demon7714 Maggio 2020, 16:45 #6

Originariamente inviato da: cronos1990

Sbaglio o è un "chippone" bello grosso?

Diciamo che una caffettiera per due ci sta comoda..

Manolo De Agostini14 Maggio 2020, 16:47 #7

Originariamente inviato da: mally

20 volte piu' potente solo in pochissimi utilizzi, non in tutte le applicazioni...

Non è sbagliato, ma per chiarezza metto un "fino a". Tieni presente che ho dovuto correre, tra mille dettagli tecnici ecc. Qualcosa può essermi sfuggito. Grazie mille dell'imbeccata

CYRANO14 Maggio 2020, 16:52 #8

Ho sentito che lo inseriranno nella futura Switch 2 !

Clmdlmlmslmslmslms

demon7714 Maggio 2020, 17:00 #9

Originariamente inviato da: mally

20 volte piu' potente solo in pochissimi utilizzi, non in tutte le applicazioni...

Va beh ma questo è logico.
Il guadagno prestazionale è direttamente legato al tipo di calcoli che vengono fatti da una determinata applicazione.
Alcune probabilmente beneficiano tantissimo di nuove istruziuoni implementate ne nuovo hardware rispetto alle precedenti versioni, altre invece hanno un guadagno marginale.

ninja75014 Maggio 2020, 17:27 #10

non hanno (ancora) talmente concorrenza in alto che potranno fare uscire le vga desktop user il prossimo anno

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Nvidia A100, ci sono 54 miliardi di transistor nella GPU GA100 Ampere

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

28 Commenti