Xe HPC e Ponte Vecchio, Intel vuole scalzare AMD e Nvidia dai supercomputer [Archivio]

Redazione di Hardware Upg

20-08-2021, 09:01

Link alla notizia: https://www.hwupgrade.it/news/skvideo/xe-hpc-e-ponte-vecchio-intel-vuole-scalzare-amd-e-nvidia-dai-supercomputer_99967.html

Nel corso dell'Architecture Day 2021 Intel è entrata nei dettagli dell'architettura Xe HPC alla base dell'acceleratore per HPC e IA "Ponte Vecchio". Il chip è probabilmente l'opera più complessa mai realizzata da Intel ma una soluzione necessaria per chiudere un gap decennale con la concorrenza.

Click sul link per visualizzare la notizia.

frankie

20-08-2021, 10:50

AIM: Another Intel Microsoft powerpoint slide.

joe4th

20-08-2021, 14:53

Quello che conta nell'HPC classico per le simulazioni numeriche e' l'FP64 IEEE (e se si potesse anche FP128). L'FP32, FP16 e FP8 non vengono presi molto in considerazione in quegli ambiti. Nelle slide tra l'altro non viene riportato il valore di FP64, ma fa solo riferimento a 45 TFlops di FP32.

Rimane da capire il software che si deve utilizzare, se proprietario, come per le Xeon PHI, o libero tramite interfacciamento con OpenCL.

La scheda di riferimento e' l'NVidia A100, a sarebbe interessante avere dei riferimenti per sapere dove si collocherebbe Ponte Vecchio (oltre che a Firenze) rispetto all'A100.

boboviz

22-08-2021, 17:02

Quello che conta nell'HPC classico per le simulazioni numeriche e' l'FP64 IEEE (e se si potesse anche FP128). L'FP32, FP16 e FP8 non vengono presi molto in considerazione in quegli ambiti. Nelle slide tra l'altro non viene riportato il valore di FP64, ma fa solo riferimento a 45 TFlops di FP32.
Non è un caso. La doppia precisione aumenta DI MOLTO consumi e temperature i quali, da quel che mi sembra di aver visto velocemente, non sono mai citati da Intel.
Nel settore HPC i consumi/temperature/dissipazione sono FONDAMENTALI.

Rimane da capire il software che si deve utilizzare, se proprietario, come per le Xeon PHI, o libero tramite interfacciamento con OpenCL.
Useranno OneApi, come scritto anche nell'articolo: è un misto di c++, sycl e opencl

frncr

23-08-2021, 16:34

Quello che conta nell'HPC classico per le simulazioni numeriche e' l'FP64 IEEE (e se si potesse anche FP128). L'FP32, FP16 e FP8 non vengono presi molto in considerazione in quegli ambiti. Nelle slide tra l'altro non viene riportato il valore di FP64, ma fa solo riferimento a 45 TFlops di FP32.

Rimane da capire il software che si deve utilizzare, se proprietario, come per le Xeon PHI, o libero tramite interfacciamento con OpenCL.

La scheda di riferimento e' l'NVidia A100, a sarebbe interessante avere dei riferimenti per sapere dove si collocherebbe Ponte Vecchio (oltre che a Firenze) rispetto all'A100.
In realtà i dati ci sono, basta leggerli.

Con le sole unità di calcolo vettoriale un singolo core può eseguire al massimo 256 operazioni fp32 o fp64 per clock. Una "compute tile" contiene 8 core per totali 2048 operazioni fp32 o fp64 per clock, ovvero 2 TFLOPS a 1 GHz o 4 TFLOPS a 2 GHz. Una "GPU" può contenere fino a 16 tile (128 core) per un totale di 32 TFLOPS a 1 GHz o 64 TFLOPS a 2 GHz.
Il dato di 45 TFLOPS di picco raggiunti sul prototipo si riferisce dichiaratamente alla parte vettoriale, da cui si desume che tale prototipo sta andando a circa 45/32 = 1,4 GHz, il che è plausibile.
E' però strano che dichiarino solo la performance in fp32 quando quella in fp64 dovrebbe essere pari (e già questa parità è strana di suo), ma se vogliamo pensare male basta dividere il dato per due, da cui deriverebbe una performance di 22,5 TFLOPS sul prototipo a 1,4 GHz.

Per confronto Nvidia A100 dovrebbe fare 9,7 TFLOPS vettoriali in fp64, però può lavorare in fp64 anche con la parte matriciale (a 19,5 TFLOPS) mentre Xe si ferma a fp32 (però con centinaia di TFLOPS, 8x la parte vettoriale).

Per i dati disponibili finora mi sembra comunque tanta roba, poi quando sarà in commercio si capirà il rapporto prezzo/prestazioni e il rapporto consumo/prestazioni.

Lato sw hanno sviluppato oneAPI, che vorrebbe essere uno standard aperto per consentire la programmazione parallela in modo completamente astratto dall'hw sottostante indipendentemente dal tipo (CPU, GPU, FPGA), produttore e modello.