|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
www.hwupgrade.it
Iscritto dal: Jul 2001
Messaggi: 75173
|
Link alla notizia: https://www.hwupgrade.it/news/skvide...ter_99967.html
Nel corso dell'Architecture Day 2021 Intel è entrata nei dettagli dell'architettura Xe HPC alla base dell'acceleratore per HPC e IA "Ponte Vecchio". Il chip è probabilmente l'opera più complessa mai realizzata da Intel ma una soluzione necessaria per chiudere un gap decennale con la concorrenza. Click sul link per visualizzare la notizia. |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Nov 2000
Città: Varees
Messaggi: 9154
|
AIM: Another Intel Microsoft powerpoint slide.
|
![]() |
![]() |
![]() |
#3 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 2355
|
Quello che conta nell'HPC classico per le simulazioni numeriche e' l'FP64 IEEE (e se si potesse anche FP128). L'FP32, FP16 e FP8 non vengono presi molto in considerazione in quegli ambiti. Nelle slide tra l'altro non viene riportato il valore di FP64, ma fa solo riferimento a 45 TFlops di FP32.
Rimane da capire il software che si deve utilizzare, se proprietario, come per le Xeon PHI, o libero tramite interfacciamento con OpenCL. La scheda di riferimento e' l'NVidia A100, a sarebbe interessante avere dei riferimenti per sapere dove si collocherebbe Ponte Vecchio (oltre che a Firenze) rispetto all'A100. Ultima modifica di joe4th : 20-08-2021 alle 15:05. |
![]() |
![]() |
![]() |
#4 | ||
Senior Member
Iscritto dal: Jul 2003
Messaggi: 931
|
Quote:
Nel settore HPC i consumi/temperature/dissipazione sono FONDAMENTALI. Quote:
|
||
![]() |
![]() |
![]() |
#5 | |
Senior Member
Iscritto dal: May 2009
Messaggi: 903
|
Quote:
Con le sole unità di calcolo vettoriale un singolo core può eseguire al massimo 256 operazioni fp32 o fp64 per clock. Una "compute tile" contiene 8 core per totali 2048 operazioni fp32 o fp64 per clock, ovvero 2 TFLOPS a 1 GHz o 4 TFLOPS a 2 GHz. Una "GPU" può contenere fino a 16 tile (128 core) per un totale di 32 TFLOPS a 1 GHz o 64 TFLOPS a 2 GHz. Il dato di 45 TFLOPS di picco raggiunti sul prototipo si riferisce dichiaratamente alla parte vettoriale, da cui si desume che tale prototipo sta andando a circa 45/32 = 1,4 GHz, il che è plausibile. E' però strano che dichiarino solo la performance in fp32 quando quella in fp64 dovrebbe essere pari (e già questa parità è strana di suo), ma se vogliamo pensare male basta dividere il dato per due, da cui deriverebbe una performance di 22,5 TFLOPS sul prototipo a 1,4 GHz. Per confronto Nvidia A100 dovrebbe fare 9,7 TFLOPS vettoriali in fp64, però può lavorare in fp64 anche con la parte matriciale (a 19,5 TFLOPS) mentre Xe si ferma a fp32 (però con centinaia di TFLOPS, 8x la parte vettoriale). Per i dati disponibili finora mi sembra comunque tanta roba, poi quando sarà in commercio si capirà il rapporto prezzo/prestazioni e il rapporto consumo/prestazioni. Lato sw hanno sviluppato oneAPI, che vorrebbe essere uno standard aperto per consentire la programmazione parallela in modo completamente astratto dall'hw sottostante indipendentemente dal tipo (CPU, GPU, FPGA), produttore e modello. Ultima modifica di frncr : 23-08-2021 alle 16:36. |
|
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 07:56.