View Single Post
Old 14-11-2017, 19:45   #9
CrapaDiLegno
Senior Member
 
Iscritto dal: Jan 2011
Messaggi: 3287
Quote:
". Ed è ovvio che sia così. Com'è, però, anche ovvio che sfruttarle richieda molti più sforzi (codice e/o compilatori ad hoc), e in ogni caso tali soluzioni sono difficilmente riutilizzabili per altri scopi.
Si certo, più sforzi ad utilizzare un compilatore piuttosto che un altro. Dal punto di vista di chi scrive il codice non cambia una mazza, sopratutto perché le routine utilizzate sono scritte in ASM e si chiamano quelle, dato che nessun compilatore può astrarre in maniera automatica lo scopo di un calcolo complesso come quello da fare su una SIMD.
Quindi al massimo puoi parlare di soluzioni che hanno un diverso supporto, ma non certo che usare un determinato HW piuttosto che un altro diventa complicato per il programmatore.
Inoltre la suddetta architettura non ha molto di "esoterico", certamente è meno fantasiosa nell'avere un inutile core x86 per pilotare 2 FPU che sono quelle addette a lavorare per davvero.

Quote:
Infatti pezy-sc2 ha prestazioni stellari soltanto in virgola mobile a singola precisione, mentre di gran lunga inferiori per quelle a doppia o mezza precisione. Ergo: si chiama fuori da HPC e IA/deep-learning.
Eh? Scusa ma che specifiche hai letto? Quelle della prima versione vecchia di 2 anni? Per la corrente in produzione e vendita e installate sugli ultimi super computer leggo 8TFLOPS in FP32 e 4TFLOPS in FP64 e 16TFLOPS in FP16. Il tutto con consumo di picco di 180W e 130W di media (che la rende la scheda acceleratrice più efficiente finora costruita, persino migliore delle soluzioni nvidia che le stanno poco dietro). Quanti TFLOPS fa una Knight Landing e in quanti W?
Ci sarà un motivo per cui la presenza di queste schede acceleratrici siano aumentate nel tempo nella classifica. E infatti stanno prendendo piede proprio nei server HPC, IA e DeepLearning (non so se hai capito che ogni scheda a 16FLOPS in FP16, tutt'altro che "poco" per il DeepLearning).

Per quanto riguarda la MICRO-Architettura, è molto ma molto probabile che sarà pensata per fare un die con il core e "incollarlo" (usando la sintassi di Intel) ad un bel die separato creato dal Koduri che eseguirà i calcoli veri. L'MCM di Intel è promettente sotto questo punto di vista, e credo proprio che potrebbe salvargli la vita permettendogli di integrare roba non x86 per progredire.

CrapaDiLegno è offline   Rispondi citando il messaggio o parte di esso
 
1