|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
www.hwupgrade.it
Iscritto dal: Jul 2001
Messaggi: 75173
|
Link alla notizia: http://www.businessmagazine.it/news/...elo_52924.html
Anticipate alcune delle caratteristiche tecniche delle soluzioni Xeon Phi della famiglia Knights Landing: oltre 60 core della famiglia Silvermont, la nuova interconnessione Omni Scale Fabric e memorie on package Click sul link per visualizzare la notizia. |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Jul 2007
Città: Jesi
Messaggi: 1784
|
Ho dei seri dubbi sia corretto chiamarle gpu, sono schede (se di scheda si parla e non del chip da inserire direttamente su mobo) acceleratrici per calcolo parallelo, non hanno ne le componenti ne le funzionalità di una gpu.
Detto questo: ma queste soluzioni si usano già o sono ancora dei kit distribuiti più che altro agli sviluppatori per fargli prendere dimestichezza con architettura e api come per le prime versioni?
__________________
Notebook:||Santech N87|CPU: Intel Core i7 4700mq@3.6ghz|RAM: Kingston 2x8gb DDR3L 1600mhz|HD: Plextor M5M 256gb+2x500gb mechanical drives|VGA: Radeon HD8970m 4gb|| Desktop:||Mobo: Asrock Z77 Extreme4|CPU: Intel Core i5 2500k@4.7ghz|CPU Cooler: Noctua NH-D14|RAM: Corsair 2x8gb DDR3 1333mhz||HD: Crucial RealSSD M4 128gb|VGA: Crossfire Radeon HD7850@1150/1325mhz|PS: XFX Pro Series 750w|Case: Corsair Carbide 300R|| |
![]() |
![]() |
![]() |
#3 | |
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
se intendi queste nuove versioni credo che siano in mano agli sviluppatori, gli Xeon PHI prima serie invece sono tranquillamente acquistabili. piu che altro vorrei capire se una volta montate sei socket la ram si somma a quella di sistema e diventa unica o se rimane separata, perchè le Xeon PHI attuali su PCI-EX hanno lo stesso problema delle GPU che devono caricare il tutto nella ram della GPU, niente memoria condivisa :/
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() Ultima modifica di AceGranger : 24-06-2014 alle 18:16. |
|
![]() |
![]() |
![]() |
#4 |
Senior Member
Iscritto dal: Dec 2013
Messaggi: 733
|
ram su cpu? paura!
|
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Sep 2008
Messaggi: 36468
|
Questa soluzione fa davvero paura
![]() Genera più TeraFlops della metà di schede video di fascia medio alta, credo che sia sui livelli di una GTX 770 ed equivalente AMD (prendo le GPU a campione per ovvi motivi) In un'altra news leggevo che in teoria tutta questa potenza non necessita nemmeno di una revisione del codice (immagino codice comunque scritto per le precedenti versioni di questa scheda). Davvero tanta roba
__________________
Ryzen 5950x PBO2 - Asus B550m TUF- G.Skill 32GB 3200Mhz - ZOTAC 3080 12GB OC - 990 PRO 1TB - 970 EVO 1TB - 860 EVO 250GB
Asus ROG Ally Z1 Extreme |
![]() |
![]() |
![]() |
#6 | ||
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
![]() la FirePro Top gamma S10000 con 2 chip Thaiti fa 1,48 TFlops la Quadro Top gamma K6000 fa 1,7 TFlops Quote:
nella prima versione di queste schede erano i core del chip erano i vecchi core del Pentium originale modificati, questa nuova versione sara basata su un massimo di 72 core Silvermont ( gli attuali Atom Bay trail ) modificati per gestire 4 thread per core ![]() EDIT sara un mostro di potenza ![]() ![]() ![]() http://www.extremetech.com/extreme/1...supercomputing
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() Ultima modifica di AceGranger : 24-06-2014 alle 19:46. |
||
![]() |
![]() |
![]() |
#7 |
Senior Member
Iscritto dal: Sep 2008
Messaggi: 36468
|
Non avevo letto che era in doppia precisione, davvero un mostro niente da dire.
Non vedo l'ora di leggere qualcosa di più approfondito e magari qualche test. ![]()
__________________
Ryzen 5950x PBO2 - Asus B550m TUF- G.Skill 32GB 3200Mhz - ZOTAC 3080 12GB OC - 990 PRO 1TB - 970 EVO 1TB - 860 EVO 250GB
Asus ROG Ally Z1 Extreme |
![]() |
![]() |
![]() |
#8 | ||||||
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
Comunque per prendere confidenza con lo sviluppo di software per Xeon Phi non ti serve necessariamente avere la scheda o il computer: puoi scrivere codice che gira automaticamente sulla CPU nel caso in cui non venga trovato alcun sistema Xeon Phi. In questo modo puoi già lavorare al codice vero e proprio, e sfruttare le schede o il computer non appena le avrai, senza dover toccare più niente. Quote:
Se la CPU scrive qualcosa nel vettore, ad esempio, le modifiche verranno ricopiate nella scheda (o nelle, se le schede/sistemi sono più d'una) memoria di Xeon Phi, in modo che sia CPU sia Xeon Phi abbiano sempre dei dati coerenti. Questo particolare modello di sviluppo per Xeon Phi (ce ne sono diversi, a seconda del linguaggio e degli obiettivi) si chiama MYO. Qui trovi informazioni sulle diverse possibilità di sviluppo. La cosa interessante di MYO è che consente di scambiare velocemente strutture dati anche molto complesse (es: grafi) senza che sia necessaria alcun marshalling per lo scambio di dati (come avviene, invece, per altre modalità di sviluppo / funzionamento, o normalmente con altre architetture GPGPU o GPU). Comunque se hai già del codice esistente lo puoi convertire velocemente e in maniera molto semplice per sfruttare Xeon Phi, usando delle apposite direttive (#pragma). Oppure Intel mette a disposizione una libreria di funzioni matematiche (MKL) molto usate in ambito scientifico, e che sono già ottimizzate per sfruttare automaticamente Xeon Phi. Questo è tutto, se il discorso che facevi sulla memoria integrata in Xeon Phi riguardava la condivisione di dati fra CPU e Xeon Phi. Altrimenti dovresti chiarire meglio lo scenario di cui parlavi. Quote:
Quote:
Quindi è possibile installare qualunque s.o. e utilizzare qualunque software già esistente, e se questo supporta già adeguatamente la programmazione parallela (multicore/thread) trarrà automaticamente beneficio della moltitudine di core / thread hardware a disposizione (con 72 core fisici ci sono 288 thread hardware). Questo, però, non consente di sfruttare pienamente la potenza di calcolo che Knights Landing mette a disposizione (in particolare il set d'istruzioni AVX512). Per fare, però, è sufficiente una ricompilazione con un compilatore che generi codice apposito per questa ISA. Quote:
Comunque aspettiamo i primi benchmark per avere qualche dato concreto.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
||||||
![]() |
![]() |
![]() |
#9 | |
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
premesso che non sono un programmatore e ce l'ho fatta a seguirti solo fino a un certo punto e poi il resto tutto arabo ![]() ![]() ![]() quello che ho scritto prima faceva riferimento a quello che mi è capitato l'anno scorso: ad un evento di grafica dove era presente il creatore di Vray che stava presentando in anteprima Vray 3.0, durante la pausa, ho avuto modo di fargli direttamente 2 domande: 1 - Vray supportera gli Xeon PHI ? 2 - gli Xeon PHI hanno lo stesso problema delle GPU che sono limitate dal quantitativo di ram visto devono caricare tutta la scena 3D in ram ? le sue risposte sono state. 1 - c'è gia un team di sviluppo che sta testanto gli Xeon PHI, ma abbiamo il problema che quando renderizzano al 100% vanno il protezione termica 2 - si attualmente si ora non so se quello che hai scritto tu cozza con quello che mi ha detto lui o se potrebbe anche esserci l'eventualita di avergli posto male la domanda con conseguente risposta intesa male da me ![]()
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() Ultima modifica di AceGranger : 24-06-2014 alle 22:50. |
|
![]() |
![]() |
![]() |
#10 | ||||
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Comunque ieri sera ero a pezzi e ho commesso qualche errore nello scrivere. Chiedo venia. Quote:
Per quanto riguarda il fatto che vadano in protezione termica, è strano, perché non m'è mai capitato. Bisognerebbe vedere che tipo di Xeon Phi hanno (è disponibile in alcune versioni che variano per numero di core e clock). Comunque potrebbero selettivamente scegliere quanti core utilizzare, in modo da trovare il giusto bilanciamento che eviti di far andare in protezione termina la scheda. Se utilizzano MPI per distribuire il carico di lavoro sui core & thread è molto semplice specificare quanti core usare, e in generale come distribuire l'esecuzione nei vari core e thread. Quote:
Knights Landing non fa eccezione, anche se non credo non ci siano problemi in tal senso, visto che integra moltissima memoria di per sé. Con le architetture precedenti, però, il problema si pone, perché 8GB di RAM possono essere troppo pochi se c'è da manipolare grosse quantità di dati. In questo caso le applicazioni devono essere sviluppate in modo da cercare di massimizzare l'uso della memoria locale della GPU, suddividendo l'elaborazione in parti che girino interamente in Xeon Phi. Credo che sia stato questo il problema che hanno avuto con Vray. Quote:
Per cui con Knights Landing chi utilizza VRay può dormire sonni tranquilli. ![]()
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
||||
![]() |
![]() |
![]() |
#11 |
Senior Member
Iscritto dal: Feb 2007
Città: Cosenza
Messaggi: 400
|
Trovo molto interessanti i due ultimi interventi,dunque chi si avvale di strumenti come Intel Cluster Studio può creare il proprio codice e compilarlo ottimizzandolo per l'eventuale Phi presente nella sua workstation?Cioè in sostanza, lo sviluppatore si trova davanti uno scenario simile a quello con Parallel Nsight e CUDA(lato Nvidia) se lavora con ICS e librerie tipo IPP o MKL (lato INTEL)?Mi piacerebbe trovare anche qualche fonte autorevole (i links sono bene accetti) in cui viene approfondito quale tipo di algoritmi possono trarre massimo giovamento da una architettura come quella dello Xeon Phi rispetto a quella a Shader Unificati della controparte Nvidia o AMD essendo profondamente diverse.Mi interessa questo perchè proprio un paio di giorni fa leggevo,su documentazione ufficiale Intel,come far sfruttare a un notissimo software di calcolo (MATLAB) appunto una scheda PHI,dal momento che anche nella sua ultima versione uscita a Marzo MatWorks supporta ufficialmente solo CUDA.L'articolo era molto interessante faceva vedere come spostare il calcolo di due matrici (10000x10000 di double) dai processori (un paio di Xeon E5 a 8 cores ciascuno) alla scheda Phi utilizzando una phi della serie 7000.Lo sbattimento non era alla fine eccessivo si doveva forzare Matlab ad utilizzare l'ultima versione delle MKL e il risultato che faceva vedere l'articolo era sorprendende,le due CPU Xeon impiegavano circa 5s per il calcolo mentre la scheda PHI 1,89 secondi(sempre secondo PDF INTEL).Ho provato per curiosità ad eseguire lo stesso calcolo sulla Titan che ho sul mio pc,ma il risultato è stato di 0,002113 s!Da questa differenza elevata scaturisce la mia curiosità di approfondire il confronto tra le due differenti architetture,non credo dipenda dal codice estremamente ottimizzato delle librerie nvidia....
|
![]() |
![]() |
![]() |
#12 |
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Il risultato di Xeon Phi è decisamente scadente. Evidentemente c'è qualcosa che non consente di sfruttare la potenza di calcolo a disposizione, che specialmente in doppia precisione è molto elevata.
Bisognerebbe analizzare il test e profilare l'applicazione per rilevare i colli di bottiglia, anche perché il calcolo matriciale si presta bene per quest'archutettura. Comunque non userei Intel Cluster Studio, visto che non c'è un cluster. Intel Conposer XE è lo strumento più adatto allo scenario esposto, che è pure quello più comune. Al momento non posso aggiungere altro perché sono con lo smartphone e sto andando a lavoro.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
![]() |
![]() |
![]() |
#13 | ||
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
Quote:
pero secondo te, immaginando questo sistema, quale situazione si verifichera: scheda madre bi-socket, socket 1 Xeon con 32 Gb di ram, socket 2 con Xeon PHI con 16 Gb on-board e 32 Gb di ram come banchi premessa ( attualmente con le GPU e l'attuale PHI la scena di render deve essere caricata totalmente in ram texture comprese, seno non parte il render ) 1- avremo 64 Gb di ram di sistema e separati 16 Gb on-board, quindi la scena di render dovra essere inferiore ai 16 Gb 2- avremo 80 GB di ram+on-board che saranno un tutt'uno quindi scena di render senza limiti 3- avremo 32 Gb di ram dello Xeon CPU classico e poi separati i 48 Gb PHI ( i suoi 16 on-board + i 32 collegati al suo socket ) quindi il limite di 32 Gb se non ho capito male quello che hai scritto che il limite rimane ci troveremo nella situazione 1 ( brutta ![]() ![]()
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() |
||
![]() |
![]() |
![]() |
#14 |
Senior Member
Iscritto dal: Feb 2007
Città: Cosenza
Messaggi: 400
|
Si,avevo citato il Cluster Studio perchè raccoglie un po tutto il necessario(librerie incluse) per scrivere diverso codice ottimizzato anche in distribuito.La cosa mi ha lasciato parecchio perplesso...anche per il fatto che è documentazione ufficiale intel,quindi presumo che abbiano fatto di tutto per esprimere il massimo!Il pc di prova è questo:
"This article was created based on MATLAB R2014a and Intel MKL for Windows* 11.1 update1 and update 2 on the system Host machine: Intel Xeon CPU E5-2697 v2, 2 Twelve-Core CPUs (30MB LLC, 2.7GHz), 128GB of RAM; OS: Windows Server 2008 R2 Enterprise Coprocessors: 2 Intel® Xeon Phi™ Coprocessors 7120A, each with 61 cores (30.5MB total cache, 1.2GHz), 16GB GDDR5 Memory Software: Intel® Math Kernel Library (Intel® MKL) 11.1 update 1 and update 2, Intel Manycore Platform Software Stack (MPSS) 3.2.27270.1". Per una configurazione così ci vuole una vagonata di euro e poi dopo le opportune mdificazioni suggerite ecco il risultato (un po deludente): "If you start a MATLAB session after setting MKL_MIC_ENABLE, the MATLAB command window displays: >> TestBlas Elapsed time is 1.869576 seconds" TestBlas crea le due matrici ma calcola il tempo solo per il prodotto delle stesse.Dunque sarà più un cattivo supporto o una deficenza dell'architettura? Ultima modifica di pierpox : 25-06-2014 alle 09:18. |
![]() |
![]() |
![]() |
#15 | |
Senior Member
Iscritto dal: Sep 2008
Messaggi: 36468
|
Quote:
![]()
__________________
Ryzen 5950x PBO2 - Asus B550m TUF- G.Skill 32GB 3200Mhz - ZOTAC 3080 12GB OC - 990 PRO 1TB - 970 EVO 1TB - 860 EVO 250GB
Asus ROG Ally Z1 Extreme |
|
![]() |
![]() |
![]() |
#16 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Essendo comunque un ia32 si porterà dietro tutti i limiti x86 dietro, mitigati da accorgimenti vari certamente, ma la prova sul campo metterà in luce l'esatto valore di queste soluzioni. Troppe volte ho visto specifiche sulla carta mirabolanti e poi prestazioni deludenti in pratica. L'unica cosa che posso però dire è che vedo sempre più nvidia tagliata fuori dal settore HPC. Questa soluzione elimina praticamente il bisogno di riscrivere il codice da zero, mentre in situazioni particolari potrebbe essere addirittura consigliabile l'apu AMD per abbattere i costi. |
|
![]() |
![]() |
![]() |
#17 | |
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
al contrario nVidia si sta ritagliando tutto un suo mercato offrendo soluzioni complete fatte e finite di hardware + software.
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() Ultima modifica di AceGranger : 25-06-2014 alle 10:26. |
|
![]() |
![]() |
![]() |
#18 | |
Senior Member
Iscritto dal: Feb 2007
Città: Cosenza
Messaggi: 400
|
Quote:
__________________
GTX 680 SLI + 2 EVGA TITAN SC +XEON E5 2660 V2 |
|
![]() |
![]() |
![]() |
#19 |
Senior Member
Iscritto dal: Jan 2002
Messaggi: 10337
|
Pensare che poco meno di un mese fa mi ero fatto aggiornare la ws con due phi è due xeon 2880....
Però le prove di impatto ringraziano.... ![]() |
![]() |
![]() |
![]() |
#20 | |
Senior Member
Iscritto dal: May 2005
Messaggi: 12069
|
Quote:
![]()
__________________
AMD 3970X - TRX40 PRO 10G - 128 Gb - 2080Ti - Dual 4K - No More Render - Leica RTC360 & BLK360 ![]() |
|
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:02.