NVIDIA illustra il progetto Echelon

Nel contesto di un programma sponsorizzato dal DARPA, NVIDIA illustra le caratteristiche di un chip che andrà ad equipaggiare sistemi HPC di classe exaflop
di Andrea Bai pubblicata il 18 Novembre 2010, alle 15:14 nel canale Schede VideoNVIDIA
Bill Dally, Chief Scientist di NVIDIA, ha recentemente illustrato in occasione del Supercomputing 2010, la conferenza internazionale in ambito di high performance computing, networking e storage, un progetto al quale la compagnia californiana sta lavorando per la realizzazione di un chip GPGPU che avrà come destinazione d'uso la costruzione un sistema di classe exascale entro il 2018.
Il progetto, attualmente conosciuto con il nome di Echelon, si inserisce nel contesto del programma Ubiquitous High Performance Computing, iniziativa sponsorizzata dal DARPA - Defense Advanced Research Project Agency il quale ha lanciato la sfida della costruzione, entro il 2014, di un prototipo di un sistema di classe petaflop in un rack da 57 kilowatt. Questo sistema potrebbe essere conseguentemente usato come building block per la costruzione di un sistema exascale da realizzare entro il 2018.
La sfida è stata raccolta, oltre che da NVIDIA, anche da Intel, dal MIT e dal Sandia National Labs, ciascuno dei quali porterà avanti un proprio progetto che andrà a concorrere con quello degli altri team in gara.
E' bene sottolineare che almeno fino ad ora Echelon di NVIDIA è fermo allo stadio di "progetto cartaceo" supportato solamente da alcune simulazioni e presentazioni e che, per questo motivo, la versione finale che NVIDIA andrà a concretizzare potrebbe non corrispondere del tutto o in parte a ciò che il Chief Scientist dell'azienda californiana ha illustrato alla platea del Supercomputing 2010.
La realizzazione di Echelon prenderà spunto dalle soluzioni e dalle tecnologie che NVIDIA ha utilizzato per la costruzione del proprio portfolio di soluzioni: "Se puoi fare un buon lavoro di computing ad un determinato livello, sei in grado di farlo anche ad un altro livello" è il presupposto di Dally. "La nostra attenzione, in NVIDIA, è per tutti i prodotti sulle performance per watt e stiamo iniziando ad attingere elementi da tutti i progetti che abbiamo realizzato, dai chip Tegra alle soluzioni Tesla" ha poi continuato il Chief Scientist di NVIDIA.
Dally ha poi illustrato un core grafico capace di eseguire operazioni in virgola mobile con un impiego di 10 picojoules di potenza, laddove le attuali soluzioni della famiglia "Fermi" consumano gino a 200 picojoules di potenza. Otto di questi core andranno a costituire uno Streaming Multiprocessor e 128 di questi SM verranno accorpati in un unico chip. Il risultato sarà un chip da 1024 core grafici, ciacuno capace di gestir, per ciclo di clock, quattro operazioni floating point a precisione doppia ovvero l'equivalente di 10 teraflop per singolo chip. Bill Dally ha suggerito che un chip di questo genere costruito però con appena otto core potrebbe in un futuro nemmeno troppo lontano andare ad equipaggiare i dispositivi da tasca.
Per fornire un contrappunto alle dichiarazioni di Dally, ricordiamo che la soluzione NVIDIA GeForce GTX 580 lanciata la scorsa settimana è caratterizzata dalla presenza di 512 CUDA core, ovvero la metà di quelli che saranno eventualmente presenti sul processore Echelon. Di contro, tuttavia, i CUDA core presenti sulla GTX 580 sono in grado di gestire una sola operazione floating point per ciclo di clock, rispetto alle 4 di Echelon.
Un'area sulla quale NVIDIA lavorerà con particolare attenzione riguarda la gestione della memoria da parte del chip. Secondo quanto si apprende Echelon farà uso di 256MB di memoria SRAM, che potrà essere configurata in maniera dinamica a seconda delle esigenze dei vari ambiti di applicazione. Un esempio che viene fornito a supporto è la possibilità di suddividere la SRAM in sei livelli di cache, ciascuno di dimensione variabile. Al livello più basso ciascun core potrà disporre della sua cache privata.
Il concetto su cui si sta muovendo NVIDIA è quello di portare i dati il più vicino possibile agli elementi di computazione, in maniera tale da ridurre al minimo la necessità di spostare i dati attorno al chip e potendo così risparmiare energia. Partendo da questo presupposto è possibile che gli Streaming Multiprocessor abbiano una gerarichia di registri messi in corrispondenza con le locazioni dei livelli di cache. Il chip dovrebbe inoltre includere una serie di meccanismi di broadcasting in maniera tale che i risultati di un task possano essere messi a disposizione e condivisi con qualunque nodo che ne faccia richiesta.
Dally sottolinea comunque l'importanza di trovare un modello di programmazione adatto che sia in grado di semplificare l'approccio agli odienri processori multi-core: "Prossimamente assisteremo ad un cambiamento radicale nei modelli di programmazione. Nel mondo High Performance Computing siamo passati dal Fortran vettorizzato alla Message Passing Interface e ora abbiamo bisogno di un nuovo modello di programmazione per il prossimo decennio. Noi riteniamo che dovrebbe essere un'evoluzione di CUDA, ma attualmente esistono approcci simili a questo come OpenCL, OpenMP e DirectCompute. Oppure potrebbe essere un linguaggio completamente nuovo".
48 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoMa credo si la strada giusta non basta migliorare i prodotti che già esistono,bisogna inventare quelli per il futuro.
cmq darpa exascale gpgpu 2018 echelon mit ... 'sti cazzi
mmmmmmmmmm...........demagogia?
Evidentemente alla NSA sono a corto di potenza di calcolo. Lo chiameranno ECHELON 2, a trenta anni di distanza dalla costruzione del primo. Che bello, saremo tutti ancora più spiati. Curiosamente un po' di tempo fà è andato in onda sul digitale terrestre IRIS un film intitolato "In Ascolto" che è molto realistico....
mmmmmmmmmm...........demagogia?
Se guardi al mondo dei videogiochi allora le soluzioni nvidia non sono il max per quanto riguarda performance/watt. D'altronde i loro chip si portano dietro una serie di funzionalità per il GPGPU che per i videogiochi non sono usati ma che comunque consumano (e rendono il loro chip delle mattonelle).
Se guardi invece in campo GPGPU non c'è alcuna soluzione che faccia meglio.
Basta guardare le prestazioni della concorrenza nella applicazioni professionali. Le loro schede consumano di più e vanno meno anche se nell'eseguire i soli compiti grafici sono più efficienti.
Se guardi invece in campo GPGPU non c'è alcuna soluzione che faccia meglio.
Basta guardare le prestazioni della concorrenza nella applicazioni professionali. Le loro schede consumano di più e vanno meno anche se nell'eseguire i soli compiti grafici sono più efficienti.
non voglio scatenare flame, ma parli per sentito dire o per conoscenza diretta?
Secondo me parli per sentito dire.
CUDA è un ottimo toolkit che manca alla concorrenza, ma se uno si fa il programma in casa senza bisogno di toolkit (facendo però più fatica) i risultati che si hanno con le schede della concorrenza (leggasi ATi) molte volte sono equiparabili, spesso migliori, solo poche volte sono meno efficienti.
Ah, consumano anche molto meno.
Nessun flame. Solo questioni di numeri. Vedi i benchmark eseguiti sui programmi professionali che non fanno solo texturing ma implicano l'uso delle capacitò di calcolo per fare qualcosa di più.
Qui trovi qualche test: http://tech.icrontic.com/articles/r...-6000-reviewed/
In conclusione dell'articolo:
The Quadro 6000 managed to score higher than the FirePro V8800 in all of the tests, and in roughly half of the tests on average, it managed to double the performance of the V8800. That is quite the impressive increase. Professionals who work with incredibly intensive projects should take note.
In alcuni test la concorrenza è indietro davvero di tantissimo.
Non è un caso che nvidia abbia il 90% del mercato professionale con le Quadro in un mercato più che maturo e che sa valutare quello che viene offerto.
Le capacità di calcolo delle sue architetture sono oggettivamente superiori. Se poi tu ti fai l'applicazione a casa per calcolarti una specifica cosa è probabile che trovi il modo di sfruttare meglio l'architettura AMD per quella particolare cosa. Ma per il calcolo scientifico, quello generale che implica l'uso di diverse strutture e metodi di calcolo, per ora la concorrenza non c'è.
http://blog.cudachess.org/2010/03/n...encl-benchmark/
http://www.anandtech.com/show/2977/...rth-the-wait-/6
E ti anticipo con questa nota:
The OpenCL GPGPU benchmark suite forms part of SiSoftware Sandra 2010. AMD believes it is the only company that can provide a complete OpenCL development platform for GPGPUs - essentially a combination of graphics chip and microprocessor.
Ovvero il test di SiSoft Sandra è già ottimizzato per le GPU ATI poichè ci hanno lavorato assieme.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".