Tesla V100, le prime applicazioni di Volta e gli altri annunci NVIDIA del GTC

Tesla V100, le prime applicazioni di Volta e gli altri annunci NVIDIA del GTC

Il CEO di NVIDIA ha fatto una serie di annunci durante il keynote della GPU Technology Conference che si tiene a San Jose, California. Principalmente si è parlato delle prime applicazioni della nuova architettura Volta, che espanderà ulteriormente il potenziale di Pascal.

di Rosario Grasso pubblicata il , alle 20:28 nel canale Schede Video
NVIDIA
 

Jen-Hsun "Jensen" Huang ha iniziato l'atteso keynote della GPU Technology Conference parlando di Legge di Moore: le performance dei processori sono migliorate circa un milione di volte negli ultimi 30 anni. Questo però, come noto, non si è ripetuto negli ultimi anni perché non si sono confermati gli stessi progressi in termini di processi di costruzione. Allo stesso tempo, però, l'industria dei processori ha trovato valvola di sfogo nella parallelizzazione e nell'esecuzione di diversi thread ottimizzati in maniera contemporanea ed efficiente. La migliore esplicitazione di questo concetto è proprio il GPU Computing.

Con la loro architettura hardware parallelizzata le moderne GPU sono in grado di elaborare calcoli complessi, utilizzabili in diversi tipi di settori. Convertire i carichi di lavoro in modo che siano compatibili con l'elaborazione parallela è quindi la sfida attuale, dice Jensen: la quale, però non è intuitiva per l'uomo. È per questo che bisogna costruire un terreno comune che possa rendere tutto questo più immediato e intuitivo. I produttori come NVIDIA stanno lavorando alacremente in tal senso: e lo dimostra la stessa GTC, una conferenza che è cresciuta in pubblico e partecipazione degli sviluppatori insieme all'acquisizione di importanza del GPU Computing. A partire da quest'anno, inoltre, NVIDIA sta aprendo l'evento anche agli altri continenti, con GTC che si terranno fuori dalla Silicon Valley. Il successo della GTC dipende anche dai contenuti affascinanti che vengono trattati durante l'evento, che si proietta senza timori verso il futuro affrontando le tematiche più calde come intelligenza artificiale, auto a guida autonoma, realtà virtuale e tutti quei settori in cui NVIDIA può dire la sua tramite il GPU Computing.

Il primo annuncio è Project Holodeck, realizzato in collaborazione con Christian Koenigsegg, il proprietario dell'omonima famosa casa di auto sportive, presente all'evento in collegamento telefonico. Holodeck è un ambiente virtuale dove vari modeli poligonali possono interagire tra di loro: un avatar rappresenta Koenigsegg e una Koenigsegg Agera può essere esaminata nei piccoli particolari. Si tratta di una combinazione tra realtà virtuale e tracciamento del corpo in tempo reale. "Non è un'auto da videogioco, ma qualcosa di può complesso", e il modello poligonale esplode in tante piccole parti, ciascuna esaminabile dall'utente. La realtà virtuale consentirà di godere nel migliore dei modi della grafica fedele e accurata e della simulazione della fisica avanzata. Il primo accesso a questo software, che, come ammette Jensen, è ancora in uno stato piuttosto aurorale, sarà effettuabile nel prossimo settembre.

Project Holodeck

Jensen poi è passato a parlare di Machine Learning. L'intelligenza artificiale è uno dei settori che sta progredendo più velocemente nel recente periodo: le tecniche più avanzate riescono a riconoscere le persone dalle immagini e individuare gli aspetti apparentemente più insignificanti del loro fisico. "E l'elemento più interessante non è neanche questo, perché i computer stanno imparando da soli", afferma solennemente Jensen. Diversi servizi sono oggi alimentati dalle tecnologie di Machine Learning: Jensen fa qualche esempio come Baidu DuLight, Google Photo, Nature AlphaGo, BRETT, i progetti AlexNet e i DNN su larga scala presso rispettivamente le Università di Toronto e Stanford. Lo stesso riguarda gli algoritmi di traduzione da una lingua all'altra, l'upscaling di immagini a risoluzioni maggiori, il trasferimento dello stile artistico da un'opera all'altra, gli Encoder per le auto, il trasferimento di conoscenza, Deep Voice, e molto altro ancora.

Jensen poi è passato a spiegare come il Deep Learning può aiutare nel rendering di tipo Ray Tracing, uno dei più pesanti in termini di capacità di calcolo necessaria. Ha mostrato un'auto renderizzata con l'ausilio del Deep Learning e l'ha confrontata con lo stesso rendering senza Deep Learning. L'auto viene gestita tramite il software NVIDIA iRay, capace di riprodurre modelli in maniera fotorealistica grazie alla gestione accurata delle fonti di illuminazione che tiene conto della fisica. Grazie al Deep Learning si ottiene tutta una serie di inferenze che alleviano la mole di calcoli assegnata alla GPU, il che consente di visualizzare dettagli aggiuntivi come la riflessione sulla scocca di un più consistente numero di alberi.

GTC 2017

NVIDIA Deep Learning SDK: "Con strumenti come questo stiamo democratizzando il calcolo" e "la nostra strategia prevede di mettere a disposizione i più efficienti sistemi per il calcolo necessario al machine learning" sono le frasi che pronuncia Jensen sul palco del GTC. NVIDIA fornisce il suo hardware e i suoi servizi a più di 1300 startup che stanno operando nel campo del Deep Learning: coinvolti settori anche molto diversi tra di loro come Healthcare, finanzario, della sicurezza, IOT e produzione, macchine autonome, così come Data Management, Business Intelligence e visualizzazione.

Ad esempio, un'impresa come SAP utilizza le GPU NVIDIA DGX-1, concepite per il Deep Learning, e Amazon Web Services per analizzare flussi video attraverso lo strumento SAP Computer Vision Engine, e carpire database di informazioni da questi. Per esempio, verificare quante volte appare un brand sui cartelli pubblicitari all'interno di un video di una corsa automobilistica. I servizi basati sul Deep Learning di nuova generazione richiedono potenze di calcolo sensazionali: per Microsoft ResNet abbiamo 7 ExaFLOPS, Baidu Deep Search 2 richiede invece 20 ExaFLOPS, eGoogle NMT addirittura 105 ExaFLOPS. L'obiettivo di NVIDIA è fornire questa potenza di calcolo.

GTC 2017

È su queste premesse che arriva l'annuncio di Tesla V100, definito da Jensen come un grosso passo in avanti per l'intelligenza artificiale e gli HPC. Ovviamente la V nel codice evidenzia il passaggio a Volta rispetto alla precentente generazione Pascal. Tesla V100 equipaggia nuove unità di calcolo definite Tensor Core all'interno della nuova GPU Volta che si contraddistingue per una forza di fuoco di 7,5 TFLOPS per quanto riguarda il calcolo in FP64 e di 15 TFLOPS in FP32. Il die size di questo nuovo chipset è pari a 815mm2, ovvero una misura molto importante per il die di una GPU, mentre il TSMC è di 12nm FFN; il chipset monta 21 miliardi di transistor. Jensen sostiene che si tratta del progetto più complesso mai realizzato nei laboratori di NVIDIA, la cui componente di ricerca e sviluppo è costata 3 miliardi di dollari. Altre specifiche: 16MB di memoria cache, 16GB di memoria di tipo HBM2 a 900GB/sec, GV100 GPU, NVLink 2 a 300GB/sec.

NVIDIA Tesla V100

NVIDIA Tesla V100

Per la nuova architettura Volta, che succederà a Pascal anche per le schede video commerciali in un prossimo futuro, Jensen parla di una capacità di calcolo superiore di 1,5 rispetto a Pascal e di 12 volte per i calcoli relativi al training del Deep Learning. Questo perché NVIDIA ha inserito una moltitudine di nuove istruzioni in hardware specializzate per il Deep Learning all'interno dei nuovi Tensor Core, da intendere quindi come una variante dei CUDA Core ottimizzata per il Deep Learning.

Tensor Core

Jensen ha poi annunciato una serie di framework già compatibili con Volta, come Facebook Caffe2, Microsoft Cognitive Toolkit, Mxnet. Una configurazione con 64 GPU Volta può completare un'iterazione di ResNet -50 in un paio di ore, sostiene Jensen.

Ci sarà anche un nuovo DGX-1 con Tesla V100. Questo è uno strumento essenziale per la ricerca sull'intelligenza artificiale dotato di 8 GPU Tesla V100 che garantiscono una calacità di calcolo paragonabile a quella che 400 server sono in grado di erogare ma in un piccolo box. Si parla di 960 TFLOPS complessivi grazie alla nuova tecnologia Tensor Core per l'intelligenza artificiale. Un rendering che impiegherebbe 8 giorni con una Titan X con DGX-1 può essere completato in 8 ore. Lo volete a casa vostra? Bene, bastano 149 mila dollari!

A questo mostro si aggiunge una stazione di calcolo più compatta, conosciuta come DGX Station e rivolta al singolo ricercatore piuttosto che all'intera azienda. Questo personale computer AI arriverà, come il precedente nel Q3, e costerà 69 mila dollari. Potenza di calcolo pari a 480 TFLOPS e 4 Tesla V100 all'interno dello chassis. Il sistema è raffreddato a liquido e dispone di unità da Jensen annuncia anche HGX-1, un server per il cloud computing con 8 GPU Tesla V100 in un hybrid cube.

DGX STation

Jensen è poi passato a Tensorrt per TensorFlow, nuovo compiler per l'elaborazione delle inferenze per il Deep Learning che trarrà benefici dalla nuova architettura Volta. A questo punto è stata la volta degli Stack di Deep Learning, alla base della logica dei framework e delle librerie. Le ultime ottimizzazioni agli Stack saranno la base del nuovo NVIDIA GPU Cloud, una piattaforma cloud accelerata tramite GPU e ottimizzata per il Deep Learning. I creatori di progetti di Deep Learning potranno usarla per accelerare le loro elaborazioni sfruttando i data center NVIDIA.

NVIDIA Metropolis è invece la piattaforma dedicata alla gestione delle "smart AI cities" del futuro. Si tratta di un pacchetto che comprende tecnologie, hardware ed SDK con cui le istituzioni potranno raccogliere dati e imbastire strategie di sorveglianza e protezione dei cittadini su larga scala. Metropolis è da intendersi ancora come un "proof of concept", un'idea di come potranno essere le città del futuro ma che ancora richiede diversi anni per poter essere concretizzata.

NVIDIA Metropolis

La conclusione del keynote è dedicata ai veicoli a guida autonoma: Jensen nello specifico ha pensato della nuova partnership tra NVIDIA e Toyota relativa ai veicoli a guida autonoma della seconda, che inizieranno a montare hardware NVIDIA Drive PX. Il processore alla base delle auto Toyota sarà Xavier, ovvero l'ultima incarnazione dell'hardware Drive PX che ha preso il posto di PX2 Parker. Xavier è un SoC basato su architettura Volta, già annunciato nel 2016. Combina una CPU per i calcoli single-threading, una GPU per i calcoli in parallelo e Tensor Core per il Deep Learning. Il DLA di Xavier è adesso open-source, il che permetterà a tutti i produttori di hardware di collaborare per il suo sviluppo. Early access a luglio e rilascio definitivo previsto per settembre.

Drive PX Xavier

Per quanto riguarda la Robotica, Isaac rappresenta il prossimo passo avanti nella simulazione combinando algoritmi generici alle più recenti reti neurali che consentono ai robot di imparare, di fare inferenze e di portare a compimento dei task, come realizzare costruzioni di Lego, giocare a hockey o a golf. Da questo punto di vista un altro strumento molto importante messo a disposizione da NVIDIA è Jetson, un supercomputer per la gestione dell'Intelligenza artificiale che può essere "embeddato" in piccoli dispositivi e in droni. L'ultima incarnazione di questa famiglia è Jetson TX2, una scheda per droni e piccoli robot già presentata da NVIDIA a marzo. Anche se è compreso in spazi molto ridotti Jetson è in grado di imparare autonomamente, di individuare gli ostacoli e di consentire ai droni di viaggiare in maniera sicura.

Drive PX Xavier

Drive PX Xavier

4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
CrapaDiLegno11 Maggio 2017, 09:02 #1
Il die size di questo nuovo chipset è pari a 815mm2, ovvero una misura molto importante per il die di una GPU, mentre il TSMC è di 12nm FFN; il chipset monta 21 miliardi di transistor.

Apperò.. piccolina la nuova creatura... le nuove unità di calcolo dedicate al calcolo 4x4 devono essere grandine. Mostruosa per il GPGPU ma non sembra però tutta questa grande innovazione rispetto a Pascal per il gaming.
Vedremo cosa ci sarà di nuovo sulle Volta consumer, ma credo ci fermeremo al 1.5x delle prestazioni con 1.5x delle risorse.
Il nuovo PP non sembra permettere di migliorare molto la densità (meno del 10%) però a quanto pare abbatterà i costi, che vuol dire che forse potremmo ritornare ad avere chip grandi a prezzi decenti.

P.S: ma se la GPU è 815mm^2, quanto sarà grande l'interposer?
tuttodigitale11 Maggio 2017, 15:41 #2
Originariamente inviato da: CrapaDiLegno
P.S: ma se la GPU è 815mm^2, quanto sarà grande l'interposer?

l'interposer probabilmente è ottenuto con esposizioni multiple.

Originariamente inviato da: CrapaDiLegno
Il nuovo PP non sembra permettere di migliorare molto la densità (meno del 10%) però a quanto pare abbatterà i costi, che vuol dire che forse potremmo ritornare ad avere chip grandi a prezzi decenti.

Il ptocesso usato è il 12FFN, processo ad elevate prestazioni.
Credo che ti sia confuso con il FFC.
CrapaDiLegno12 Maggio 2017, 13:39 #3
Originariamente inviato da: tuttodigitale
l'interposer probabilmente è ottenuto con esposizioni multiple.

Mi sa che è necessario perché a quelle dimensioni non ci si arriva di certo.

Originariamente inviato da: tuttodigitale
Il ptocesso usato è il 12FFN, processo ad elevate prestazioni.
Credo che ti sia confuso con il FFC.

Già, hai ragione.
Quindi vuol dire prezzi ancora più alti
tuttodigitale12 Maggio 2017, 23:12 #4
Originariamente inviato da: CrapaDiLegno
Già, hai ragione.
Quindi vuol dire prezzi ancora più alti

considera che verrà venduto a 15.000 euro a pezzo e non sarà neppure completamente abilitato.


nvidia va controcorrente...Mentre AMD sta estendendo per quanto possibile la flessibilità, riducendo il peso delle logiche fisse, nvidia con Volta, o almeno in questa specifica iterazione (che secondo me sarà ben diversa da quelle consumer e non mi riferisco semplicemente alle dimensioni e all'utilizzo delle HBM) usa i "tensor core", che non sono altro che unità spcializzate nell'esecuzione di matrici 4x4, con un tasso di esecuzione di ben 64 operazioni FMA per ciclo di clock .
Come tutte le unità con compiti specifici il loro beneficio è fortemente dipendente dal codice eseguito.

La cosa curiosa che AMD ha pubblicizzato un miglioramento netto (pari a 3x) con le sue librerie opensource rispetto a deepbench gemm (lo standard del settore). senza toccare minimamente l'HW in quanto a trarne beneficio è pure Fiji, che ricordo che nel test è più veloce ed efficiente di GP100...
GEMM è una funzione il cui acronimo sta per GEneral Matrix to Matrix Multiplication. E stando a quanto detto da Google in una rete neurale questa funzione è attiva per il 90% del tempo di esecuzione...viene da sé che avere HW dedicato non è poi una così cattiva idea...

un approccio completamente differente...credo che nvidia abbia in questo specifico settore la meglio....potrei anche sbagliarmi


Originariamente inviato da: CrapaDiLegno
Apperò.. piccolina la nuova creatura... le nuove unità di calcolo dedicate al calcolo 4x4 devono essere grandine. Mostruosa per il GPGPU ma non sembra però tutta questa grande innovazione rispetto a Pascal per il gaming.


Come ho detto su, i tensor core NON sono mostruosi per il GENERAL PURPOSE, ma sono unità specifiche progettate espressamente per dare il meglio con la funzione GEMM. Fuori da questo contesto estremamente specifico perde la ragione di esistere di queste unità di calcolo.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^