Google annuncia la seconda generazione di Tensor Processing Unit: 180 teraflop al secondo per l'Intelligenza Artificiale

Google annuncia la seconda generazione di Tensor Processing Unit: 180 teraflop al secondo per l'Intelligenza Artificiale

Il processore che Google ha sviluppato specificatamente per Intelligenza Artificiale e Machine Learning sfrutta ora le capacità del cloud: sarà inoltre a disposizione di ricercatori che ptoranno condurre gratuitamente i propri esperimenti

di Andrea Bai pubblicata il , alle 19:39 nel canale Processori
Google
 

Lo sapevamo già, ma Google l'ha nuovamente confermato: l'Intelligenza Artificiale, o AI, è il paradigma attorno al quale sta cambiando il mondo della computazione e, per esteso, il mondo della tecnologia.

Questo richiede un ripensamento delle logiche che stanno alla base della costruzione dei datacenter, e Google aveva già iniziato lo scorso anno a muoversi in questa direzione con la presentazione del suo Tensor Processing Unit, progettato specificatamente per il machine learning e usato dal sistema di intelligenza artificiale AlphaGo per ottimizzare alcune funzionalità dei servizi che quotidianamente offre agli utenti, come Translate, Photos, Maps e in generale tutto ciò che può beneificiare delle nuove tecniche di AI.

All'apertura della Google I/O 2017 il CEO del colosso di Mountain View, Sundar Pichai, ha annunciato la seconda generazione di TPU che prende il nome di TPU Cloud: una scheda provvista di 4 chip e in grado di gestire 180 mila miliardi di operazioni Floating Point al secondo. Le unità TPU Cloud vengono raggruppate all'interno di ciò che Google chiama TPU Pod, che permette di trasformare un rack server in un supercomputer con 11,5 petaflop di capacità computazionale.

Ma non si tratta semplicemente di "potenza bruta". Laddove la precedente generazione di TPU era in grado di compiere solamente operazioni di inferenza, la nuova generazione di TPU è capace di affrontare sia inferenza, sia training, risultando una risorsa molto più versatile con cui compiere esperimenti di AI.

Unitamente alla presentazione della nuova generazione di TPU, Google ha sottolineato nuovamente l'impegno ad offrire in forma open source le risorse TPU a quei ricercatori che acconsentono a pubblicare le scoperte delle loro ricerche ed, eventualmente, a rendere open source il loro codice. Il programma prende il nome di TensorFlow Research Cloud e offrirà gratuitamente l'accesso ad un cluster di 1000 TPU.

5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
CrapaDiLegno17 Maggio 2017, 21:16 #1
I numeri sembrano uno sproposito, ma se non sono paragonati a quello che offrono gli altri non hanno molto senso.
Sopratutto non ha senso se non si parla di consumi.
nvidia offre 120TFLOPS per il DeepLearning con il nuovo GV100 in 300W.
AMD non si sa con Vega, visto che non sappiamo se e come è in grado di effettuare calcoli matriciali di questo tipo.
Di certo non è che Google è mille anni avanti al resto della ciurma con le sue soluzioni ad hoc (che fanno quello è poi basta).
lucusta17 Maggio 2017, 21:47 #2
V100... GV100 non esiste ancora e come 100 la serie G è difficile che la facciano arrivare cosi' in alto (magari stesso numero di unità, ma in cut per resa).
120TF INT8 se consideri 15TF FP32, ma non è detto che quando calcoli in INT8 con quella macchina rimani a 300W o che comunque vada alla stessa frequenza... si sà ancora troppo poco su quel chip.

per questo TPU probabilmente si parla di 180TF FP16 (sono espressamente indicati in floating point e di solito la base piu' usata sul deep learning è FP16);
oltre questo non si sà nulla se non che un rack da 19x12" come standard ha 2X300W... ma chi li segue gli standard, ormai?
comunque per 11.5PF, non meno di un MW oggigiorno (e già cosi' sarebbe il doppio piu' efficiente di qualsiasi cosa vista con elevata densità, quindi mettiamoci almeno 2MW, con 2 PSU system standard).

ma senza dati son solo 4 chiacchere..
acerbo17 Maggio 2017, 22:20 #3
180 mila miliardi di operazioni Floating Point al secondo

con quali consumi?
CrapaDiLegno18 Maggio 2017, 14:27 #4
Originariamente inviato da: lucusta
V100... GV100 non esiste ancora e come 100 la serie G è difficile che la facciano arrivare cosi' in alto (magari stesso numero di unità, ma in cut per resa).
120TF INT8 se consideri 15TF FP32, ma non è detto che quando calcoli in INT8 con quella macchina rimani a 300W o che comunque vada alla stessa frequenza... si sà ancora troppo poco su quel chip.

per questo TPU probabilmente si parla di 180TF FP16 (sono espressamente indicati in floating point e di solito la base piu' usata sul deep learning è FP16);
oltre questo non si sà nulla se non che un rack da 19x12" come standard ha 2X300W... ma chi li segue gli standard, ormai?
comunque per 11.5PF, non meno di un MW oggigiorno (e già cosi' sarebbe il doppio piu' efficiente di qualsiasi cosa vista con elevata densità, quindi mettiamoci almeno 2MW, con 2 PSU system standard).

ma senza dati son solo 4 chiacchere..

Compro un punto e una virgola.

A parte che il chip si chiama GV100: http://www.anandtech.com/show/11367...rator-announced ed è la scheda a chiamarsi Tesla V100 (con Pascal era GP100 e la scheda Tesla P100), quello che tu definisci "GP100", cioè la versione per Geforce non ci sarà, perché ci sarà il GV102 come c'è stato il GP102 nella fascia enthusiast per Pascal.

Detto questo che corregge la prima inesattezza, prima di fare i calcoli della serva finendo con un "ma senza dati son solo 4 chiacchiere" magari dovresti leggere un po' di più di quel che esiste nel mondo reale così impari che ci sono altri che sanno fare calcoli molto meglio di te:
dallo stesso link (te lo evidenzio che magari fai fatica a leggere l'inglese e dopo mezz'ora non sei ancora arrivato al punto):
By the numbers, Tesla V100 is slated to provide 15 TFLOPS of FP32 performance, 30 TFLOPS FP16, 7.5 TFLOPS FP64, and a whopping 120 TFLOPS of dedicated Tensor operations. With a peak clockspeed of 1455MHz, this marks a 42% increase in theoretical FLOPS for the CUDA cores at all size. Whereas coming from Pascal, for Tensor operations the gains will be closer to 6-12x, depending on the operation precision.

Tensor oprations = operazioni per il DeepLearning.
Poi come queste operazioni si trasformino in performance reali non lo so, così come non so quei 180TFLOPS dell'ASIC di Google come e dove operano (che banda hanno a disposizione?). Non si sa nemmeno se i tensor core possono funzionare insieme alle unità INT32 come fanno le unità FP32.
tuttodigitale22 Maggio 2017, 14:30 #5
Originariamente inviato da: CrapaDiLegno
Di certo non è che Google è mille anni avanti al resto della ciurma con le sue soluzioni ad hoc (che fanno quello è poi basta).


Se Google ha una soluzione che risolve in maniera brillante un problema, ed è più efficiente degli altri, poco conta se in ambiti non specifici vada male...
ovviamente se fino a ieri si sono appoggiate alle soluzioni come la S9300x2 e la P100, qualche dubbio è legittimo...ma se permetti ho qualche dubbio anche sul miglioramento reale della soluzione nvidia...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^