Wafer Scale Engine 3, il nuovo enorme processore di Cerebras ha 900.000 core

Wafer Scale Engine 3, il nuovo enorme processore di Cerebras ha 900.000 core

WSE-3 è la terza generazione del Wafer Scale Engine di Cerebras Systems, il processore grande quanto un wafer di chip in silicio destinato al mondo dell'intelligenza artificiale. Più core e prestazioni ma stessi consumi e prezzo per la nuova soluzione.

di pubblicata il , alle 16:31 nel canale Processori
Cerebras
 

Cerebras Systems ha annunciato Wafer Scale Engine 3 (WSE-3), terza iterazione del processore per l'intelligenza artificiale grande quanto un wafer di chip in silicio - occupa un'area di 46225 mm2.

Il nuovo WSE-3 raddoppia le prestazioni del precedente WSE-2 ma ne mantiene invariati i consumi e il prezzo. "WSE-3 è il chip AI più veloce al mondo", ha dichiarato senza mezzi termini Andrew Feldman, CEO e co-fondatore di Cerebras.

Il processore della società statunitense nasce per addestrare i più grandi modelli di intelligenza artificiale del settore (fino a 24000 miliardi di parametri) e al suo interno prevede 900.000 core, 50.000 in più del WSE-2 per una prestazione di picco di 125 petaflops (FP16 highly sparse). Tra le altre caratteristiche citate troviamo 4000 miliardi di transistor, il processo produttivo a 5 nanometri di TSMC e 44 GB di SRAM on-chip.

CS-3, il sistema al cui interno vive WSE-3, permette di addestrare "la prossima generazione di modelli più grandi di 10 volte rispetto a GPT-4 e Gemini". Grazie all'interconnessione SwarmX di nuova generazione si possono connettere tra loro fino a 2048 sistemi CS-3 (contro i 192 di CS-2), attingendo a un massimo di 1,2 PB (petabyte) di memoria esterna MemoryX. L'insieme di 2048 sistemi CS-3, secondo Cerebras, è in grado di raggiungere prestazioni di 256 exaflops con calcoli IA e addestrare Llama2-70B da zero in meno di un giorno.

Rispetto all'acceleratore H100 di NVIDIA, il WSE-3 è circa 57 volte più grande e vanta circa 62 volte le prestazioni "FP16 sparse". Considerando le dimensioni e il consumo energetico di CS-3, però, sarebbe più corretto confrontarlo con una coppia di sistemi DGX per un totale di 16 NVIDIA H100. In questo caso, il CS-3 è comunque circa 4 volte più veloce, ma solo se si considerano le performance "FP16 sparse".

Uno dei principali vantaggi di Cerebras è la bandwidth di memoria. Grazie ai 44 GB di SRAM on-chip, l'ultimo prodotto di Cerebras vanta una larghezza di banda della memoria di 21 PB/s, contro i 3,9 TB/s raggiunti dall'acceleratore NVIDIA H100 con memoria HBM3.

Nella sua nota stampa Cerebras afferma che l'addestramento di un modello da 1000 miliardi di parametri su CS-3 è semplice "quanto quello di un modello da un miliardo di parametri sulle GPU". Inoltre, un sistema CS-3 richiederebbe il 97% di codice in meno rispetto alle GPU per gli LLM (Large Language Model). "Un'implementazione standard di un modello di dimensioni GPT-3 ha richiesto solo 565 righe di codice su Cerebras: un record per il settore".

Cerebras afferma di avere già un considerevole arretrato di ordini per CS-3 da evadere. In particolare, la società punta l'attenzione sulla partnership con G42, realtà impegnata nel campo dell'IA degli Emirati Arabi Uniti.

Dopo aver creato insieme i supercomputer Condor Galaxy 1 (CG-1) e Condor Galaxy 2 (CG-2), le due società hanno annunciato i lavori su Condor Galaxy 3 (CG-3), sistema che sarà installato a Dallas, Texas. "Condor Galaxy 3 sarà costruito con 64 sistemi CS-3 per una potenza di 8 exaflops con calcoli IA" si legge nella nota che fissa l'operatività nel corso del Q2 2024.

Infine, Cerebras ha annunciato di aver collaborato con Qualcomm per sviluppare una piattaforma IA congiunta per la formazione e l'inferenza. "I modelli addestrati sul CS-3 utilizzando le nostre caratteristiche architettoniche esclusive come la sparsità non strutturata possono essere accelerati sugli acceleratori di inferenza Qualcomm AI 100 Ultra. Nel complesso, il throughput dell'inferenza LLM è fino a 10 volte più veloce", conclude la società.

12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Final5013 Marzo 2024, 17:04 #1
Si conosce il PP? perchè con quella estensione deve essere super affidabile altrimenti la resa sarà prossima allo 0...
supertigrotto13 Marzo 2024, 17:32 #2
46225 mm2 praticamente quasi grande come il prossimo chip Nvidia per la serie 5000.
Dai stavo scherzando....
wulff7313 Marzo 2024, 17:39 #3
La scheda madre è un campo da calcio.
Piedone111313 Marzo 2024, 18:09 #4
Originariamente inviato da: wulff73
La scheda madre è un campo da calcio.


E il dissipatore la torre Eiffel ( ma quei fori servono per fissare il dissipatore ?)
giovanni6913 Marzo 2024, 19:08 #5
Allora esiste la concorrenza a Nvidia!
paolo cavallo13 Marzo 2024, 21:16 #6
la concorrenza a NVIDIA esiste ma nvidia ha anche CUDA e i migliori programmi che sfruttano i suoi BESTIALI CHIP A.I.
emanuele8314 Marzo 2024, 11:54 #7
Vedo enormi problemi di gestione delle alimentazioni. come cavolo fanno a pretendere che i surge di corrente sulle senza condensatori di decoupling non embedded (quindi in silicio) non impongano limitazioni di velocitá (slew rate)?
è un challenge mondiale! si overvolta duro, trimmerando tensioni in base al carico di ogni processore?
vi prego fatemi vedere il bonding del suddetto su package (!!!) o direttamente su PCB.

Che poi da CEREBRAS a CEREBROLES è un attimo...
Unrue14 Marzo 2024, 14:08 #8
Originariamente inviato da: paolo cavallo
la concorrenza a NVIDIA esiste ma nvidia ha anche CUDA e i migliori programmi che sfruttano i suoi BESTIALI CHIP A.I.


Esattamente. Nvidia non ha la sola pura potenza di calcolo, ma tutto un ecosistema di software maturo e ben articolato, difficilmente replicabile in poco tempo. Come diceva un vecchio slogan, "La potenza è nulla senza controllo".
Piedone111314 Marzo 2024, 15:20 #9
Originariamente inviato da: Unrue
Esattamente. Nvidia non ha la sola pura potenza di calcolo, ma tutto un ecosistema di software maturo e ben articolato, difficilmente replicabile in poco tempo. Come diceva un vecchio slogan, "La potenza è nulla senza controllo".


Talmente ben collaudato e maturo, ma sopratutto non replicabile in poco tempo, che praticamente ogni grande player nel settore IA vuole farse il suo hardware.
Se mi parli di altri settori, ma proprio sull'ia...
Unrue14 Marzo 2024, 15:23 #10
Originariamente inviato da: Piedone1113
Talmente ben collaudato e maturo, ma sopratutto non replicabile in poco tempo, che praticamente ogni grande player nel settore IA vuole farse il suo hardware.
Se mi parli di altri settori, ma proprio sull'ia...


Ma che c'entra, quello perché ovviamente la torta è grande e se la vogliono spartire.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^