xAI punta a 50 ExaFLOPS: Musk prepara una nuova infrastruttura AI con milioni di GPU

xAI punta a 50 ExaFLOPS: Musk prepara una nuova infrastruttura AI con milioni di GPU

xAI, la startup AI di Elon Musk, punta a raggiungere 50 ExaFLOPS di potenza per l’addestramento entro il 2030, grazie a un’infrastruttura basata su milioni di GPU NVIDIA di nuova generazione. Dopo Colossus, Musk punta su Colossus 2 per battere la concorrenza.

di pubblicata il , alle 08:41 nel canale Schede Video
NVIDIAxAI
 

Elon Musk ha dichiarato che xAI intende costruire un'infrastruttura in grado di raggiungere 50 ExaFLOPS per addestrare di modelli di intelligenza artificiale nei prossimi 5 anni, equivalente alla potenza di 50 milioni di GPU NVIDIA H100. Una cifra impressionante, anche se solo simbolica, dato che i piani si basano sull'utilizzo di acceleratori sempre più efficienti, come i futuri Feynman Ultra, piuttosto che sul semplice accumulo di chip attuali.

xAI ha già creato Colossus 1, un supercluster alimentato da 200.000 GPU NVIDIA H100 e H200, a cui si aggiungono 30.000 unità GB200 basate su architettura Blackwell. Ma l'obiettivo è ancora più ambizioso: il Colossus 2 prevede oltre un milione di GPU suddivise in 550.000 nodi GB200 e GB300, con i primi sistemi in arrivo entro poche settimane.

Per sostenere questa corsa, Musk sta cercando di raccogliere fino a 12 miliardi di dollari tramite fondi di private equity, in aggiunta ai circa 10 miliardi già ottenuti tra azioni e debito. Nonostante Musk sia l'uomo più ricco del mondo, xAI ha scelto un approccio diverso rispetto a rivali come OpenAI: non affidarsi a infrastrutture cloud esistenti, ma costruire e gestire in proprio i propri datacenter.

Un esempio lampante è proprio Colossus 1, costruito in soli 122 giorni e poi espanso, con consumi stimati tra i 50 e i 150 megawatt, anche grazie a turbine alimentate a metano. NVIDIA stessa ha elogiato l'impresa, con il CEO Jensen Huang che ha definito l'operazione "sovrumana".

Clicca per ingrandire

Sul fronte tecnologico, NVIDIA continua a migliorare annualmente le sue GPU. Con i passaggi da Hopper (H100) a Blackwell (B200), fino a Blackwell Ultra (B300), e in futuro Rubin e Feynman, le prestazioni per l'addestramento AI in BF16 e FP16 sono raddoppiate a ogni generazione. Secondo queste proiezioni, basterebbero circa 650.000 GPU Feynman Ultra per raggiungere i 50 ExaFLOPS entro il 2029.

Tuttavia, resta un'incognita enorme: il consumo energetico. Alimentare 50 milioni di H100 richiederebbe 35 gigawatt, l'equivalente di 35 centrali nucleari. Anche con GPU di nuova generazione molto più efficienti, l'infrastruttura necessaria richiederà comunque diversi gigawatt, una sfida infrastrutturale e ambientale non da poco.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^