Colossus, il supercomputer da 100.000 GPU di xAI mostrato al mondo

ServeTheHome ha visitato il supercomputer Colossus di xAI, un gigantesco sistema che prevede a oggi ben 100.000 GPU NVIDIA H100 per addestrare modelli di intelligenza artificiale. Realizzato totalmente in soli 122 giorni, è il più grande supercomputer di IA al mondo.
di Manolo De Agostini pubblicata il 29 Ottobre 2024, alle 11:01 nel canale Schede VideoxAI
ServeTheHome ha avuto l'opportunità di vedere da vicino Colossus, il supercomputer con il quale xAI, società di Elon Musk, vuole rivoluzionare il settore dell'intelligenza artificiale e ottenere un vantaggio sulla concorrenza. A ServeTheHome è stato anche detto che attualmente Colossus sta addestrando i modelli di IA "del futuro", quindi superiori a Grok 3 e simili.
Il sistema è ubicato a Memphis ed è basato su server Supermicro con un totale di 100.000 GPU NVIDIA. Operativo da quasi due mesi, dopo un assemblaggio durato 122 giorni, Colossus è - secondo NVIDIA - il più grande supercomputer di IA al mondo.
Come si può vedere nel filmato, i server sono NVIDIA HGX H100, ognuno equipaggiato con 8 acceleratori H100. La piattaforma HGX H100 è stipata in un sistema 4U Universal GPU di Supermicro, che offre un raffreddamento a liquido sostituibile a caldo per ogni GPU.
I server si trovano all'interno di rack con otto server ciascuno, per un totale di 64 GPU per rack. I collettori 1U tra ogni HGX H100 forniscono il raffreddamento a liquido necessario ai server. Nella parte inferiore di ogni rack c'è un'altra unità Supermicro 4U, caratterizzata da un sistema ridondante di pompe e quanto necessario per il monitoraggio del rack.
Crediti: ServeTheHome
I rack sono accoppiati in gruppi di otto, per un totale di 512 GPU per array. Ogni server è dotato di quattro alimentatori ridondanti, mentre la parte posteriore dei rack GPU svela alimentatori trifase, switch Ethernet e un collettore che fornisce tutto il raffreddamento a liquido. Colossus prevede oltre 1500 rack di GPU. Secondo Jensen Huang, CEO di Nvidia, le GPU di questi array sono state installate in sole tre settimane, a tempo di record.
Oltre alla potenza, un supercomputer come questo richiede anche un'elevatissima larghezza di banda. Ogni scheda grafica ha un NIC dedicata 400GbE, e non mancano una NIC 400Gb in più per ogni server. Ciò significa che ogni server HGX H100 dispone di una rete Ethernet da 3,6 Terabit al secondo.
Crediti: ServeTheHome
Quanto all'alimentazione, non mancano banchi di batterie Tesla Megapack che servono ad affrontare i picchi di energia e sopperire nel caso la rete elettrica andasse in crisi. In totale Colossus ha una capacità totale di circa 155 MW e l'operatore di rete ha previsto una connessione di 50 MW a partire da agosto, per arrivare a 200 MW entro la fine dell'anno. Di conseguenza, xAI ha dovuto installare 14 enormi generatori da 2,5 MW ciascuno per far fronte alla successiva espansione dell'alimentazione.
Crediti: ServeTheHome
La prima fase di costruzione di Colossus è stata completata e il cluster è completamente online, ma il lavoro non è finito. Presto il supercomputer sarà aggiornato per raddoppiare la sua capacità di ospitare GPU, inglobando altre 50.000 H100 e 50.000 H200. L'update raddoppierà anche il consumo di energia. E potrebbe non essere finita qui: Musk ha dichiarato in passato di voler inserire 300.000 H200 all'interno di Colossus, quindi è possibile che il supercomputer riceva ulteriori aggiornamenti in futuro.
25 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoServeTheHome ha visitato il supercomputer Colossus di xAI, un gigantesco sistema che prevede a oggi ben 100.000 GPU NVIDIA H100 per addestrare modelli di intelligenza artificiale. Realizzato totalmente in soli 122 giorni, è il più grande supercomputer di IA al mondo.
Click sul link per visualizzare la notizia.
e.. a parte giocarci a Crysis che ci fa con il nuovo giocattolo ?.. domina il mondo ?.. lo chiamano Colossus perchè V.I.K.I era pericoloso ? o è proprio skynet ?
ecco cosa era
boh... se solo zittisse il genio per cui "la IA sono tutte stronzate", la spesa varrebbe l'impresa.
tutto e niente ?
per quello mi chiedevo a cosa serve..
è ovvio che Cina e altri hanno già questi giocattolini con cui giocano ed ogni AI ha uno scopo (almeno il proprietario che ha pagato ha uno scopo..)
ma questa di Elon mi domando a cosa serva di preciso.. addestrare IA è generico..
aspettiamo e vediamo.. alla fin fine i super computer ci sono da tempo e risolvono problemi da tempo.. una IA è solo un modo diverso per risolvere problemi.. speriamo che siano problemi che abbiamo adesso e non problemi che ci causeranno le IA..
Musk ha detto che lui può tagliare di 2 mila miliardi le spese dell'USA se gli danno retta eleggendo Trump e facendo di lui uno dei suoi consiglieri.. magari serve a mantenere la promessa di 2.000.000.000.000.000 di dollari/anno risparmiati.. lui si prenderà una commissione del 10% ?
quoto. Tutte ste fisime per l'IA, ma quando sono nati i primi supercomputer sarà stata la stessa cosa.
come inquinare a cacchio giusto per farlo, Musk sarà ne più ne meno di altri che usano l'IA.
consiglierei di vedere/rivedere Wargames del 1983, dove un monello ha rischiato la terza guerra mondiale per farsi una partita a un videogioco con una "IA" dell'epoca.
Spero che Trump non se ne sia accorto
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".