DeepSeek R1, ecco quanto è costato davvero il training dell'AI che ha sorpreso tutti

DeepSeek R1, ecco quanto è costato davvero il training dell'AI che ha sorpreso tutti

I dati ufficiali chiariscono i costi di addestramento di DeepSeek R1: ben più alti dei 294.000 dollari citati nel rapporto pubblicato la scorsa settimana. L'intero processo, che ha coinvolto milioni di ore GPU, si avvicina ai 6 milioni di dollari. Ecco tutti i dettagli

di pubblicata il , alle 09:36 nel canale Web
DeepSeek
 

Nei giorni scorsi ha fatto molto rumore la pubblicazione del paper su DeepSeek R1 nella rivista Nature. Alcuni numeri presenti nel report hanno spinto molti osservatori a sostenere che l'intero modello fosse stato addestrato con un budget di appena 294.000 dollari. In realtà, i dati completi raccontano una storia ben diversa, con cifre vicine ai 5,87 milioni di dollari.

La cifra di 294.000 dollari si riferisce infatti a una fase specifica e finale del lavoro: il reinforcement learning applicato a R1-Zero, costruito sulla base del modello DeepSeek V3. Questa procedura, basata sulla tecnica Group Relative Policy Optimization (GRPO), ha richiesto 64 server con otto GPU H800 ciascuno, per un totale di 512 unità utilizzate per 198 ore, più altre 80 ore di affinamento. È qui che si è formata la parte di R1 legata al cosiddetto "ragionamento passo-passo".

DeepSeek

La confusione nasce dal fatto di aver considerato solo una parte, quella finale, dell'addestramento. Il training del modello di base, DeepSeek V3, aveva già richiesto 2.79 milioni di ore GPU, equivalenti a circa 5,58 milioni di dollari, a cui va sommato il reinforcement learning per arrivare al totale. Si tratta dunque di un processo in linea con i grandi modelli occidentali, come Llama 4 di Meta, che secondo i dati pubblici ha impiegato fra 2,38 e 5 milioni di ore GPU.

La differenza sostanziale sta nel rapporto tra dimensione del modello e quantità di dati utilizzati: DeepSeek V3 è più grande della versione Maverick di Llama 4, ma ha impiegato 14,8 trilioni di token per l'addestramento, molto meno rispetto ai 22-40 trilioni dei modelli di Meta. In altre parole, la presunta "efficienza estrema" di DeepSeek va ridimensionata alla luce di questi dati.

Va anche sottolineato che le stime economiche si basano sull'ipotesi di noleggio delle GPU a 2 dollari l'ora. Il costo reale dei server con 256 GPU utilizzati per V3 supera i 51 milioni di dollari, senza considerare spese aggiuntive per ricerca, acquisizione e pulizia dei dati, o eventuali esperimenti non andati a buon fine.

In definitiva, l'idea che DeepSeek sia riuscita a costruire un modello avanzato a un costo irrisorio è un'illusione. I numeri reali confermano che anche in Cina l'AI di nuova generazione richiede risorse colossali, paragonabili a quelle impiegate dai giganti tecnologici occidentali.

1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
CrapaDiLegno22 Settembre 2025, 11:27 #1
I numeri sparati fanno parte della propaganda cinese che tenta di dimostrare che loro possono andare avanti senza la tecnologia occidentale.
La bufala era chiara già dall'annuncio, ovviamente tranne per i pro china che la dipingono come il nuovo miracolo tecnologico del millennio, esattamente come hanno fatto settimana scorsa annunciando che Huawei sarà in grado di fare un super computer con centinaia di migliaia di acceleratori AI per liberarsi della dipendenza da Nvidia.
Saranno centinaia di migliaia di calcolatrici tascabili connesse tra di loro per calcolare quello che Nvidia riesce a ottenere con 2 Rubin e 1/10 dei W.

Perché i fondamentali nella tecnologia sono uguali per tutti, compresi i cinesi: finché non hai a disposizione processi produttivi migliori, non riesci a cavare un ragno dal buco. E loro sono rimasti al 2016 per quanto riguarda i PP.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^