View Full Version : Il fenomeno DeepSeek fa male a NVIDIA: il titolo crolla in Borsa, ma l'azienda non si scompone
Redazione di Hardware Upg
27-01-2025, 21:31
Link alla notizia: https://www.hwupgrade.it/news/mercato/il-fenomeno-deepseek-fa-male-a-nvidia-il-titolo-crolla-in-borsa-ma-l-azienda-non-si-scompone_135009.html
Giornata nerissima per il titolo NVIDIA in Borsa. Il panico creato dal rilascio del modello IA cinese DeepSeek-R1 ha scatenato le vendite, facendo crollare le azioni di quasi il 17%. NVIDIA, tuttavia, non si scompone troppo.
Click sul link per visualizzare la notizia.
F1r3st0rm
27-01-2025, 21:51
zuckerbergo ha preso abbastanza pugni in testa da rinsavire e smettere di giocare con il metaverso?
A parte che le cifre dichiarate da DeepSeek sono la risposta dell'oste riguardo quanto sia buono il proprio vino, resta il fatto che questo evidenzia le distorsioni speculative sul lato americano della "corsa alle AI".
Quando lo scopo primario diventa "facciamo più soldi in borsa" la strategia di ricerca va in secondo piano e si privilegiano le tattiche che portano più profitto a breve termine.
A parte che le cifre dichiarate da DeepSeek sono la risposta dell'oste riguardo quanto sia buono il proprio vino, resta il fatto che questo evidenzia le distorsioni speculative sul lato americano della "corsa alle AI".
Quando lo scopo primario diventa "facciamo più soldi in borsa" la strategia di ricerca va in secondo piano e si privilegiano le tattiche che portano più profitto a breve termine.
Il vino in questo caso però non è male. Il training del modello cinese rimane appannaggio loro (e volendo ci sono pure dei dubbi su quanto “poco” effettivamente abbiano dovuto lavorare sul training primario, ma questo è altro discorso), ma la tecnologia è solida, non la solita cinesata.
Ad ogni modo, USA crede moltissimo nel first mover advantage, tanto in generale come cultura quanto nel caso specifico AI. In una certa misura è inevitabile che gli investimenti in capo all’apripista siano più elevati. Tantopiù se ti chiami USA.
C’è speculazione sopra? Sì. Se questo sia un male tout court però è tutto da dimostrare, i margini speculativi potenziali sono anche un enorme traino. L’alternativa quale sarebbe? Ad oggi, non essere della partita; e personalmente trovo difficile sostenere che questo se sia meglio.
La chiave di volta è rendere tutto open source, non solo open weights come fanno gli altri (a parte Meta mi pare)
Vedremo, anche perché quello che dicono i cinesi va sempre preso con le pinze.
AlexSwitch
28-01-2025, 07:58
Intanto la prima " bollicina " AI è scoppiata... Nella giornata di ieri Nvidia ha perso 589 MLD di Dollari in capitalizzazione, semplicemente la più grande della storia!! 589 Miliardi di USD in 24 ore... Potente questo siluro cinese!!
i bei tempi di quando si vendevano le schede per i video giochi a 3 cucuzze!:D
Intanto la prima " bollicina " AI è scoppiata... Nella giornata di ieri Nvidia ha perso 589 MLD di Dollari in capitalizzazione, semplicemente la più grande della storia!! 589 Miliardi di USD in 24 ore... Potente questo siluro cinese!!
...prego signori controllare i mie post dell'anno precedente, ma anche del 2023 riguardo ai Cinesi che inesorabili sarebbero arrivati anche in questo campo.
E infatti sono arrivati ! C.V.D. :read:
...prego signori controllare i mie post dell'anno precedente, ma anche del 2023 riguardo ai Cinesi che inesorabili sarebbero arrivati anche in questo campo.
E infatti sono arrivati ! C.V.D. :read:
un paese che sforna 1.000.000 di ingegneri a l'anno arriva dappertutto
https://www.philschmid.de/deepseek-r1
altro che 6 milioni di dollari. Questi hanno circa 50K GPU ed il supporto di un edgefound da miliardi dietro, inoltre il modello foundational utilizzato è LLMA sempre americano, come i chip che lo elaborano.
UtenteHD
28-01-2025, 08:28
Secondo me il tipo di scrittura e lingua influisce sul capacita' di elabolare i dati del cervello e molto altro.
I Cinesi ed i Giapponesi (ovviamente) che hanno a che fare con tutti sti minimo 2000 Kanji ecc.. li fa in genere dei geni.
Detto questo la fame aguzza l'ingegno e piu' togliete Loro, sanzioni, ecc.. e piu' Loro dovranno cavarsela in qualche maniera ed a volte o spesso saltano fuori con qualcosa che stupisce e frega tutti. (un po' come chi vuole giocare ai triple AAA coi giochi moderni e non ha PC ultra potente perche' non ha soldi da buttare, si impegna e mod di qua, manual fix di la ci riesce in qualche maniera dove gli altri gongolano negli allori con super power PC e manco ci pensano a qualcosa del genere)
Mi sa che potranno cercare di limitarli in tutto per miliardi di volte, ma presto domineranno in tutto ed ogni campo.
Per questa IA e le future che ovviamente usciranno surclassando le precedenti, se rendono, sono free e servono, si vedra' se usarle, ovviamente si ricorda di non metterci dati personali, dati propri, proprie info, ecc..
https://www.philschmid.de/deepseek-r1
altro che 6 milioni di dollari. Questi hanno circa 50K GPU ed il supporto di un edgefound da miliardi dietro, inoltre il modello foundational utilizzato è LLMA sempre americano, come i chip che lo elaborano.
Vero, però vai a vedere quanti ricercatori cinesi ci sono che lavorano negli USA su queste cose... Se per caso tornassero in patria sarebbero cavoli amari per gli USA.
In pratica è una sfida tra cinesi che lavorano negli USA e cinesi in Cina.
Non si è scomposta no, oggi scendi, domani sali...
Scusate, per capire:
Hanno preso un modello pre addestrato e ci hanno fatto un ulteriore tipo di addestramento con GPU di fascia bassa che ha migliorato notevolmente la resa del modello.
Nelle conclusioni del paper hanno anche aggiunto che la resa sarebbe stata superiore con GPU di fascia alta e che l'inferenza richiede molto sforzo computazionale.
Corretto? A me sembra una notizia ottima per nVidia. Hanno usato un modello pre addestrato (probabilmente con GPU nVidia), hanno implementato un nuovo addestramento con ecosistema nVidia e hanno detto che serve più potenza computazionale per avere risultati ancora migliori.
Scusate, per capire:
Hanno preso un modello pre addestrato e ci hanno fatto un ulteriore tipo di addestramento con GPU di fascia bassa che ha migliorato notevolmente la resa del modello.
Nelle conclusioni del paper hanno anche aggiunto che la resa sarebbe stata superiore con GPU di fascia alta e che l'inferenza richiede molto sforzo computazionale.
Corretto? A me sembra una notizia ottima per nVidia. Hanno usato un modello pre addestrato (probabilmente con GPU nVidia), hanno implementato un nuovo addestramento con ecosistema nVidia e hanno detto che serve più potenza computazionale per avere risultati ancora migliori.
Esatto.
Alla fine Nvidia ci guadagna comunque :D
Scusate, per capire:
Hanno preso un modello pre addestrato e ci hanno fatto un ulteriore tipo di addestramento con GPU di fascia bassa che ha migliorato notevolmente la resa del modello.
Nelle conclusioni del paper hanno anche aggiunto che la resa sarebbe stata superiore con GPU di fascia alta e che l'inferenza richiede molto sforzo computazionale.
Corretto? A me sembra una notizia ottima per nVidia. Hanno usato un modello pre addestrato (probabilmente con GPU nVidia), hanno implementato un nuovo addestramento con ecosistema nVidia e hanno detto che serve più potenza computazionale per avere risultati ancora migliori.
Il modello pre-addestrato (DeepSeek V3 ossia la base su cui è stato addestrato DeepSeek R1), l'hanno addestrato comunque loro da zero; è quello che è costato solo in termini di costi elaborativi circa 5 milioni di dollari.
https://arxiv.org/abs/2412.19437
DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.
A titolo di paragone, Llama-3.1-8B di Meta ha richiesto 1.4M di ore-GPU complessive nonostante sia molto più piccolo e assai meno capace.
In ogni caso concordo che questo non vuol dire nulla di negativo per NVidia. Semmai più aziende vedranno ciò come un'opportunità per addestrare modelli capaci a costi più bassi di quanto immaginato (addestrare modelli enormi e mediocri a costi bassi è sempre stato possibile).
randorama
28-01-2025, 10:45
a me sta cosa non torna.
quando mai c'è stato, in un qualunque campo una innovazione che ha tagliato i costi/aumentato l'efficienza di un fattore come quello attribuito a sto coso?
per carità, c'è sempre una prima volta; però...però.
Scusate, per capire:
Hanno preso un modello pre addestrato e ci hanno fatto un ulteriore tipo di addestramento con GPU di fascia bassa che ha migliorato notevolmente la resa del modello.
Nelle conclusioni del paper hanno anche aggiunto che la resa sarebbe stata superiore con GPU di fascia alta e che l'inferenza richiede molto sforzo computazionale.
Corretto? A me sembra una notizia ottima per nVidia. Hanno usato un modello pre addestrato (probabilmente con GPU nVidia), hanno implementato un nuovo addestramento con ecosistema nVidia e hanno detto che serve più potenza computazionale per avere risultati ancora migliori.
Sì, ma sono passati dal dire "Nvidia è fondamentale" a "Nvidia è migliore, ma si può usare anche altro"...
Nvidia ci guadagnerà comunque, ma è scesa nel livello di "necessarietà".
E, al pari, le questioni di dazi americani...
Alodesign
28-01-2025, 11:04
a me sta cosa non torna.
quando mai c'è stato, in un qualunque campo una innovazione che ha tagliato i costi/aumentato l'efficienza di un fattore come quello attribuito a sto coso?
per carità, c'è sempre una prima volta; però...però.
Intendi tipo:
https://images.wired.it/wp-content/uploads/2018/02/13163952/1518532792_EDSAC-1050x590.jpg
E poi questo:
https://images.idgesg.net/images/article/2017/07/raspberry-pi-3-hookup-100729041-orig.jpg
?
randorama
28-01-2025, 11:40
Intendi tipo:
?
mannaggia a me mi sono mangiato "in così poco tempo".
mi risulta che tra eniac e raspberry ci siano, largo circa, 60 anni.
edit: di più... 70
a me sta cosa non torna.
quando mai c'è stato, in un qualunque campo una innovazione che ha tagliato i costi/aumentato l'efficienza di un fattore come quello attribuito a sto coso?
per carità, c'è sempre una prima volta; però...però.
Il dubbio viene in effetti.
Qui poi ci si scontra con la proverbiale trasparenza cinese da un lato e pure con un celolunghismo / gioco politico tra superpotenze dall’altro.
Momenti del genere ce ne sono stati, seppur molto rari, ma mai della portata di quello che AI rappresenta oggi, nemmeno con tutte le perequazioni del caso.
Ad ogni modo, in questi momenti chi costruisce da secondo prende tutto know how di chi ha tracciato la strada, potendosi focalizzare solo sull’extra mile.
In questo modus operandi i cinesi non sono secondi a nessuno.
randorama
28-01-2025, 12:27
Il dubbio viene in effetti.
Qui poi ci si scontra con la proverbiale trasparenza cinese da un lato e pure con un celolunghismo / gioco politico tra superpotenze dall’altro.
Momenti del genere ce ne sono stati, seppur molto rari, ma mai della portata di quello che AI rappresenta oggi, nemmeno con tutte le perequazioni del caso.
Ad ogni modo, in questi momenti chi costruisce da secondo prende tutto know how di chi ha tracciato la strada, potendosi focalizzare solo sull’extra mile.
In questo modus operandi i cinesi non sono secondi a nessuno.
si, sono d'accordo; però, accidenti, qui mi sembra che l'ultimo miglio sia davvero lunghetto...
Alodesign
28-01-2025, 12:43
mannaggia a me mi sono mangiato "in così poco tempo".
mi risulta che tra eniac e raspberry ci siano, largo circa, 60 anni.
edit: di più... 70
Ah ecco :D
Il vino in questo caso però non è male. Il training del modello cinese rimane appannaggio loro (e volendo ci sono pure dei dubbi su quanto “poco” effettivamente abbiano dovuto lavorare sul training primario, ma questo è altro discorso), ma la tecnologia è solida, non la solita cinesata.
Mi riferivo proprio al costo di di produzione del modello.
Se ho capito bene, il costo che hanno dichiarato è quello di un singolo ciclo di addestramento di DeepSeek R3, escludendo:
- i cicli di addestramento precedenti
- i costi del personale
- gli investimenti infrastrutturali.
Nel documento pubblicato da DeepSeek stessa che si può reperire qui:
https://arxiv.org/pdf/2412.19437v1
Risulta che:
"Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.
Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data."
In pratica i "circa 6 milioni di costo" sono relativi solo al training run finale, non al costo complessivo reale.
Poi c'è da aggiungere che DeepSeek è stata fondata ed è di proprietà di Ningbo High-Flyer Quantitative Investment Management Partnership (di solito chiamata solo High-Flyer oppure Ningbo High-Flyer), in pratica un hedge fund, che di certo non si è fatta sfuggire l'occasione di "giocare in anticipo" sulle prevedibili fluttuazioni delle azioni delle aziende coinvolte nello sviluppo di AI una volta che DeepSeek avesse sganciato la bomba dei "solo 6 milioni".
a me sta cosa non torna.
quando mai c'è stato, in un qualunque campo una innovazione che ha tagliato i costi/aumentato l'efficienza di un fattore come quello attribuito a sto coso?
per carità, c'è sempre una prima volta; però...però.
Domanda interessante. Il tuo dubbio è lecito e potrebbe benissimo esserci qualche bluff dietro. Però vorrei provare a fare l'avvocato dei cinesi e provare a immaginare perchè potrebbe essere vero quello che dicono.
Facciamo un paragone con il mondo dei videogiochi.
Quanta potenza di calcolo, per una certa configurazione hardware, viene inutilizzata perchè le ore di lavoro extra degli sviluppatori necessarie a ottimizzare al massimo ogni configurazione sarebbero un costo eccessivo che non giustificherebbe il miglioramento? E' più comodo avere software ottimizzati quel tanto che basta, fermandosi dove l'incremento marginale di ulteriori performane date dall'ottimizzazione lato software non giustificare i costi di tali ulteriori sviluppi. E quindi si migliora lato hardware più comodamente, facendo affidamento a sempre più potenti ed energivore schede grafiche nuove.
Parlando poi di console invece che di pc ricordiamo le console più antiche che a fine ciclo vitale sfornavano delle perle grafiche incredibili rispetto ad inizio gen. Erano sistemi meno complessi (e ogni gen diventava più complessa di quella prima) e quindi arrivare a sfruttare anche l'ultima goccia di potenza era meno dispendioso come sforzo di sviluppo. Inoltre erano sistemi unici, del tutto diversi dall'architettura simil pc usata dalle console più recenti e quindi si creavano kit di sviluppo molto specifici per un hardware unico, tool che si ottimizzavano ulteriormente nel corso di vita della console cucendosi addosso a tale unicità. Adesso chi te lo fa fare di spaccare l'atomo in 4 su ps5/ultimaxbox quando puoi fare un porting pigro per via della similitudine con l'architettura pc?
Se la Cina si è trovata in una situzione in cui l'hardware non poteva più essere incrementato a piacere per i dazi e limitazioni varie avrà deciso di spendere moltissimo nel miglioramento lato software, spremento tutto quello che poteva da un certo hardware anche a costo di altissimo costi di sviluppo.
a me sta cosa non torna.
quando mai c'è stato, in un qualunque campo una innovazione che ha tagliato i costi/aumentato l'efficienza di un fattore come quello attribuito a sto coso?
per carità, c'è sempre una prima volta; però...però.
In maniera molto semplificata (forse un po' troppo) è spiegato in questo thread: https://xcancel.com/morganb/status/1883686162709295541#m
Qui un riassunto un po' meno semplificato da Reddit (https://old.reddit.com/r/LocalLLaMA/comments/1ibk9us/meta_is_reportedly_scrambling_multiple_war_rooms/m9j7gym/):
fp8 instead of fp32 precision training = 75% less memory
multi-token prediction to vastly speed up token output
Mixture of Experts (MoE) so that inference only uses parts of the model not the entire model (~37B active at a time, not the entire 671B), increases efficiency
Multihead Latent Attention (MLA) which drastically reduces compute, memory usage, and inference costs of attention
PTX (basically low-level assembly code) hacking in old Nvidia GPUs to pump out as much performance from their old H800 GPUs as possible
Max Power
28-01-2025, 13:54
"Il titolo in borsa di Nvidia è calato del 17 per cento"
La festa starà per finire... finalmente?
"Il titolo in borsa di Nvidia è calato del 17 per cento"
La festa starà per finire... finalmente?
Però per tirare un bilancio io direi di aspettare.
Comunque ben venga la concorrenza, sempre !
Yuno gasai
28-01-2025, 14:24
So che non c'entra molto con il topic, ma in parte sì :asd: C'è qualche thread sulle llm qua su hwupgrade? Mi sembra strano che non ci siano topic dedicati in cui discutere:stordita:
"Il titolo in borsa di Nvidia è calato del 17 per cento"
La festa starà per finire... finalmente?
Che prima o poi arrivasse qualche concorrente era da mettere in conto. Ma da qua a fermarsi ce ne passa.
So che non c'entra molto con il topic, ma in parte sì :asd: C'è qualche thread sulle llm qua su hwupgrade? Mi sembra strano che non ci siano topic dedicati in cui discutere:stordita:
Avevo provato tempo fa ad aprire un thread nella sezione Scienza e Tecnica per la discussione dei paper più interessanti in merito rilasciati du arXiv, ma non ha avuto molto successo ed alla fine ho lasciato perdere. In ogni caso, considerando che non c'è nulla di più esoso in termini di hardware degli LLM più capaci, mi sembra strano che ancora non ci sia una sezione apposita nel forum di Hardware Upgrade.
randorama
28-01-2025, 14:40
In maniera molto semplificata (forse un po' troppo) è spiegato in questo thread: https://xcancel.com/morganb/status/1883686162709295541#m
Qui un riassunto un po' meno semplificato da Reddit (https://old.reddit.com/r/LocalLLaMA/comments/1ibk9us/meta_is_reportedly_scrambling_multiple_war_rooms/m9j7gym/):
non ho le competenze per apprezzare completamente la spiegazione, per quanto semplice.
posso solo auspicare, o per meglio dire sperare che, se davvero così semplici, verranno presto implementate "dagli altri".
quello che mi lascia davvero perplesso è il tenore delle risposte; sono praticamente identiche a quelle di chatgpt (cosa invece non vera per "gli altri" motori).
a voler pensare male...
In ogni caso, considerando che non c'è nulla di più esoso in termini di hardware degli LLM più capaci, mi sembra strano che ancora non ci sia una sezione apposita nel forum di Hardware Upgrade.
sai... sono molto impegnati a farci sapere chi va in visita a palazzo chigi...
non ho le competenze per apprezzare completamente la spiegazione, per quanto semplice.
posso solo auspicare, o per meglio dire sperare che, se davvero così semplici, verranno presto implementate "dagli altri".
Probabilmente è così:
Fortune - Meta is reportedly scrambling ‘war rooms’ of engineers to figure out how DeepSeek’s AI is beating everyone else at a fraction of the price
(https://fortune.com/2025/01/27/mark-zuckerberg-meta-llama-assembling-war-rooms-engineers-deepseek-ai-china/)
quello che mi lascia davvero perplesso è il tenore delle risposte; sono praticamente identiche a quelle di chatgpt (cosa invece non vera per "gli altri" motori).
a voler pensare male...
È facile che il modello finale sia stato addestrato anche con dati contenenti risposte da ChatGPT (GPT-4); è pratica diffusa ed è contro i termini di servizio OpenAI, ma non è illegale, men che meno in Cina.
Notturnia
28-01-2025, 15:30
se fosse vero vuol dire che si assisterà ad un calo del costo delle GPU visto che ne bastano di meno o ad un salto di qualità delle AI visto che con molta potenza possono fare molto di più... staremo a vedere..
ma se è veramente tutto open source come si dice qui allora tutti potranno vedere il codice usato e capire dove sono queste migliorie e far fare un salto di qualità (quantum leap) alle altre AI nel giro di pochi mesi..
oppure fra 6 mesi non sarà successo niente e questo deepseek si dimostrerà un imbroglio..
vedremo o è efficiente e la sua efficienza open source diventerà boost per gli altri o era fuffa e non cambierà niente
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.