|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#1 |
|
www.hwupgrade.it
Iscritto dal: Jul 2001
Messaggi: 75166
|
Link alla notizia: https://www.hwupgrade.it/news/web/al...te_135091.html
Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley. Click sul link per visualizzare la notizia. |
|
|
|
|
|
#2 |
|
Member
Iscritto dal: Apr 2023
Città: Pescara
Messaggi: 80
|
di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio |
|
|
|
|
|
#3 |
|
Senior Member
Iscritto dal: Feb 2004
Messaggi: 6184
|
ottimo, domani nvidia un altro -15
|
|
|
|
|
|
#4 |
|
Senior Member
Iscritto dal: Jan 2008
Messaggi: 11186
|
Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).
__________________
~
|
|
|
|
|
|
#5 |
|
Senior Member
Iscritto dal: Dec 2006
Messaggi: 805
|
ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena
|
|
|
|
|
|
#6 | |
|
Senior Member
Iscritto dal: Aug 2017
Messaggi: 1382
|
Quote:
|
|
|
|
|
|
|
#7 |
|
Senior Member
Iscritto dal: Dec 2006
Messaggi: 805
|
chiunque ha macchine potent incasa puo farli è tutto open source
https://huggingface.co/collections/Q...13e518adb90d9e richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio |
|
|
|
|
|
#8 | |
|
Senior Member
Iscritto dal: Jan 2008
Messaggi: 11186
|
Quote:
__________________
~
|
|
|
|
|
|
|
#9 | |
|
Senior Member
Iscritto dal: Aug 2017
Messaggi: 1382
|
Quote:
|
|
|
|
|
|
|
#10 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 6243
|
Quote:
La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100. |
|
|
|
|
|
|
#11 |
|
Senior Member
Iscritto dal: Jan 2008
Messaggi: 11186
|
L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari.
Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta.
__________________
~
|
|
|
|
|
|
#12 | |
|
Senior Member
Iscritto dal: May 2006
Città: Sicilia(Da Qualche Parte)
Messaggi: 2482
|
Quote:
__________________
|
|
|
|
|
|
|
#13 |
|
Senior Member
Iscritto dal: Feb 2006
Città: ______ Milano ______ Lui sa quello che fa
Messaggi: 1370
|
evvai di PTX
avete capito? Con l'uso di PTX al posto di CUDA si apre la possibilità per AMD di usare le proprie schede al posto di Nvidia... guardatevi le news su tom's hardware americano, ci sono già i driver aggiornati, e Nvidia si suca sto bel bazooka
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 03:23.




















