Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente

Redazione di Hardware Upg · 29-01-2025, 17:18

Link alla notizia: https://www.hwupgrade.it/news/web/al...te_135091.html

Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley.

Click sul link per visualizzare la notizia.

gabrieleromano · 29-01-2025, 18:15

di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio

Opteranium · 29-01-2025, 18:40

ottimo, domani nvidia un altro -15

s12a · 29-01-2025, 18:43

Quote:

Originariamente inviato da Opteranium

ottimo, domani nvidia un altro -15

Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).

Vindicator · 29-01-2025, 19:02

ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena

pengfei · 29-01-2025, 19:02

Quote:

Originariamente inviato da s12a

Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).

Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni

Vindicator · 29-01-2025, 19:04

chiunque ha macchine potent incasa puo farli è tutto open source
https://huggingface.co/collections/Q...13e518adb90d9e
richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare

poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio

s12a · 29-01-2025, 19:06

Quote:

Originariamente inviato da pengfei

Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni

I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437

pengfei · 29-01-2025, 19:21

Quote:

Originariamente inviato da s12a

I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437

Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training

LMCH · 29-01-2025, 22:12

Quote:

Originariamente inviato da pengfei

Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training

Quelli non sono I costi operativi; è invece il costo di un singolo training run del modello.

La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100.

s12a · 29-01-2025, 22:26

L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari.

Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta.

Hiei3600 · 29-01-2025, 23:23

Quote:

Originariamente inviato da gabrieleromano

di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio

Nel frattempo l'Europa... Sta 10 volte peggio dell'America

gnappoman · 30-01-2025, 03:48

avete capito? Con l'uso di PTX al posto di CUDA si apre la possibilità per AMD di usare le proprie schede al posto di Nvidia... guardatevi le news su tom's hardware americano, ci sono già i driver aggiornati, e Nvidia si suca sto bel bazooka

29-01-2025, 22:26	#11
s12a Senior Member Iscritto dal: Jan 2008 Messaggi: 11186	L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari. Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta. __________________ ~

30-01-2025, 03:48	#13
gnappoman Senior Member Iscritto dal: Feb 2006 Città: ______ Milano ______ Lui sa quello che fa Messaggi: 1370	evvai di PTX avete capito? Con l'uso di PTX al posto di CUDA si apre la possibilità per AMD di usare le proprie schede al posto di Nvidia... guardatevi le news su tom's hardware americano, ci sono già i driver aggiornati, e Nvidia si suca sto bel bazooka

29-01-2025, 17:18	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75166	Link alla notizia: https://www.hwupgrade.it/news/web/al...te_135091.html Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley. Click sul link per visualizzare la notizia.

29-01-2025, 18:15	#2
gabrieleromano Member Iscritto dal: Apr 2023 Città: Pescara Messaggi: 80	di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina. L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio

29-01-2025, 18:40	#3
Opteranium Senior Member Iscritto dal: Feb 2004 Messaggi: 6184	ottimo, domani nvidia un altro -15

29-01-2025, 19:02	#5
Vindicator Senior Member Iscritto dal: Dec 2006 Messaggi: 805	ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena

29-01-2025, 19:04	#7
Vindicator Senior Member Iscritto dal: Dec 2006 Messaggi: 805	chiunque ha macchine potent incasa puo farli è tutto open source https://huggingface.co/collections/Q...13e518adb90d9e richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio

Strumenti
Mostra una versione stampabile Invia questa pagina per email