Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente [Archivio]

Redazione di Hardware Upg

29-01-2025, 17:18

Link alla notizia: https://www.hwupgrade.it/news/web/alibaba-sfida-deepseek-lanciato-il-nuovo-modello-ia-qwen-25-max-e-dice-di-essere-piu-potente_135091.html

Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley.

Click sul link per visualizzare la notizia.

gabrieleromano

29-01-2025, 18:15

di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio

Opteranium

29-01-2025, 18:40

ottimo, domani nvidia un altro -15 :sofico:

s12a

29-01-2025, 18:43

ottimo, domani nvidia un altro -15 :sofico:

Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).

Vindicator

29-01-2025, 19:02

ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena

pengfei

29-01-2025, 19:02

Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).

Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni

Vindicator

29-01-2025, 19:04

chiunque ha macchine potent incasa puo farli è tutto open source
https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare

poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio

s12a

29-01-2025, 19:06

Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni

I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437

https://i.imgur.com/8maiZnz.png

pengfei

29-01-2025, 19:21

I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437

https://i.imgur.com/8maiZnz.png

Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training

LMCH

29-01-2025, 22:12

Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training

Quelli non sono I costi operativi; è invece il costo di un singolo training run del modello.

La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100.

s12a

29-01-2025, 22:26

L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari.

Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta (https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct).

Hiei3600

29-01-2025, 23:23

di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio

Nel frattempo l'Europa... Sta 10 volte peggio dell'America :muro:

gnappoman

30-01-2025, 03:48

avete capito? Con l'uso di PTX al posto di CUDA si apre la possibilità per AMD di usare le proprie schede al posto di Nvidia... guardatevi le news su tom's hardware americano, ci sono già i driver aggiornati, e Nvidia si suca sto bel bazooka