View Full Version : Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente
Redazione di Hardware Upg
29-01-2025, 17:18
Link alla notizia: https://www.hwupgrade.it/news/web/alibaba-sfida-deepseek-lanciato-il-nuovo-modello-ia-qwen-25-max-e-dice-di-essere-piu-potente_135091.html
Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley.
Click sul link per visualizzare la notizia.
gabrieleromano
29-01-2025, 18:15
di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio
Opteranium
29-01-2025, 18:40
ottimo, domani nvidia un altro -15 :sofico:
ottimo, domani nvidia un altro -15 :sofico:
Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).
Vindicator
29-01-2025, 19:02
ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena
Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).
Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni
Vindicator
29-01-2025, 19:04
chiunque ha macchine potent incasa puo farli è tutto open source
https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare
poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio
Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni
I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437
https://i.imgur.com/8maiZnz.png
I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437
https://i.imgur.com/8maiZnz.png
Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training
Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training
Quelli non sono I costi operativi; è invece il costo di un singolo training run del modello.
La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100.
L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari.
Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta (https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct).
Hiei3600
29-01-2025, 23:23
di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio
Nel frattempo l'Europa... Sta 10 volte peggio dell'America :muro:
gnappoman
30-01-2025, 03:48
avete capito? Con l'uso di PTX al posto di CUDA si apre la possibilità per AMD di usare le proprie schede al posto di Nvidia... guardatevi le news su tom's hardware americano, ci sono già i driver aggiornati, e Nvidia si suca sto bel bazooka
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.