Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente

Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente

Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley.

di pubblicata il , alle 17:18 nel canale Web
AlibabaDeepSeekAI
 
La corsa all'intelligenza artificiale si è scaldata anche in Cina con il lancio di DeepSeek, ma gli altri non sono rimasti a guardare. Alibaba, il gigante dell'e-commerce cinese, ha scelto il primo giorno del Capodanno lunare per lanciare Qwen 2.5-Max, l'ultima versione del suo modello di IA.

Una scelta inusuale nei tempi, che sottolinea l'urgenza di rispondere all'ascesa di DeepSeek, la startup che nelle ultime settimane ha scosso gli equilibri del settore tech globale.

La guerra dell'IA cinese: Alibaba risponde a DeepSeek con un nuovo modello

Secondo quanto dichiarato dall'unità cloud di Alibaba sul suo account WeChat ufficiale, Qwen 2.5-Max "supera quasi su tutta la linea GPT-4o, DeepSeek-V3 e Llama-3.1-405B", posizionandosi così in diretta competizione con i modelli più avanzati di OpenAI e Meta.

Come abbiamo visto in questi giorni, l'impatto di DeepSeek sul mercato è stato dirompente. La startup ha dimostrato di poter sviluppare un modello di IA competitivo con soli 5,6 milioni di dollari, una cifra che ha fatto tremare Wall Street e messo in discussione gli enormi investimenti pianificati dalle big tech americane,. Infatti, questo evento inaspettato ha causato il crollo delle azioni Nvidia e di altre aziende legate all'IA, mentre ha contemporaneamente acceso i riflettori sulle capacità tecnologiche cinesi.

Leggi anche: Chi è Liang Wenfeng: il 'nerd dall'acconciatura terribile' che ha creato DeepSeek (e messo in ginocchio l'industria IA)

A differenza di DeepSeek, Alibaba non ha rivelato i costi di sviluppo di Qwen 2.5-Max, né ha reso il modello "open source". L'azienda ha però confermato di aver implementato tecniche simili a quelle di DeepSeek, incluso l'uso del "mix di esperti", un approccio che permette di ottimizzare l'addestramento del modello riducendo la necessità di risorse computazionali.

12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
gabrieleromano29 Gennaio 2025, 18:15 #1
di questo passo gli USA saranno schiacciati anche tecnologicamente dalla Cina.
L'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio
Opteranium29 Gennaio 2025, 18:40 #2
ottimo, domani nvidia un altro -15
s12a29 Gennaio 2025, 18:43 #3
Originariamente inviato da: Opteranium
ottimo, domani nvidia un altro -15


Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).
Vindicator29 Gennaio 2025, 19:02 #4
ormai è una cosa aperta tutti contro tutti, ma che sforzo la qwen è 72B appena
pengfei29 Gennaio 2025, 19:02 #5
Originariamente inviato da: s12a
Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).


Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni
Vindicator29 Gennaio 2025, 19:04 #6
chiunque ha macchine potent incasa puo farli è tutto open source
https://huggingface.co/collections/...513e518adb90d9e
richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare

poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio
s12a29 Gennaio 2025, 19:06 #7
Originariamente inviato da: pengfei
Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni


I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437

Link ad immagine (click per visualizzarla)
pengfei29 Gennaio 2025, 19:21 #8
Originariamente inviato da: s12a


Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training
LMCH29 Gennaio 2025, 22:12 #9
Originariamente inviato da: pengfei
Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training


Quelli non sono I costi operativi; è invece il costo di un singolo training run del modello.

La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100.
s12a29 Gennaio 2025, 22:26 #10
L'hanno scritto sopra. In totale hanno impiegato 2,664,000+119,000=2,783,000 ore-GPU. Se per l'addestramento avessero affittato le GPU ad un costo commerciale di 2$/ora, avrebbero speso in totale 5.5 milioni di dollari.

Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^