Alibaba sfida DeepSeek: lanciato il nuovo modello IA 'Qwen 2.5-Max'. E dice di essere più potente
Il colosso dell'e-commerce cinese lancia il suo nuovo modello di intelligenza artificiale durante il Capodanno lunare, sfidando apertamente DeepSeek, la startup che ha fatto tremare la Silicon Valley.
di Lorenzo Tirotta pubblicata il 29 Gennaio 2025, alle 17:18 nel canale WebAlibabaDeepSeekAI
Una scelta inusuale nei tempi, che sottolinea l'urgenza di rispondere all'ascesa di DeepSeek, la startup che nelle ultime settimane ha scosso gli equilibri del settore tech globale.
La guerra dell'IA cinese: Alibaba risponde a DeepSeek con un nuovo modello
Secondo quanto dichiarato dall'unità cloud di Alibaba sul suo account WeChat ufficiale, Qwen 2.5-Max "supera quasi su tutta la linea GPT-4o, DeepSeek-V3 e Llama-3.1-405B", posizionandosi così in diretta competizione con i modelli più avanzati di OpenAI e Meta.
Come abbiamo visto in questi giorni, l'impatto di DeepSeek sul mercato è stato dirompente. La startup ha dimostrato di poter sviluppare un modello di IA competitivo con soli 5,6 milioni di dollari, una cifra che ha fatto tremare Wall Street e messo in discussione gli enormi investimenti pianificati dalle big tech americane,. Infatti, questo evento inaspettato ha causato il crollo delle azioni Nvidia e di altre aziende legate all'IA, mentre ha contemporaneamente acceso i riflettori sulle capacità tecnologiche cinesi.
Leggi anche: Chi è Liang Wenfeng: il 'nerd dall'acconciatura terribile' che ha creato DeepSeek (e messo in ginocchio l'industria IA)
A differenza di DeepSeek, Alibaba non ha rivelato i costi di sviluppo di Qwen 2.5-Max, né ha reso il modello "open source". L'azienda ha però confermato di aver implementato tecniche simili a quelle di DeepSeek, incluso l'uso del "mix di esperti", un approccio che permette di ottimizzare l'addestramento del modello riducendo la necessità di risorse computazionali.









Gigabyte MO32U24 OLED: il 4K a 240Hz su un pannello OLED ideale per il gaming
Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh
Come rispettare tutte le nuove regole per i monopattini elettrici? La guida per non rischiare sanzioni
Honor 600 a 549€ e Honor 600 Lite a 369€ su Amazon: ottimi smartpthone con 256 GB e ora con auricolari in regalo
Motorola edge 70 fusion FIFA World Cup 26 Edition e moto buds bass in offerta Prime Day: il prezzo scende a 349,90€
Prime Day Amazon: scope elettriche e lavapavimenti senza fili in forte sconto, da Dreame, Tineco e Mova
Prime Day Amazon: i robot aspirapolvere Dreame, Ecovacs e Mova più richiesti crollano di prezzo, con modelli fino a 32.000 Pa
FTX, la Corte d'Appello conferma la condanna di Sam Bankman-Fried: restano i 25 anni di carcere
OnePlus anticipa l'arrivo di nuove cuffie true wireless: Nord Buds 4 in vista
YouTube da record con 2,7 miliardi di utenti, ma Netflix resta la regina degli abbonamenti
Samsung Galaxy Watch Ultra 2, l'autonomia non sarà un problema: +35% per la capacità della batteria
Deezer ha rilasciato un tool gratuito per verificare se un brano è stato generato dall'IA
AMD Ryzen 9 7950X3D danneggiato: approvato l'RMA solo dopo l'intervento dei media
I Mac con chip Apple Silicon hanno meno problemi hardware dei modelli con chip Intel
Scandalo nel Regno Unito: agente sotto indagine, usava l'intelligenza artificiale per creare prove
TOP 15 offerte Amazon del weekend: 10 tutte nuove con mini PC, portatili, Apple, Samsung e super accessori (al 2, 9 e 15)
DJI Neo Fly More Combo a 245€: il mini drone 4K senza patentino più completo del momento, mentre la versione base scende a 129€









12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoL'ipotetico acquisto di TikTok da parte di MS è solo un vano rimedio
Credo che tale tonfo sia stato solo causato dall'erronea idea (probabilmente pompata ad arte da speculatori vari) che DeepSeek V3 (la base di R1) sia stato addestrato con 5 milioni di dollari di budget in totale, mentre nel paper pubblicato si riferivano solo ai costi operativi commerciali delle GPU usate (la corrente, in pratica).
Non penso, si è parlato da subito di 2048 H800 usate per il training che da sole valgono ben più di 5 milioni
https://huggingface.co/collections/...513e518adb90d9e
richiede 72gb di memoria 1B equivale a 1Gb di memoria video, per farlo girare
poi ultimamente ci sono le Imatrix, è un tipo di training, che sono piu ottimizzate e richiedono meno memoria e scrivono meglio
I 5.5 milioni venivano da qui: https://arxiv.org/abs/2412.19437
Link ad immagine (click per visualizzarla)
Link ad immagine (click per visualizzarla)
Nel senso, 5 milioni di costi operativi già mi sembrano un ottimo risultato rispetto ai modelli con simili potenzialità e mi pare sufficiente a far crollare le azioni di un 20%, poi si potrebbe anche fare il ragionamento che come ci sono riusciti loro anche altri potrebbero mettere a punto metodi per ottimizzare ulteriormente il training
Quelli non sono I costi operativi; è invece il costo di un singolo training run del modello.
La notizia succosa in quella pubblicazione è che se non puoi usare le H100, se prendi le H800 (che di fatto sono H100 "depotenziate" con metà della banda di comunicazione inter-chip), privilegi l'uso del formato FP8, usi PTX (l' "assembly portatile" delle GPU Nvidia) invece di CUDA e sempre usando PTX usi parte dei core per eseguire routing ottimizzato dei dati tra più chip ... alla fine ti avvicini parecchio alle prestazioni che avresti con le H100.
Non hanno considerato altri costi nel calcolo, o tutte le varie prove effettuate prima del run finale (il lavoro di ricerca e sviluppo antecedente), era solo per paragonarlo ad altri modelli assai meno capaci, tipo Meta Llama-3.1-8B, che ha richiesto 1,460,000 ore-GPU (di NVidia H100) secondo Meta.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".