Alibaba sfida i giganti dell'AI con QwQ-32B, nuovo modello basato sul ragionamento
Alibaba Cloud presenta QwQ-32B, un modello AI focalizzato sul ragionamento che riesce a competere con sistemi molto più grandi grazie a un'ottimizzazione avanzata
di Rosario Grasso pubblicata il 07 Marzo 2025, alle 09:45 nel canale WebAlibaba
Alibaba Cloud ha annunciato QwQ-32B, un nuovo modello di intelligenza artificiale progettato per eccellere nel ragionamento e nella risoluzione di problemi complessi. Basato sulla piattaforma Qwen2.5-32B, il modello utilizza 32,5 miliardi di parametri e riesce a competere con DeepSeek R1, che ne impiega ben 671 miliardi. I numeri evidenziano l'importanza dell'ottimizzazione e dell'addestramento mirato rispetto alla sola scala dei parametri.
Le prestazioni di QwQ-32B sono state confermate da test interni che lo hanno visto ottenere il 65,2% nel GPQA (test di ragionamento scientifico avanzato), il 50% nell'AIME (matematica avanzata) e un notevole 90,6% nel benchmark MATH-500, dedicato a problemi matematici complessi. Il modello si distingue in particolare per le capacità nei calcoli e nella programmazione, ambiti in cui l'allenamento tramite Reinforcement Learning ha mostrato miglioramenti progressivi.
L'accoglienza della comunità AI è stata entusiasta, con esperti e sviluppatori che hanno elogiato la capacità di QwQ-32B nel raggiungere risultati competitivi nonostante le sue dimensioni contenute. Alcuni, come Julien Chaumond di Hugging Face, hanno definito il modello un punto di riferimento nel settore.
A rafforzare l'adozione di QwQ-32B, Ollama e Groq, due realtà emergenti nel settore dell'intelligenza artificiale, hanno annunciato il supporto per il modello e che consentiranno agli sviluppatori di integrarlo in applicazioni open-source, insieme alla possibilità di sfruttare le elevate velocità di inferenza offerte dall'infrastruttura Groq.
Nonostante i suoi punti di forza, QwQ-32B presenta alcune limitazioni. Può incontrare difficoltà nella gestione di lingue miste e, dovendo seguire le normative locali cinesi, potrebbe fornire risposte non esaustive relativamente a temi politicamente sensibili.
Alibaba ha reso QwQ-32B disponibile come software open-source sotto licenza Apache 2.0, una strategia che lo differenzia da molti modelli occidentali accessibili solo tramite abbonamenti a pagamento. Il rilascio segue quello di Qwen 2.5-Max, avvenuto a gennaio, e conferma il sempre più determinante ruolo della Cina nello sviluppo dell'intelligenza artificiale.
L'azienda considera questa evoluzione solo un primo passo. "Stiamo espandendo l'uso del Reinforcement Learning per migliorare le capacità di ragionamento, convinti che modelli più solidi e risorse computazionali scalabili ci porteranno più vicini all'Intelligenza Artificiale Generale (AGI)", ha dichiarato Alibaba nel suo annuncio ufficiale.










HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
La nave elettrica più grande mai progettata è finalmente realtà: iniziati i test in acqua
Spusu lancia il Wi-Fi Calling: come funziona il VoWiFi e quanto costa
Questo robot impara a muovere le labbra semplicemente guardandoti
iPhone 17 annienta la concorrenza in Cina: da solo vende il doppio di tutti i competitor locali
La nuova Xiaomi SU7 batte un record: 4.264 km percorsi in 24 ore (comprese le ricariche)
È possibile copiare i qubit: dei ricercatori scoprono come fare il backup dei dati quantistici
BYD alza ulteriormente l'asticella: batterie garantite per almeno 250.000 km
Il nuovo razzo spaziale riutilizzabile cinese Lunga Marcia 12B è quasi pronto al debutto
L'ex leader di Assassin's Creed porta Ubisoft in tribunale e chiede un risarcimento: non si sono lasciati bene
Il razzo spaziale NASA SLS e la capsula Orion per la missione Artemis II sono al pad di lancio per gli ultimi test
Samsung Galaxy S26 Ultra: quattro colorazioni in arrivo, la versione arancione non ci sarà
AWS investe 1,2 miliardi in Italia. Coinvolte 35 imprese per rafforzare l'ecosistema di data center lombardo
La navicella cinese Shenzhou-20 con il finestrino danneggiato da un detrito è rientrata correttamente
I piani Business ed Education di Google Workspace ottengono Flow: video generati da AI da testo e immagini








13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoNotevole
E' il primo modello open source di queste dimensioni, che io sappia, che risolve correttamente la query: "How many R letters are in the word Raspberry? Rewrite the word Raspberry enclosing each R in ()"Risolve anche il problema della stanza con 3 persone di cui una gioca a scacchi e l'altra sta facendo un solitario
Gli LLM attuali non sono tecnicamente in grado di "vedere" le lettere che compongono le parole; fargli questa domanda verifica solamente se la stessa era presente nei dati di addestramento.
Ti ricordo che è un modello che "ragiona". Prima di dare la risposta puoi vedere tutto il "ragionamento" che fa. Inoltre, hai letto bene la mia query? Ho chiesto anche di racchiudere ogni R tra parentesi e ha fatto anche quello.
Peraltro non è difficile provare con altre parole con la stessa struttura, parole che difficilmente sono nei dati di addestramento per questo specifico caso d'uso. Ho fatto la query in italiano con la parola "soprattutto" e la risposta è risultata corretta. Le Chat, per dire, non ha superato il test
Quando tu chiedi al modello,
Lui vedrà una serie di numeri, dove l'intera parola "Raspberry" (secondo tokenizer.json) è rappresentata dal valore "47565" (altre parole possono essere composte da più valori consecutivi).
QwQ-32B, per sapere quali lettere compongono la parola corrispondente al valore "47565", deve avere in un modo o nell'altro avuto modo di apprenderlo nei dati di addestramento; il cosiddetto ragionamento semplicemente aiuta il modello a tirare fuori questa informazione dai propri pesi.
Quindi secondo te con una parola totalmente inventata non dovrebbe funzionare.
Te lo lascio come esercizio
Ti consiglio di provare con una password di più di 10 caratteri generata dal tuo generatore di password preferito. Fagli usare pure numeri e caratteri speciali.
Dopo però non mi venire a dire che non ci vuole molto a elaborare qualsiasi combinazione di caratteri sennò inizio a preoccuparmi
Grazie per la spiegazione di come funziona
No, può avere comunque avuto nei dati di addestramento una serie di domande e risposte che descrivevano le lettere corrispondenti ai vari token nel suo tokenizer e risolvere il problema per composizione, anche per le parole inventate composte da più token.
Questo non toglie che al momento tecnicamente gli LLM non "vedono" le lettere e non sono in grado di risolvere facilmente problemi più complessi dove la posizione delle parole o l'esatta ortografia di un testo intero sono importanti, piuttosto che contare le lettere di una o anche qualche parola.
Alcuni gruppi stanno lavorando per cercare di rimuovere questa limitazione in maniera intrinseca.
IMHO
con copilot funziona. quindi quello non è llm?
IMHO
Se hai un'idea generale di come funziona un tokenizer in un moderno LLM (e QwQ-32B non è un'eccezione alla regola), non puoi dire che tale LLM possa direttamente vedere le lettere in una parola a meno di artifici vari.
Saprà ad esempio, perché gli è stato insegnato, che il token 72600 può essere composto in linguaggio umano dai token 82, 83, 81, 64, 86, 65, 68, 81, 81, 88.
Dovrebbe usare uno degli ultimi ChatGPT, che è sempre un LLM con normale tokenizer. Vale comunque lo stesso discorso: gli LLM usati commercialmente non vedono normalmente parole composte da lettere, e se conoscono la risposta è perché l'hanno già memorizzata.
Esistono LLM sperimentali che non fanno uso di normale tokenizer, od usano un token per byte/carattere (cosa che renderebbe banale per un LLM contare il numero di caratteri che compone una parola o scomporle in maniera arbitraria, a costo per il momento di inefficienza computazionale), dunque anche se il problema fosse risolto una volta per tutte non vorrebbe dire che non è un LLM.
Non ho fatto affermazioni del genere. Ho detto che questo modello risolve per la prima volta, a quanto ne so, un paio di problemi che modelli di analoghe dimensioni (o anche molto più grandi) fino ad ora non erano riusciti a risolvere.
E mi sembra notevole, date anche le dimensioni.
Copilot su questo tipo di problema sbaglia. Se vuoi provare la query è questa:
quante lettere R ci sono nella parola "%h6oGrrj%37RS45a"? Riscrivi la parola indicata racchiudendo ogni R tra parentesi tonde. Ignora la differenza fra maiuscole e minuscole
Questa query da QwQ-32B viene risolta.
Tu hai affermato che risolve questi problemi perché, cito testualmente, "fargli questa domanda verifica solamente se la stessa era presente nei dati di addestramento"
Ti ho dimostrato che non è esattamente così, non letteralmente. E comunque su questo aspetto modelli molto più grandi hanno problemi come nel caso di Copilot o anche Le Chat
E' chiaro che non siamo di fronte ad un nuovo paradigma, ma non è questo il punto. Se vuoi continuare a spiegarci come funziona, fai pure, è divertente
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".