DeepSeek R1 si aggiorna: l'IA cinese adesso ragiona meglio e sbaglia meno

DeepSeek R1 si aggiorna: l'IA cinese adesso ragiona meglio e sbaglia meno

La startup cinese DeepSeek ha rilasciato una versione aggiornata del suo modello di intelligenza artificiale R1, denominata R1-0528. L'aggiornamento porta miglioramenti significativi nelle capacità di ragionamento e riduce le allucinazioni, avvicinando le prestazioni a quelle dei modelli più avanzati di OpenAI e Google.

di pubblicata il , alle 10:31 nel canale Web
DeepSeek
 

DeepSeek ha pubblicato discretamente un aggiornamento del suo modello di ragionamento R1, chiamato DeepSeek-R1-0528. L'azienda cinese ha caricato la nuova versione sul repository Hugging Face, mantenendo la stessa discrezione che aveva caratterizzato il lancio originale del modello R1 a gennaio. Con il nuovo modello vengono migliorate drasticamente le capacità di elaborazione, con prestazioni che si avvicinano a quelle di modelli flagship come OpenAI o3 e Google Gemini 2.5 Pro.

DeepSeek R1-0528 aggiornamento

Le modifiche apportate al modello derivano dall'utilizzo di maggiori risorse computazionali e dall'implementazione di meccanismi di ottimizzazione algoritmica durante la fase di post-training. Secondo la documentazione ufficiale, DeepSeek-R1-0528 mantiene l'architettura Mixture-of-Experts (MoE) basata su DeepSeek-V3, con 671 miliardi di parametri totali di cui circa 37 miliardi attivi per ogni token di inferenza.

DeepSeek-R1-0528 ufficiale: benchmark e confronti con la concorrenza

I risultati sui benchmark mostrano progressi notevoli rispetto alla versione precedente: su AIME 2025, l'accuratezza è salita dal 70% all'87,5%, a testimonianza di una maggiore profondità di ragionamento. Il modello aggiornato impiega in media 23.000 token per domanda rispetto ai 12.000 della versione precedente, indicando un processo di elaborazione più approfondito e strutturato. Anche nelle prove di programmazione su LiveCodeBench, le prestazioni sono migliorate dal 63,5% al 73,3%, mentre nel difficile test "Humanity's Last Exam" i risultati sono più che raddoppiati, passando dall'8,5% al 17,7%.

Anche le capacità di ragionamento matematico hanno registrato progressi particolarmente evidenti: nel test HMMT 2025, l'accuratezza è aumentata dal 42% al 79,4%, quasi raddoppiando le prestazioni. Per quanto riguarda i test di conoscenza generale come GPQA Diamond, il modello ha raggiunto l'81% di accuratezza rispetto al precedente 71,5%. È importante notare, inoltre, che è stato significativamente ridotto il tasso di allucinazioni, con l'output che adesso è più affidabile, a detta degli sviluppatori.

Il nuovo modello supporta un contesto esteso fino a 128K token, testato in alcuni casi fino a 164K token, quindi numeri di gran lunga superiori rispetto ai limiti di contesto di poche migliaia di token dei modelli di generazioni precedenti. La capacità di elaborare documenti molto estesi o basi di codice complete in una singola sessione risulta cruciale per compiti di ragionamento multi-step e generazione di codice complessi. DeepSeek-R1-0528 è disponibile gratuitamente sul sito web di DeepSeek, anche se richiede un numero di telefono o un account Google per l'accesso.

L'azienda ha anche rilasciato una versione distillata più piccola, DeepSeek-R1-0528-Qwen3-8B, costruita utilizzando come base il modello Qwen3-8B di Alibaba. La versione distillata, pur essendo meno capace della controparte completa, richiede significativamente meno risorse computazionali: può funzionare su una singola GPU con 40-80GB di RAM, mentre il modello completo necessita di circa una dozzina di GPU da 80GB. Entrambe le versioni sono rilasciate sotto licenza MIT, permettendo l'uso commerciale senza restrizioni.

5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
UtenteHD30 Maggio 2025, 14:44 #1
Mi sa che ci supereranno (non noi ovviamente e' un discorso generico) anche in questo campo.
Sandro kensan30 Maggio 2025, 19:13 #2
Io uso Qwen di solito.
Ripper8930 Maggio 2025, 21:09 #3
Originariamente inviato da: UtenteHD
Mi sa che ci supereranno (non noi ovviamente e' un discorso generico) anche in questo campo.


Noi chi ? L'UE ?
Senza la tecnologia USA vivremmo ancora in un epoca analogica.
euscar31 Maggio 2025, 09:11 #4
Originariamente inviato da: Ripper89
Noi chi ? L'UE ?
Senza la tecnologia USA vivremmo ancora in un epoca analogica.


Forse ti dimentichi che il primo PC completamente a transistor è stato realizzato proprio qui in Italia, ma a causa dei i tuoi tanto elogiati USA la storia ha poi preso un'altra piega.
Marco7101 Giugno 2025, 08:52 #5

Buon

Eh si', ELEA serie 9000 ad esempio Olivetti. Quando venne svenduta l'Italia informatica anni 1960 proprio a "quelli oltreoceano".
L'Italia doveva essere dipendente quanto meno ma non solo, dal punto di vista informatico ed elettronico da quella parte di mondo.

Marco71

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^