DeepSeek-R1: come il nuovo modello di AI cinese sfida il predominio USA

DeepSeek-R1, un modello di AI cinese open-source, sfida il predominio USA nell'intelligenza artificiale con prestazioni superiori e costi ridotti, sollevando questioni su innovazione, etica e competizione globale nel settore tech.
di Bruno Mucciarelli pubblicata il 27 Gennaio 2025, alle 10:57 nel canale WebDeepSeekAI
Il panorama dell'intelligenza artificiale sta vivendo un momento di profondo cambiamento, con l'emergere di un nuovo protagonista che sta scuotendo le fondamenta del settore. DeepSeek, un laboratorio di AI cinese poco conosciuto fino a poco tempo fa, ha recentemente presentato un modello linguistico di grandi dimensioni che sta mettendo in allarme la Silicon Valley e minacciando il predominio tecnologico degli Stati Uniti.
Un modello rivoluzionario: efficienza e prestazioni
DeepSeek-R1, l'ultimo nato in casa DeepSeek, si distingue per diverse caratteristiche innovative:
- Open source e gratuito: il modello è stato rilasciato con licenza MIT, permettendo a chiunque di utilizzarlo e modificarlo liberamente.
- Efficienza straordinaria: sviluppato in soli due mesi con un budget inferiore ai 6 milioni di dollari, DeepSeek-R1 dimostra che è possibile creare AI all'avanguardia con risorse limitate.
- Hardware meno potente: nonostante l'utilizzo di chip NVIDIA H800 a capacità ridotta, il modello riesce a superare le prestazioni di concorrenti che utilizzano hardware più potente e costoso.
Prestazioni che sfidano i giganti
Le capacità di DeepSeek-R1 sono state messe alla prova attraverso una serie di benchmark indipendenti, con risultati sorprendenti. L'AI cinese ha superato modelli rinomati come Llama 3.1 di Meta, GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic in test di accuratezza su problem-solving complesso, matematica e coding. Non solo perché la versione R1, focalizzata sul ragionamento, ha battuto il recente modello o1 di OpenAI in molti test di terze parti.
Questi risultati hanno attirato l'attenzione di figure di spicco del settore, come Satya Nadella, CEO di Microsoft, che ha dichiarato: "Dobbiamo prendere molto, molto seriamente gli sviluppi provenienti dalla Cina".
Il successo di DeepSeek-R1 si basa su diverse innovazioni architetturali. Innanzitutto il cosiddetto Multi-head Latent Attention (MLA) che è una tecnica capace di ridurre il consumo di memoria del 40%, permettendo al modello di essere più efficiente. Non solo perché con DeepSeek-R1 si parla anche di Architettura Mixture-of-Experts (MoE), sostanzialmente l'AI cinese attiva selettivamente solo una parte dei suoi 671 miliardi di parametri per ogni input, ottimizzando l'uso delle risorse computazionali. Infine a differenza di altri modelli che utilizzano il fine-tuning supervisionato, DeepSeek-R1 è stato addestrato con tecniche di apprendimento per rinforzo, permettendogli di sviluppare capacità di ragionamento in modo più autonomo.
Sfida alle restrizioni tecnologiche, etiche e geopolitiche
Un aspetto particolarmente interessante dello sviluppo di DeepSeek-R1 è come il team sia riuscito a navigare le restrizioni imposte dal governo USA sull'esportazione di semiconduttori avanzati verso la Cina. Questo dimostra che le limitazioni possono stimolare l'innovazione. In questo caso il team ha ottimizzato l'uso di chip meno potenti, come gli NVIDIA H800, dimostrando che è possibile ottenere prestazioni eccellenti anche con hardware limitato. Oltre a questo hanno implementato tecniche di "distillazione", trasferendo le conoscenze da modelli più grandi a versioni più piccole ed efficienti.
L'emergere di DeepSeek-R1 solleva importanti questioni sul futuro dell'intelligenza artificiale. Intanto una democratizzazione dell'AI: la natura open source e l'efficienza di DeepSeek-R1 potrebbero rendere l'AI avanzata più accessibile a un pubblico più ampio, non solo alle grandi aziende tech. Non solo perché il successo di DeepSeek dimostra che l'innovazione nell'AI non è più dominio esclusivo degli USA, aprendo la strada a una competizione più globale e diversificata. Infine c'è un ripensamento delle strategie di sviluppo perché le grandi aziende tech potrebbero dover riconsiderare i loro approcci allo sviluppo dell'AI, puntando più sull'efficienza che sulla pura potenza di calcolo.
Nonostante le sue impressionanti capacità tecniche, DeepSeek-R1 solleva anche importanti questioni etiche. Il modello riflette i "valori fondamentali del socialismo" richiesti dalle autorità cinesi, rifiutandosi di rispondere a domande su argomenti considerati sensibili dal governo. Questa censura integrata solleva preoccupazioni sulla possibile manipolazione dell'informazione e sul ruolo dell'AI come strumento di controllo ideologico.
L'ascesa di DeepSeek-R1 rappresenta un punto di svolta nel panorama dell'intelligenza artificiale globale. Dimostra che l'innovazione può emergere da contesti inaspettati e che le limitazioni possono essere un potente catalizzatore per soluzioni creative ed efficienti. Mentre il mondo tech osserva con attenzione questi sviluppi, è chiaro che il futuro dell'AI sarà caratterizzato da una competizione più intensa e globale. Le aziende e i governi dovranno adattarsi rapidamente a questo nuovo scenario, bilanciando l'innovazione tecnologica con considerazioni etiche e geopolitiche. DeepSeek-R1 non è solo una sfida tecnologica al predominio USA nell'AI, ma un campanello d'allarme che richiede una riflessione più ampia sul ruolo e l'impatto dell'intelligenza artificiale nella società globale.
22 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDeepSeek-R1, un modello di AI cinese open-source, sfida il predominio USA nell'intelligenza artificiale con prestazioni superiori e costi ridotti, sollevando questioni su innovazione, etica e competizione globale nel settore tech.
Click sul link per visualizzare la notizia.
Sarà del tutto vero o no, ma questo dimostra come l'AI sia un business soprattutto per chi elargisce l'hardware.
Ciao Giacchetta
Google e compagnia ci hanno dato invece i valori "woke" in voga in Silicon Valley nel periodo in cui sono stati addestrati i loro modelli. La manipolazione dell'informazione è un problema ora? (altre testate hanno scritto la stessa cosa, dunque non è necessariamente una critica ad HWU).
Q: What happened in Tiananmen square in Beijing in 1989?
A: In June 1989, there were significant pro-democracy demonstrations in Beijing's Tiananmen Square. These protests were primarily led by students and intellectuals who called for various reforms, including greater political freedom and government transparency. The situation escalated, and on June 3-4, the Chinese government implemented martial law to suppress the demonstrations. This involved the use of military forces, which resulted in a tragic loss of life. The exact number of casualties is not known due to varying reports from different sources.
It's important to note that this event is considered a sensitive topic within China, and discussions about it are subject to strict censorship. Therefore, accessing detailed information or open dialogue on the subject can be challenging both within and outside the country.
Neanche DeepSeek R1 via API ufficiale ha particolari limitazioni e può scrivere veramente di tutto, da quanto ho visto in giro (non l'ho provato personalmente). I controlli operano sugli input/output dell'interfaccia web (o via app).
I modelli "distill" usabili localmente su una GPU in ogni caso sono poco più che una blanda imitazione della versione "completa", non è stato neanche applicato lo step di reinforcement learning su di essi.
Link ad immagine (click per visualizzarla)
Alcuni come il CEO di ScaleAI pensano che DeepSeek abbia in realtà a disposizione circa 50000 GPU NVidia H100 non dichiarate, dunque il fatto che DeepSeek V3 (la base su cui è stato addestrato R1) possa essere stato potenzialmente addestrato a relativamente basso costo è un po' fuorviante. Se hanno tutte queste GPU, le useranno tutte per ottenere modelli migliori, prima o poi, e i laboratori IA Americani non saranno da meno.
https://wccftech.com/chinese-ai-lab...us-says-ai-ceo/
50000 H100 sono oltre un miliardo di dollari in GPU.
Tralasciando i costi dell'energia, con l'EU AI Act praticamente saranno legalmente possibili solo modelli addestrati eticamente con dati di pubblico dominio, ed oltre una certa potenza computazionale impiegata (di livello relativamente basso) dovranno soddisfare un certo numero di requisiti. Cinesi (soprattutto) ed Americani ridono.
Se la situazione è veramente questa, è l'essere open il più grosso problema che crea alle future aspettative di guadagno e crescita dei colossi americani basati sull'IA. Se fosse "soltanto" un nuovo competitors closed source, con il quale doversi dividere la torta dei futuri guadagni previsti nel settore IA, sarebbe il male minore per il bilancio della attuali (poche) mega tech sull'ia. Ma se è veramente open source questo inflaziona il vantaggio competitivo della attuali aziende leader dato che molte altre aziende sorgeranno usando e forkando tali sorgenti..
Mi sembra "troppo bello per essere vero" che dalla Cina arrivi qualcosa di veramente open source, questo sarà un problema per le aspettative di guadagno di chi ha investito in singole aziende americane basate sull'IA, ma l'open porta vantaggi a tutto il mercato (e il mondo) in maniera più democratica perchè permetterà a nuove aziende di entrare in concorrenza con le attuali abbassando i prezzi dei prodotti finali.
Dite che è sul serio così la situazione?
https://huggingface.co/collections/...c0169c0bc89728d (e le varie quantizzazioni in giro su HuggingFace)
Github
https://github.com/deepseek-ai
DeepSeek-V3 Technical Report
https://arxiv.org/abs/2412.19437
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
https://arxiv.org/abs/2501.12948
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300
Potrebbe essere un ottima occasione per un buy the dip, non credo che questa notizia da sola possa innescare un crollo prolungato.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".