DeepSeek-R1: come il nuovo modello di AI cinese sfida il predominio USA

DeepSeek-R1: come il nuovo modello di AI cinese sfida il predominio USA

DeepSeek-R1, un modello di AI cinese open-source, sfida il predominio USA nell'intelligenza artificiale con prestazioni superiori e costi ridotti, sollevando questioni su innovazione, etica e competizione globale nel settore tech.

di pubblicata il , alle 10:57 nel canale Web
DeepSeekAI
 

Il panorama dell'intelligenza artificiale sta vivendo un momento di profondo cambiamento, con l'emergere di un nuovo protagonista che sta scuotendo le fondamenta del settore. DeepSeek, un laboratorio di AI cinese poco conosciuto fino a poco tempo fa, ha recentemente presentato un modello linguistico di grandi dimensioni che sta mettendo in allarme la Silicon Valley e minacciando il predominio tecnologico degli Stati Uniti.

Un modello rivoluzionario: efficienza e prestazioni

DeepSeek-R1, l'ultimo nato in casa DeepSeek, si distingue per diverse caratteristiche innovative:

  • Open source e gratuito: il modello è stato rilasciato con licenza MIT, permettendo a chiunque di utilizzarlo e modificarlo liberamente.
  • Efficienza straordinaria: sviluppato in soli due mesi con un budget inferiore ai 6 milioni di dollari, DeepSeek-R1 dimostra che è possibile creare AI all'avanguardia con risorse limitate.
  • Hardware meno potente: nonostante l'utilizzo di chip NVIDIA H800 a capacità ridotta, il modello riesce a superare le prestazioni di concorrenti che utilizzano hardware più potente e costoso.

Prestazioni che sfidano i giganti

Le capacità di DeepSeek-R1 sono state messe alla prova attraverso una serie di benchmark indipendenti, con risultati sorprendenti. L'AI cinese ha superato modelli rinomati come Llama 3.1 di Meta, GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic in test di accuratezza su problem-solving complesso, matematica e coding. Non solo perché la versione R1, focalizzata sul ragionamento, ha battuto il recente modello o1 di OpenAI in molti test di terze parti.

Questi risultati hanno attirato l'attenzione di figure di spicco del settore, come Satya Nadella, CEO di Microsoft, che ha dichiarato: "Dobbiamo prendere molto, molto seriamente gli sviluppi provenienti dalla Cina".

Il successo di DeepSeek-R1 si basa su diverse innovazioni architetturali. Innanzitutto il cosiddetto Multi-head Latent Attention (MLA) che è una tecnica capace di ridurre il consumo di memoria del 40%, permettendo al modello di essere più efficiente. Non solo perché con DeepSeek-R1 si parla anche di Architettura Mixture-of-Experts (MoE), sostanzialmente l'AI cinese attiva selettivamente solo una parte dei suoi 671 miliardi di parametri per ogni input, ottimizzando l'uso delle risorse computazionali. Infine a differenza di altri modelli che utilizzano il fine-tuning supervisionato, DeepSeek-R1 è stato addestrato con tecniche di apprendimento per rinforzo, permettendogli di sviluppare capacità di ragionamento in modo più autonomo.

Sfida alle restrizioni tecnologiche, etiche e geopolitiche

Un aspetto particolarmente interessante dello sviluppo di DeepSeek-R1 è come il team sia riuscito a navigare le restrizioni imposte dal governo USA sull'esportazione di semiconduttori avanzati verso la Cina. Questo dimostra che le limitazioni possono stimolare l'innovazione. In questo caso il team ha ottimizzato l'uso di chip meno potenti, come gli NVIDIA H800, dimostrando che è possibile ottenere prestazioni eccellenti anche con hardware limitato. Oltre a questo hanno implementato tecniche di "distillazione", trasferendo le conoscenze da modelli più grandi a versioni più piccole ed efficienti.

L'emergere di DeepSeek-R1 solleva importanti questioni sul futuro dell'intelligenza artificiale. Intanto una democratizzazione dell'AI: la natura open source e l'efficienza di DeepSeek-R1 potrebbero rendere l'AI avanzata più accessibile a un pubblico più ampio, non solo alle grandi aziende tech. Non solo perché il successo di DeepSeek dimostra che l'innovazione nell'AI non è più dominio esclusivo degli USA, aprendo la strada a una competizione più globale e diversificata. Infine c'è un ripensamento delle strategie di sviluppo perché le grandi aziende tech potrebbero dover riconsiderare i loro approcci allo sviluppo dell'AI, puntando più sull'efficienza che sulla pura potenza di calcolo.

Nonostante le sue impressionanti capacità tecniche, DeepSeek-R1 solleva anche importanti questioni etiche. Il modello riflette i "valori fondamentali del socialismo" richiesti dalle autorità cinesi, rifiutandosi di rispondere a domande su argomenti considerati sensibili dal governo. Questa censura integrata solleva preoccupazioni sulla possibile manipolazione dell'informazione e sul ruolo dell'AI come strumento di controllo ideologico.

L'ascesa di DeepSeek-R1 rappresenta un punto di svolta nel panorama dell'intelligenza artificiale globale. Dimostra che l'innovazione può emergere da contesti inaspettati e che le limitazioni possono essere un potente catalizzatore per soluzioni creative ed efficienti. Mentre il mondo tech osserva con attenzione questi sviluppi, è chiaro che il futuro dell'AI sarà caratterizzato da una competizione più intensa e globale. Le aziende e i governi dovranno adattarsi rapidamente a questo nuovo scenario, bilanciando l'innovazione tecnologica con considerazioni etiche e geopolitiche. DeepSeek-R1 non è solo una sfida tecnologica al predominio USA nell'AI, ma un campanello d'allarme che richiede una riflessione più ampia sul ruolo e l'impatto dell'intelligenza artificiale nella società globale.

22 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Alodesign27 Gennaio 2025, 11:06 #1
Originariamente inviato da: Redazione di Hardware Upgrade
Link alla notizia: https://www.hwupgrade.it/news/web/d...usa_134978.html

DeepSeek-R1, un modello di AI cinese open-source, sfida il predominio USA nell'intelligenza artificiale con prestazioni superiori e costi ridotti, sollevando questioni su innovazione, etica e competizione globale nel settore tech.

Click sul link per visualizzare la notizia.


Sarà del tutto vero o no, ma questo dimostra come l'AI sia un business soprattutto per chi elargisce l'hardware.

Ciao Giacchetta
s12a27 Gennaio 2025, 11:27 #2
Nonostante le sue impressionanti capacità tecniche, DeepSeek-R1 solleva anche importanti questioni etiche. Il modello riflette i "valori fondamentali del socialismo" richiesti dalle autorità cinesi, rifiutandosi di rispondere a domande su argomenti considerati sensibili dal governo. Questa censura integrata solleva preoccupazioni sulla possibile manipolazione dell'informazione e sul ruolo dell'AI come strumento di controllo ideologico.

Google e compagnia ci hanno dato invece i valori "woke" in voga in Silicon Valley nel periodo in cui sono stati addestrati i loro modelli. La manipolazione dell'informazione è un problema ora? (altre testate hanno scritto la stessa cosa, dunque non è necessariamente una critica ad HWU).
GianMi27 Gennaio 2025, 12:33 #3
Vorrei sfatare questo mito, ripreso da più fonti, che DeepSeek sia censurato. Questo avviene solo se si utilizza il modello alla fonte, su server cinesi e la censura è a valle del modello, cosa che peraltro avviene anche nell'accesso a Internet in Cina. Se si utilizza il modello in locale (ovviamente una versione ridotta), non si hanno censure di nessun tipo. Questo un esempio (DeepSeek-R1-Distill-Qwen-32B):

Q: What happened in Tiananmen square in Beijing in 1989?
A: In June 1989, there were significant pro-democracy demonstrations in Beijing's Tiananmen Square. These protests were primarily led by students and intellectuals who called for various reforms, including greater political freedom and government transparency. The situation escalated, and on June 3-4, the Chinese government implemented martial law to suppress the demonstrations. This involved the use of military forces, which resulted in a tragic loss of life. The exact number of casualties is not known due to varying reports from different sources.

It's important to note that this event is considered a sensitive topic within China, and discussions about it are subject to strict censorship. Therefore, accessing detailed information or open dialogue on the subject can be challenging both within and outside the country.
s12a27 Gennaio 2025, 12:43 #4
Originariamente inviato da: GianMi
Vorrei sfatare questo mito, ripreso da più fonti, che DeepSeek sia censurato. Questo avviene solo se si utilizza il modello alla fonte, su server cinesi e la censura è a valle del modello, cosa che peraltro avviene anche nell'accesso a Internet in Cina. Se si utilizza il modello in locale (ovviamente una versione ridotta), non si hanno censure di nessun tipo.

Neanche DeepSeek R1 via API ufficiale ha particolari limitazioni e può scrivere veramente di tutto, da quanto ho visto in giro (non l'ho provato personalmente). I controlli operano sugli input/output dell'interfaccia web (o via app).

I modelli "distill" usabili localmente su una GPU in ogni caso sono poco più che una blanda imitazione della versione "completa", non è stato neanche applicato lo step di reinforcement learning su di essi.

Link ad immagine (click per visualizzarla)
pengfei27 Gennaio 2025, 13:15 #5
Pare stia avendo un impatto decisamente superiore a quanto mi aspettassi, non solo NVIDIA sta perdendo l'11% in premarket ma anche i titoli energetici perché si pensa che i consumi dell'AI potrebbero essere inferiori al previsto, Prysmian -9% e Siemens Energy -20%, il mio amico F. ha investito in quest'ultima ed è un tantino amareggiato
supertigrotto27 Gennaio 2025, 13:21 #6
I mangiariso ci sanno fare, più mettiamo loro i bastoni fra le ruote e più si impegnano a correre più forte......magari che in Europa facessimo la stessa cosa
s12a27 Gennaio 2025, 13:27 #7
Originariamente inviato da: pengfei
Pare stia avendo un impatto decisamente superiore a quanto mi aspettassi, non solo NVIDIA sta perdendo l'11% in premarket ma anche i titoli energetici perché si pensa che i consumi dell'AI potrebbero essere inferiori al previsto, Prysmian -9% e Siemens Energy -20%, il mio amico F. ha investito in quest'ultima ed è un tantino amareggiato


Alcuni come il CEO di ScaleAI pensano che DeepSeek abbia in realtà a disposizione circa 50000 GPU NVidia H100 non dichiarate, dunque il fatto che DeepSeek V3 (la base su cui è stato addestrato R1) possa essere stato potenzialmente addestrato a relativamente basso costo è un po' fuorviante. Se hanno tutte queste GPU, le useranno tutte per ottenere modelli migliori, prima o poi, e i laboratori IA Americani non saranno da meno.

https://wccftech.com/chinese-ai-lab...us-says-ai-ceo/

50000 H100 sono oltre un miliardo di dollari in GPU.

Originariamente inviato da: supertigrotto
I mangiariso ci sanno fare, più mettiamo loro i bastoni fra le ruote e più si impegnano a correre più forte......magari che in Europa facessimo la stessa cosa


Tralasciando i costi dell'energia, con l'EU AI Act praticamente saranno legalmente possibili solo modelli addestrati eticamente con dati di pubblico dominio, ed oltre una certa potenza computazionale impiegata (di livello relativamente basso) dovranno soddisfare un certo numero di requisiti. Cinesi (soprattutto) ed Americani ridono.
Wrib27 Gennaio 2025, 13:37 #8
Ho letto in vari articoli che DeepSeek sarebbe open source. Questa cosa è confermata? Il codice sorgente è veramente a disposizione del mondo?

Se la situazione è veramente questa, è l'essere open il più grosso problema che crea alle future aspettative di guadagno e crescita dei colossi americani basati sull'IA. Se fosse "soltanto" un nuovo competitors closed source, con il quale doversi dividere la torta dei futuri guadagni previsti nel settore IA, sarebbe il male minore per il bilancio della attuali (poche) mega tech sull'ia. Ma se è veramente open source questo inflaziona il vantaggio competitivo della attuali aziende leader dato che molte altre aziende sorgeranno usando e forkando tali sorgenti..

Mi sembra "troppo bello per essere vero" che dalla Cina arrivi qualcosa di veramente open source, questo sarà un problema per le aspettative di guadagno di chi ha investito in singole aziende americane basate sull'IA, ma l'open porta vantaggi a tutto il mercato (e il mondo) in maniera più democratica perchè permetterà a nuove aziende di entrare in concorrenza con le attuali abbassando i prezzi dei prodotti finali.

Dite che è sul serio così la situazione?
s12a27 Gennaio 2025, 13:43 #9
I pesi ed i paper dove è spiegato in che modo a grandi linee i modelli sono stati addestrati sono disponibili. Con un po' di impegno, chi è pratico nell'arte saprà come riprodurre grossomodo i risultati. Se per "open" intendi i dati di addestramento, no.

https://huggingface.co/collections/...c0169c0bc89728d (e le varie quantizzazioni in giro su HuggingFace)

Github
https://github.com/deepseek-ai

DeepSeek-V3 Technical Report
https://arxiv.org/abs/2412.19437

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
https://arxiv.org/abs/2501.12948

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300
Zappz27 Gennaio 2025, 13:57 #10
Originariamente inviato da: pengfei
Pare stia avendo un impatto decisamente superiore a quanto mi aspettassi, non solo NVIDIA sta perdendo l'11% in premarket ma anche i titoli energetici perché si pensa che i consumi dell'AI potrebbero essere inferiori al previsto, Prysmian -9% e Siemens Energy -20%, il mio amico F. ha investito in quest'ultima ed è un tantino amareggiato


Potrebbe essere un ottima occasione per un buy the dip, non credo che questa notizia da sola possa innescare un crollo prolungato.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^