OpenAI accusa DeepSeek di violazione della proprietà intellettuale per l'uso improprio dei suoi modelli AI

OpenAI accusa DeepSeek di violazione della proprietà intellettuale per l'uso improprio dei suoi modelli AI

OpenAI afferma di avere le prove che DeepSeek abbia utilizzato tecniche di "distillation" per addestrare i propri modelli, violando i termini del servizio

di pubblicata il , alle 09:08 nel canale Scienza e tecnologia
DeepSeekOpenAI
 

OpenAI ha dichiarato di avere prove che la start-up cinese DeepSeek abbia utilizzato i suoi modelli proprietari per addestrare un concorrente open-source. La società ha rivelato le informazioni al Financial Times, indicando che la tecnica che la startup cinese avrebbe utilizzato è quella della "distillation", un metodo che consente a modelli più piccoli di apprendere da quelli più avanzati, ottenendo prestazioni simili a costi ridotti.

L'ipotesi era già stata ventilata da David Sacks, consigliere per l'intelligenza artificiale e le criptovalute sotto la presidenza Trump, in un'intervento a Fox News. Sacks, che tuttavia non ha addotto alcuna prova a sostegno della tesi, aveva spiegato che la tecnica della distillation permette ad un modello di "assorbire conoscenza" da un altro modello più avanzato.

Ora è la stessa OpenAI che indica di aver rilevato segnali che suggeriscono questa pratica da parte di DeepSeek. La società californiana e Microsoft hanno approfondito le attività di alcuni account che si ritiene appartenessero a DeepSeek l'anno scorso e che utilizzavano le API di OpenAI e a cui fu bloccato l'accesso perché sospettati di condurre attività di distillation in violazione dei termini di servizio, che esplicitano che gli utilizzatori non possono copiare i servizi di OpenAI o utilizzare gli output per sviluppare modelli in competizione con i suoi.

Nei giorni scorsi DeepSeek ha attirato le luci dei riflettori con il lancio del nuovo modello di ragionamento R1 che è stato addestrato utilizzando schede NVIDIA H800, le versioni depotenziate e destinate solo al mercato cinese. DeepSeek è riuscita ad allenare il suo modello a costi significativamente inferiori rispetto a quelli sostenuti dai concorrenti statunitensi per addestrare i loro modelli, con prestazioni comparabili.

L'uso degli output generati da modelli commerciali come ChatGPT per addestrare altri sistemi è una pratica comune tra start-up e accademici sia negli Stati Uniti che in Cina poiché consente di risparmiare sui costosi processi di feedback umano necessari per migliorare la qualità delle risposte dei modelli. OpenAI ha dichiarato di essere consapevole dei tentativi costanti da parte di aziende cinesi e altri concorrenti globali di utilizzare la tecnica della distillation con i propri modelli avanzati e di aver già messo in atto una serie di contromisure a protezione della proprietà intellettuale.

16 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
marcram29 Gennaio 2025, 09:58 #1
Vien da ridere perché, da una parte abbiamo i cinesi che sì, potrebbero anche aver fatto una cosa del genere, dall'altra abbiamo gli attuali statunitensi, che ormai vanno avanti ad accuse infondate e falsi proclami.
Quindi... boh?
Piedone111329 Gennaio 2025, 10:03 #2
Originariamente inviato da: marcram
Vien da ridere perché, da una parte abbiamo i cinesi che sì, potrebbero anche aver fatto una cosa del genere, dall'altra abbiamo gli attuali statunitensi, che ormai vanno avanti ad accuse infondate e falsi proclami.
Quindi... boh?


Strano però che OpenAI abbia omesso bellamente che gli imput per addestrare la sua IA erano coperti da diritti d'autore sistematicamente contravvenuto.
lollo929 Gennaio 2025, 10:07 #3
Vorrei sapere chi non fa distillation prima e pruning poi contro i modelli degli altri.
Anche se DeepSeek ora ha modello ed una serie discriminanti e autoencoder di tutto rispetto, magari anche tarati a valle di ChatGPT, allora scomodare la proprietà intellettuale regge tanto quanto dire che l’output di ChatGPT a “fammi un pippone intellettualoide sul web partecipativo con lo stile di Gianluca Nicoletti” violi la proprietà intellettuale di Radio24, La Stampa e del giornalista medesimo.

Terreno viscido per OperAI, ma magari in realtà stanno solo tirando zio Donnie per la giacchetta
winebar29 Gennaio 2025, 11:48 #4
Originariamente inviato da: marcram
Vien da ridere perché, da una parte abbiamo i cinesi che sì, potrebbero anche aver fatto una cosa del genere, dall'altra abbiamo gli attuali statunitensi, che ormai vanno avanti ad accuse infondate e falsi proclami.
Quindi... boh?


Diciamo che conoscendo il comportamento dei cinesi la cosa è molto probabile, dato che avevano dei militari addestrati solo a rubare (telematicamente) proprietà intellettuali estere per svilupparle in loco senza dover spendere 1 cent in ricerca e sviluppo reali...
Questo ad esempio è quello che è successo a Segway con Ninebot, per cui fu aperta una causa. La differenza di prezzo sui prodotti era talmente alta che Ninebot ha superato in un attimo (o quasi) le vendite di Segway, che poi andava malissimo e Ninebot si è comprata, e quindi la causa fu ritirata.
s12a29 Gennaio 2025, 12:00 #5
L'accusa è ridicola. Usare gli output legalmente e regolarmente ottenuti tramite API per addestrare modelli in competizione con OpenAI potrà essere contro i termini di servizio, ma essi non fanno legge. E si potrebbe controbattere che OpenAI è dov'è perché ha addestrato i suoi modelli su dati coperti da copyright (praticamente quasi tutto il web è coperto da copyright, in un modo o nell'altro), dunque è il bue che da' del cornuto all'asino.
randorama29 Gennaio 2025, 12:15 #6
Originariamente inviato da: s12a
L'accusa è ridicola. Usare gli output legalmente e regolarmente ottenuti tramite API per addestrare modelli in competizione con OpenAI potrà essere contro i termini di servizio, ma essi non fanno legge. E si potrebbe controbattere che OpenAI è dov'è perché ha addestrato i suoi modelli su dati coperti da copyright (praticamente quasi tutto il web è coperto da copyright, in un modo o nell'altro), dunque è il bue che da' del cornuto all'asino.


mah, non saprei (nel senso che proprio non lo so).
riprendendo il concetto dell'ultimo miglio mi sa che è come se openai avesse corso tutta la maratona portando i cinesi in spalla e, all'approssimarsi del traguardo, questi belli belli, freschi freschi, fossero smontati per correre in scioltezza e girandosi a fare una pernacchia.
s12a29 Gennaio 2025, 12:39 #7
Non è proprio quello che hanno fatto, però. Secondo il paper rilasciato da DeepSeek, le cui procedure sono state già in parte replicate da altri gruppi, DeepSeek R1, che riprende quello che grosso modo fa OpenAI o1 ("ragionare", è stato addestrato principalmente sulle catene di pensiero che il modello stesso ha trovato per conto suo in una versione preliminare (DeepSeek R1-Zero), assieme ad altri dati "non-reasoning" (che verosimilmente includeranno in maniera non esclusiva output di OpenAI).

Con OpenAI o1 non è neanche possibile osservare i pensieri completi del modello; sono nascosti per motivi di "sicurezza", dunque alla caratteristica operativa di spicco i ricercatori di DeepSeek ci sono arrivati per conto loro.

Da https://arxiv.org/abs/2501.12948

Link ad immagine (click per visualizzarla)

...

Link ad immagine (click per visualizzarla)
Link ad immagine (click per visualizzarla)
marcram29 Gennaio 2025, 12:53 #8
Originariamente inviato da: winebar
Diciamo che conoscendo il comportamento dei cinesi la cosa è molto probabile, dato che avevano dei militari addestrati solo a rubare (telematicamente) proprietà intellettuali estere per svilupparle in loco senza dover spendere 1 cent in ricerca e sviluppo reali...
Questo ad esempio è quello che è successo a Segway con Ninebot, per cui fu aperta una causa. La differenza di prezzo sui prodotti era talmente alta che Ninebot ha superato in un attimo (o quasi) le vendite di Segway, che poi andava malissimo e Ninebot si è comprata, e quindi la causa fu ritirata.

Sì, ma allo stesso modo, conoscendo gli americani, è anche probabile che si attacchino ad una accusa fasulla pur di difendere le proprie aziende.
Da qui il dubbio...
Originariamente inviato da: randorama
mah, non saprei (nel senso che proprio non lo so).
riprendendo il concetto dell'ultimo miglio mi sa che è come se openai avesse corso tutta la maratona portando i cinesi in spalla e, all'approssimarsi del traguardo, questi belli belli, freschi freschi, fossero smontati per correre in scioltezza e girandosi a fare una pernacchia.

Perché ritieni che OpenAI abbia corso tutta la maratona. Ma su che basi?
Come ha scritto @s12a qui sopra, anche OpenAI si è fatta portare sulle spalle da altri...
Ma è più semplice dire che i cinesi hanno copiato e violato le regole...
h.rorschach29 Gennaio 2025, 12:58 #9
How the turntables...
randorama29 Gennaio 2025, 13:34 #10
Originariamente inviato da: marcram
Perché ritieni che OpenAI abbia corso tutta la maratona. Ma su che basi?
Come ha scritto @s12a qui sopra, anche OpenAI si è fatta portare sulle spalle da altri...
Ma è più semplice dire che i cinesi hanno copiato e violato le regole...



ritengo che OpenAi abbia corso tutta la maratona per un motivo molto semplice; prima non c'era un accidenti di simile.

questo detto ho scritto chiaramente che "non lo so".
mi viene il dubbio (che, mi ripeto, non è certezza) perchè, in ordine sparso:

- hanno colmato il gap in tempi brevissimi
- la cifra investita (quella dichiarata, almeno) è ridicolmente bassa
- le risposte che deepseek sono la copia carbone di quella di chatgpt (quelle di copilot, gemini e llama sono percettibilmente differenti, soprattutto a livello di forma più che di contenuto.

se a questo ci aggiungiamo che - da sempre - gli amici cinesi hanno un approccio molto sportivo verso le proprietà intellettuali altrui.

poi credo sarà anche facile verificare come stanno davvero le cose. quando "sei il primo" non hai più nessuno da cui farti trainare.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^