OpenAI accusa DeepSeek di violazione della proprietà intellettuale per l'uso improprio dei suoi modelli AI [Archivio]

Redazione di Hardware Upg

29-01-2025, 08:08

Link alla notizia: https://www.hwupgrade.it/news/scienza-tecnologia/openai-accusa-deepseek-di-violazione-della-proprieta-intellettuale-per-l-uso-improprio-dei-suoi-modelli-ai_135063.html

OpenAI afferma di avere le prove che DeepSeek abbia utilizzato tecniche di "distillation" per addestrare i propri modelli, violando i termini del servizio

Click sul link per visualizzare la notizia.

marcram

29-01-2025, 08:58

Piedone1113

29-01-2025, 09:03

Vien da ridere perché, da una parte abbiamo i cinesi che sì, potrebbero anche aver fatto una cosa del genere, dall'altra abbiamo gli attuali statunitensi, che ormai vanno avanti ad accuse infondate e falsi proclami.
Quindi... boh?
:asd:

Strano però che OpenAI abbia omesso bellamente che gli imput per addestrare la sua IA erano coperti da diritti d'autore sistematicamente contravvenuto.

lollo9

29-01-2025, 09:07

Vorrei sapere chi non fa distillation prima e pruning poi contro i modelli degli altri.
Anche se DeepSeek ora ha modello ed una serie discriminanti e autoencoder di tutto rispetto, magari anche tarati a valle di ChatGPT, allora scomodare la proprietà intellettuale regge tanto quanto dire che l’output di ChatGPT a “fammi un pippone intellettualoide sul web partecipativo con lo stile di Gianluca Nicoletti” violi la proprietà intellettuale di Radio24, La Stampa e del giornalista medesimo.

Terreno viscido per OperAI, ma magari in realtà stanno solo tirando zio Donnie per la giacchetta

winebar

29-01-2025, 10:48

Vien da ridere perché, da una parte abbiamo i cinesi che sì, potrebbero anche aver fatto una cosa del genere, dall'altra abbiamo gli attuali statunitensi, che ormai vanno avanti ad accuse infondate e falsi proclami.
Quindi... boh?
:asd:

Diciamo che conoscendo il comportamento dei cinesi la cosa è molto probabile, dato che avevano dei militari addestrati solo a rubare (telematicamente) proprietà intellettuali estere per svilupparle in loco senza dover spendere 1 cent in ricerca e sviluppo reali...
Questo ad esempio è quello che è successo a Segway con Ninebot, per cui fu aperta una causa. La differenza di prezzo sui prodotti era talmente alta che Ninebot ha superato in un attimo (o quasi) le vendite di Segway, che poi andava malissimo e Ninebot si è comprata, e quindi la causa fu ritirata.

s12a

29-01-2025, 11:00

randorama

29-01-2025, 11:15

L'accusa è ridicola. Usare gli output legalmente e regolarmente ottenuti tramite API per addestrare modelli in competizione con OpenAI potrà essere contro i termini di servizio, ma essi non fanno legge. E si potrebbe controbattere che OpenAI è dov'è perché ha addestrato i suoi modelli su dati coperti da copyright (praticamente quasi tutto il web è coperto da copyright, in un modo o nell'altro), dunque è il bue che da' del cornuto all'asino.

mah, non saprei (nel senso che proprio non lo so).
riprendendo il concetto dell'ultimo miglio mi sa che è come se openai avesse corso tutta la maratona portando i cinesi in spalla e, all'approssimarsi del traguardo, questi belli belli, freschi freschi, fossero smontati per correre in scioltezza e girandosi a fare una pernacchia.

s12a

29-01-2025, 11:39

Non è proprio quello che hanno fatto, però. Secondo il paper rilasciato (https://arxiv.org/abs/2501.12948) da DeepSeek, le cui procedure sono state già in parte replicate da altri gruppi, DeepSeek R1, che riprende quello che grosso modo fa OpenAI o1 ("ragionare"), è stato addestrato principalmente sulle catene di pensiero che il modello stesso ha trovato per conto suo in una versione preliminare (DeepSeek R1-Zero), assieme ad altri dati "non-reasoning" (che verosimilmente includeranno in maniera non esclusiva output di OpenAI).

Con OpenAI o1 non è neanche possibile osservare i pensieri completi del modello; sono nascosti per motivi di "sicurezza", dunque alla caratteristica operativa di spicco i ricercatori di DeepSeek ci sono arrivati per conto loro.

Da https://arxiv.org/abs/2501.12948

https://i.imgur.com/DuQV3gU.png

...

https://i.imgur.com/KWDJj1u.png
https://i.imgur.com/VfKD5U7.png

marcram

29-01-2025, 11:53

Diciamo che conoscendo il comportamento dei cinesi la cosa è molto probabile, dato che avevano dei militari addestrati solo a rubare (telematicamente) proprietà intellettuali estere per svilupparle in loco senza dover spendere 1 cent in ricerca e sviluppo reali...
Questo ad esempio è quello che è successo a Segway con Ninebot, per cui fu aperta una causa. La differenza di prezzo sui prodotti era talmente alta che Ninebot ha superato in un attimo (o quasi) le vendite di Segway, che poi andava malissimo e Ninebot si è comprata, e quindi la causa fu ritirata.
Sì, ma allo stesso modo, conoscendo gli americani, è anche probabile che si attacchino ad una accusa fasulla pur di difendere le proprie aziende.
Da qui il dubbio...
mah, non saprei (nel senso che proprio non lo so).
riprendendo il concetto dell'ultimo miglio mi sa che è come se openai avesse corso tutta la maratona portando i cinesi in spalla e, all'approssimarsi del traguardo, questi belli belli, freschi freschi, fossero smontati per correre in scioltezza e girandosi a fare una pernacchia.
Perché ritieni che OpenAI abbia corso tutta la maratona. Ma su che basi?
Come ha scritto @s12a qui sopra, anche OpenAI si è fatta portare sulle spalle da altri...
Ma è più semplice dire che i cinesi hanno copiato e violato le regole...

h.rorschach

29-01-2025, 11:58

How the turntables...

randorama

29-01-2025, 12:34

Perché ritieni che OpenAI abbia corso tutta la maratona. Ma su che basi?
Come ha scritto @s12a qui sopra, anche OpenAI si è fatta portare sulle spalle da altri...
Ma è più semplice dire che i cinesi hanno copiato e violato le regole...

ritengo che OpenAi abbia corso tutta la maratona per un motivo molto semplice; prima non c'era un accidenti di simile.

questo detto ho scritto chiaramente che "non lo so".
mi viene il dubbio (che, mi ripeto, non è certezza) perchè, in ordine sparso:

- hanno colmato il gap in tempi brevissimi
- la cifra investita (quella dichiarata, almeno) è ridicolmente bassa
- le risposte che deepseek sono la copia carbone di quella di chatgpt (quelle di copilot, gemini e llama sono percettibilmente differenti, soprattutto a livello di forma più che di contenuto.

se a questo ci aggiungiamo che - da sempre - gli amici cinesi hanno un approccio molto sportivo verso le proprietà intellettuali altrui.

poi credo sarà anche facile verificare come stanno davvero le cose. quando "sei il primo" non hai più nessuno da cui farti trainare.

s12a

29-01-2025, 12:46

I 5.5 milioni di dollari riguardavano solo i costi strettamente d'uso delle GPU necessarie ad addestrare il modello, non quelli di acquisto delle stesse o delle varie prove necessarie od i costi di ricerca e sviluppo. Le perdite finanziarie di ieri sono state inflitte dagli idioti che hanno pompato la notizia a dismisura senza verificare o capire a cosa tale cifra si riferiva esattamente.

Poi si può ipotizzare che la cosa sia stata voluta dagli speculatori o dai propagandisti pro-CCP, ma il paper di DeepSeek era chiaro in merito.

https://arxiv.org/abs/2412.19437 (DeepSeek V3, la base su cui è stato addestrato R1)

[...] Lastly, we emphasize again the economical training costs of DeepSeek-V3, summarized in Table 1, achieved through our optimized co-design of algorithms, frameworks, and hardware. During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M. Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.

kirylo

29-01-2025, 12:55

Molti sostengono che non bisogna fidarsi dei cinesi, ok, ma bisogna essere proprio co**i per fidarsi degli americani, sprattutto su technologie strategiche.

Gli USA, da sempre, sono disposti a fare qualsiasi cosa.. QUALSIASI ... pur di mantenere un vantaggio strategico e technologico sul resto del comndo.

popye

29-01-2025, 15:17

credo che i cinesi non siano molto preoccupati e neanche lo sarebbero se openAi gli facesse causa

xarz3

29-01-2025, 15:23

Tutta invidia

Saturn

29-01-2025, 15:26

Tutta invidia

https://i.gifer.com/origin/d8/d8c3627758f2c3672af5918d6c169ba6_w200.gif

Artigiani della qualità ! :D

Lahila

03-02-2025, 09:30

Non capisco. L'addestramento made in USA richiede un hardware da urlo per fare l'addestramento, immagino dunque una quantità di dati pazzesca movimentata da quei server. Che flusso dati sarebbe stato necessario per una operazione di distillation? Microsoft e OpenAI non si starebbero accorte di niente? Che costi ha avuto per OpenAI una operazione di distillation sotto i loro occhi? Ed i loro sistemi erano dunque aperti a qualsiasi concorrente anche straniero? Operano senza sapere quali altre AI stanno comunicando con i loro modelli?