500 terabyte di libri pirata per addestrare l'AI: il caso legale che coinvolge NVIDIA

500 terabyte di libri pirata per addestrare l'AI: il caso legale che coinvolge NVIDIA

Una class action aggiornata accusa NVIDIA di aver utilizzato consapevolmente milioni di libri piratati per addestrare i propri modelli di intelligenza artificiale. Documenti interni citati dagli autori parlano di contatti diretti con Anna's Archive e dell'uso di diversi dataset non autorizzati.

di pubblicata il , alle 14:01 nel canale Web
NVIDIA
 

NVIDIA, protagonista indiscussa del boom dell'intelligenza artificiale grazie alla domanda record di GPU per datacenter e soluzioni di calcolo accelerato, si trova ora al centro di una controversia legale che potrebbe avere implicazioni rilevanti per l'intero settore. Un gruppo di autori ha infatti ampliato una class action già in corso, sostenendo che l'azienda avrebbe utilizzato consapevolmente milioni di libri piratati per l'addestramento dei propri modelli di intelligenza artificiale. Ne parla con dovizia di dettaglio il sito TorrentFreak.

La causa, avviata all'inizio del 2024, accusava inizialmente NVIDIA di aver addestrato diversi modelli - tra cui NeMo, Megatron, Retro-48B e InstructRetro - sfruttando il dataset Books3, noto per includere opere protette da copyright provenienti da fonti non autorizzate come Bibliotik. NVIDIA aveva respinto le accuse invocando il fair use, sostenendo che i testi vengono trattati come insiemi di correlazioni statistiche e non come opere riproducibili.

Gli autori, tuttavia, sostengono di aver ottenuto documentazione interna che amplierebbe in modo significativo il quadro delle presunte violazioni. L'atto con cui è stata modificata la denuncia cita email e comunicazioni interne secondo cui membri del team di data strategy di NVIDIA avrebbero contattato direttamente Anna's Archive, una delle più grandi "shadow library" attualmente online, per valutare l'accesso a grandi quantità di libri piratati destinati al pre-allenamento di modelli LLM.

Secondo la denuncia, Anna's Archive avrebbe chiarito fin da subito la natura illegale delle proprie collezioni, chiedendo espressamente se NVIDIA disponesse di autorizzazioni interne per procedere. La risposta, sempre stando alle accuse, sarebbe arrivata in tempi rapidi: nel giro di una settimana il management avrebbe dato il via libera, consentendo l'accesso a un archivio stimato in circa 500 terabyte di dati, comprendente milioni di libri.

Non è chiaro se NVIDIA abbia corrisposto un pagamento per l'accesso "ad alta velocità" ai dati, servizio che Anna's Archive offrirebbe a fronte di compensi elevati. La denuncia menziona inoltre l'uso di altre fonti non autorizzate, tra cui LibGen, Sci-Hub e Z-Library, ampliando ulteriormente l'elenco delle presunte violazioni.

Le accuse non si limitano all'uso diretto dei contenuti. Gli autori sostengono che NVIDIA avrebbe anche distribuito strumenti e script ai propri clienti enterprise, facilitando il download automatico di dataset come "The Pile", che includono materiale protetto da copyright. Questo avrebbe generato nuove contestazioni per violazione diretta, contributiva e indiretta, con l'azienda accusata di aver tratto beneficio economico dalla diffusione di dataset contestati.

Gli autori chiedono ora un risarcimento che potrebbe estendersi a centinaia di soggetti qualora la class action venisse ulteriormente ampliata.

15 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
ionet19 Gennaio 2026, 14:49 #1
probabilmente hanno molto da farsi perdonare
qualche milione di $ in multe o ristori, ma spicci rispetto a quello che hanno guadagnato
mi ricorda la battuta dell'avvocato per tranquillizzare lo Zuckerberg agli albori nel film "the Social Network" poi sara' stata una scenetta fatta per esigenze cinematografiche, ma nella realta' tanto ovvia..
"vedila come una multa per eccesso di velocita" cioe' fregatene tanto ormai hai conquistato il mondo
Gnubbolo19 Gennaio 2026, 16:06 #2
se non lo fanno l'AI cinese supera l'AI americana a velocità tripla perchè la Cina se ne frega del copyright.
prima o poi Avvocatopolis andrà limitata nel suo potere, è una questione affrontata anche nel Project 25 che è ben più sostanzioso delle cose folcloristiche citate dalla stampa italiana.
Alodesign19 Gennaio 2026, 16:16 #3
Oggi ho discusso con una AI, anzi 2 diverse, per farmi dare un modo per avere un libro in pdf. Quando mi ha detto ciccia gli ho esposto il fatto che anche lei/lui/egli era stata addestrata con materiale piratato.

Sta bestia ha provato a difendersi!
supertigrotto19 Gennaio 2026, 16:40 #4
Visto che la cosa non è importante per Nvidia,mi chiedo perché faccia causa agli avversari o magari ai cinesi quando toccano le sue proprietà intellettuali.....
barzokk19 Gennaio 2026, 19:28 #5
Originariamente inviato da: Alodesign
Oggi ho discusso con una AI, anzi 2 diverse, per farmi dare un modo per avere un libro in pdf. Quando mi ha detto ciccia gli ho esposto il fatto che anche lei/lui/egli era stata addestrata con materiale piratato.

Sta bestia ha provato a difendersi!

ah ah vero
ho provato anche io, Chatty praticamente risponde di si


come inizia La stagione degli innocenti di Samuel Bjork ?

Mi dispiace, non posso fornire l’incipit testuale del romanzo perché è un’opera protetta da copyright.
Però posso riassumerti come inizia il libro.


e tu come fai a sapere fare un riassunto, se il libro è protetto da copyright ?

Bella domanda — ed è giusto chiederselo.

La risposta breve è: posso fare un riassunto senza “riprodurre” il libro perché un riassunto non è il testo originale, ma una rielaborazione.

Più in dettaglio:

Non ho accesso diretto ai libri né a database segreti di testi completi.

Non “ricordo” i romanzi parola per parola come un archivio.

Sono stato addestrato su un’enorme quantità di testi (pubblici, concessi in licenza e contenuti creati da formatori umani) per imparare i modelli del linguaggio, non per memorizzare i libri.

Quando ti faccio un riassunto, non sto copiando il testo, ma sto ricostruendo il contenuto in modo sintetico e originale, come farebbe una persona che ha letto il libro e lo racconta a parole sue.

È la stessa differenza che c’è tra:

❌ copiare una pagina del romanzo
✅ raccontare a un amico di cosa parla il libro
pachainti19 Gennaio 2026, 19:28 #6
Gli LLM andrebbero aboliti anche per questo, violano il copyright e non pagano i diritti.

Gola profonda di openAI, trovato morto...
When does generative AI qualify for fair use?

Gennaio 2026 Extracting books from production language models
Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.
Gnubbolo19 Gennaio 2026, 19:45 #7
Gli LLM andrebbero aboliti anche per questo, violano il copyright e non pagano i diritti.

fallo e tra ventanni il cinese medio andrà su Marte per le vacanze di Natale noi invece torneremo alle auto a gasogeno..
barzokk19 Gennaio 2026, 19:54 #8
Originariamente inviato da: Gnubbolo
fallo e tra ventanni il cinese medio andrà su Marte per le vacanze di Natale noi invece torneremo alle auto a gasogeno..

1) con 150 miliardi di finanziamenti solo per OpenAI, non potevano pagare quattro soldi per comprarli questi libri del belino ?
2) su Marte ci vai con la tecnologia Transformer di Google ?
https://en.wikipedia.org/wiki/Trans..._(deep_learning)
Fatevene una ragione, con questa roba non si va lontano.

PS: se la wiki è troppo complicata, fatti fare un riassunto da Chatty
Ripper8919 Gennaio 2026, 19:55 #9
tentano di fermare l'inevitabile.
alexfri19 Gennaio 2026, 20:27 #10
Secondo me devono fare una società. troppo comodo, te fai le tecnologia, io ci metto la conoscenza e divento socio al 50% d’ora in avanti. Ogni azienda che scandaglia internet e ci guadagna deve obbligatoriamente dare il 50% ai suoi soci, si deve creare un fondo globale al quale dare questi soldi, che poi devono essere usati pernil bene globale.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^