500 terabyte di libri pirata per addestrare l'AI: il caso legale che coinvolge NVIDIA
Una class action aggiornata accusa NVIDIA di aver utilizzato consapevolmente milioni di libri piratati per addestrare i propri modelli di intelligenza artificiale. Documenti interni citati dagli autori parlano di contatti diretti con Anna's Archive e dell'uso di diversi dataset non autorizzati.
di Manolo De Agostini pubblicata il 19 Gennaio 2026, alle 14:01 nel canale WebNVIDIA
NVIDIA, protagonista indiscussa del boom dell'intelligenza artificiale grazie alla domanda record di GPU per datacenter e soluzioni di calcolo accelerato, si trova ora al centro di una controversia legale che potrebbe avere implicazioni rilevanti per l'intero settore. Un gruppo di autori ha infatti ampliato una class action già in corso, sostenendo che l'azienda avrebbe utilizzato consapevolmente milioni di libri piratati per l'addestramento dei propri modelli di intelligenza artificiale. Ne parla con dovizia di dettaglio il sito TorrentFreak.
La causa, avviata all'inizio del 2024, accusava inizialmente NVIDIA di aver addestrato diversi modelli - tra cui NeMo, Megatron, Retro-48B e InstructRetro - sfruttando il dataset Books3, noto per includere opere protette da copyright provenienti da fonti non autorizzate come Bibliotik. NVIDIA aveva respinto le accuse invocando il fair use, sostenendo che i testi vengono trattati come insiemi di correlazioni statistiche e non come opere riproducibili.

Gli autori, tuttavia, sostengono di aver ottenuto documentazione interna che amplierebbe in modo significativo il quadro delle presunte violazioni. L'atto con cui è stata modificata la denuncia cita email e comunicazioni interne secondo cui membri del team di data strategy di NVIDIA avrebbero contattato direttamente Anna's Archive, una delle più grandi "shadow library" attualmente online, per valutare l'accesso a grandi quantità di libri piratati destinati al pre-allenamento di modelli LLM.
Secondo la denuncia, Anna's Archive avrebbe chiarito fin da subito la natura illegale delle proprie collezioni, chiedendo espressamente se NVIDIA disponesse di autorizzazioni interne per procedere. La risposta, sempre stando alle accuse, sarebbe arrivata in tempi rapidi: nel giro di una settimana il management avrebbe dato il via libera, consentendo l'accesso a un archivio stimato in circa 500 terabyte di dati, comprendente milioni di libri.
Non è chiaro se NVIDIA abbia corrisposto un pagamento per l'accesso "ad alta velocità" ai dati, servizio che Anna's Archive offrirebbe a fronte di compensi elevati. La denuncia menziona inoltre l'uso di altre fonti non autorizzate, tra cui LibGen, Sci-Hub e Z-Library, ampliando ulteriormente l'elenco delle presunte violazioni.
Le accuse non si limitano all'uso diretto dei contenuti. Gli autori sostengono che NVIDIA avrebbe anche distribuito strumenti e script ai propri clienti enterprise, facilitando il download automatico di dataset come "The Pile", che includono materiale protetto da copyright. Questo avrebbe generato nuove contestazioni per violazione diretta, contributiva e indiretta, con l'azienda accusata di aver tratto beneficio economico dalla diffusione di dataset contestati.
Gli autori chiedono ora un risarcimento che potrebbe estendersi a centinaia di soggetti qualora la class action venisse ulteriormente ampliata.










Sony WF-1000X M6: le cuffie in-ear di riferimento migliorano ancora
Snowflake porta l'IA dove sono i dati, anche grazie a un accordo con OpenAI
Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo MSI
Meta lavora a un sistema di riconoscimento facciale per i suoi occhiali smart
Il mercato smartphone potrebbe registrare un netto calo nel 2026 e la colpa è delle memorie
Apple punterà sull'architettura chiplet: Qualcomm seguirà la stessa strada?
NASA Curiosity: i processi non biologici non spiegano la presenza delle molecole organiche su Marte
Sega conferma l'arrivo di tanti nuovi giochi entro marzo 2027
La serie POCO X8 è pronta al debutto: il nuovo X8 Pro Max punta a stupire
Apple conferma che l'arrivo della 'nuova' Siri ma non dice quando
Le vendite di Square Enix sono in netto calo, ma gli utili crescono
iPhone 17e si mostra in un video 'first look': ecco come potrebbe essere e quale sarà il prezzo
Il nuovo Xiaomi Watch 5 è pronto per l'Europa: il prezzo sarà alto
Steam Deck è out of stock in diversi Paesi e potrebbe essere colpa delle memorie
Le migliori offerte Amazon del weekend, aggiornate con 4 articoli freschi di sconto: con tutte si risparmia molto
PC più potente, meno spesa: su Amazon tagli di prezzo su GPU, CPU e monitor gaming da non perdere
Amazon Haul: come fare acquisti 'pazzi' su Amazon con prodotti per la casa a meno di 5€









15 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoqualche milione di $ in multe o ristori, ma spicci rispetto a quello che hanno guadagnato
mi ricorda la battuta dell'avvocato per tranquillizzare lo Zuckerberg agli albori nel film "the Social Network" poi sara' stata una scenetta fatta per esigenze cinematografiche, ma nella realta' tanto ovvia..
"vedila come una multa per eccesso di velocita" cioe' fregatene tanto ormai hai conquistato il mondo
prima o poi Avvocatopolis andrà limitata nel suo potere, è una questione affrontata anche nel Project 25 che è ben più sostanzioso delle cose folcloristiche citate dalla stampa italiana.
Sta bestia ha provato a difendersi!
Sta bestia ha provato a difendersi!
ah ah vero
ho provato anche io, Chatty praticamente risponde di si
come inizia La stagione degli innocenti di Samuel Bjork ?
Mi dispiace, non posso fornire l’incipit testuale del romanzo perché è un’opera protetta da copyright.
Però posso riassumerti come inizia il libro.
e tu come fai a sapere fare un riassunto, se il libro è protetto da copyright ?
Bella domanda — ed è giusto chiederselo.
La risposta breve è: posso fare un riassunto senza “riprodurre” il libro perché un riassunto non è il testo originale, ma una rielaborazione.
Più in dettaglio:
Non ho accesso diretto ai libri né a database segreti di testi completi.
Non “ricordo” i romanzi parola per parola come un archivio.
Sono stato addestrato su un’enorme quantità di testi (pubblici, concessi in licenza e contenuti creati da formatori umani) per imparare i modelli del linguaggio, non per memorizzare i libri.
Quando ti faccio un riassunto, non sto copiando il testo, ma sto ricostruendo il contenuto in modo sintetico e originale, come farebbe una persona che ha letto il libro e lo racconta a parole sue.
È la stessa differenza che c’è tra:
❌ copiare una pagina del romanzo
✅ raccontare a un amico di cosa parla il libro
Gola profonda di openAI, trovato morto...
When does generative AI qualify for fair use?
Gennaio 2026 Extracting books from production language models
Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.
fallo e tra ventanni il cinese medio andrà su Marte per le vacanze di Natale noi invece torneremo alle auto a gasogeno..
1) con 150 miliardi di finanziamenti solo per OpenAI, non potevano pagare quattro soldi per comprarli questi libri del belino ?
2) su Marte ci vai con la tecnologia Transformer di Google ?
https://en.wikipedia.org/wiki/Trans..._(deep_learning)
Fatevene una ragione, con questa roba non si va lontano.
PS: se la wiki è troppo complicata, fatti fare un riassunto da Chatty
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".