E se l'AI stesse davvero rubando i libri? Il caso Harry Potter accende il dibattito

E se l'AI stesse davvero rubando i libri? Il caso Harry Potter accende il dibattito

Uno studio accademico mostra che Llama 3.1 70B di Meta ha memorizzato fino al 42% di Harry Potter e la Pietra Filosofale. La scoperta solleva dubbi legali sull'uso di contenuti protetti nell'addestramento AI e mette in discussione la difesa del fair use in cause contro i produttori di LLM.

di pubblicata il , alle 07:21 nel canale Web
Meta
 

Un nuovo studio riportato da Arstechnica, condotto da un team interdisciplinare di ricercatori delle Università di Stanford, Cornell e West Virginia solleva interrogativi rilevanti sull'uso di contenuti protetti da copyright nell'addestramento dei modelli di intelligenza artificiale. Al centro della ricerca c'è Llama 3.1 70B, un modello open-weight rilasciato da Meta nel 2024, che secondo l'analisi avrebbe memorizzato fino al 42% del libro Harry Potter e la Pietra Filosofale.

Questa scoperta riapre il dibattito sulle implicazioni legali dell'addestramento degli LLM (Large Language Models) su dataset che includono opere protette. I ricercatori hanno valutato la probabilità che il modello rigeneri fedelmente sequenze di 50 token da un corpus di 36 libri, utilizzando un approccio statistico basato sui valori di probabilità interni al modello stesso, anziché tramite la generazione empirica di testi. Il risultato è che alcuni modelli, e in particolare Llama 3.1 70B, sono in grado di produrre passaggi identici a quelli di opere famose con una frequenza significativa.

Il confronto con modelli precedenti rafforza il dato. Llama 1 65B, rilasciato nel 2023, mostrava una memorizzazione molto più bassa (4,4%) dello stesso libro. Questo incremento suggerisce che, con l'aumento della dimensione dei dataset (fino a 15 trilioni di token per Llama 3), anche il rischio di memorizzazione di contenuti protetti sia aumentato.

Lo studio evidenzia anche una selettività nella memorizzazione: i modelli tendono a conservare meglio testi molto noti - come 1984 di George Orwell o Lo Hobbit - mentre l'output resta trascurabile per opere meno popolari, come "Sandman Slim. La stanza delle tredici porte" di Richard Kadrey, dove il tasso di memorizzazione è appena dello 0,13%.

Questo comportamento può avere impatti concreti nelle cause legali in corso, come le class action avviate da autori contro le aziende di AI. La forte variabilità nella capacità di rigenerazione testuale può minare la coerenza delle azioni collettive, mettendo in dubbio la possibilità di trattare tutti gli autori come ugualmente danneggiati.

Dal punto di vista giuridico, la questione si lega a tre possibili teorie di violazione del copyright: la riproduzione durante l'addestramento; l'idea che il modello stesso sia un'opera derivata; e infine, la violazione che avviene quando il modello genera passaggi identici ai testi originali. Se il primo punto è già oggetto di dibattiti legali, il secondo - cioè, che il modello contenga nel proprio stato interno una rappresentazione sostanziale di un'opera - potrebbe risultare particolarmente problematico, soprattutto per chi sostiene la tesi del fair use.

Inoltre, la natura open-weight di Llama 3.1 rende queste verifiche possibili, a differenza dei modelli chiusi come quelli di OpenAI o Google, i cui pesi e logit non sono accessibili pubblicamente. Paradossalmente, questo potrebbe scoraggiare le aziende dal rilasciare modelli aperti, per evitare controlli esterni. Un'eventualità che, secondo alcuni giuristi, rischia di penalizzare proprio i soggetti più trasparenti.

I risultati della ricerca aggiungono complessità a un contesto legale già sfaccettato, dove la distinzione tra apprendimento e riproduzione non è solo tecnica, ma potenzialmente decisiva nei tribunali.

9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
vraptus23 Giugno 2025, 08:04 #1
Fintanto che le sanzioni saranno inferiori ai possibili guadagni queste società se ne fregheranno altamente di tutte le leggi del mondo e continueranno a fare quel che vogliono.
matrix00923 Giugno 2025, 09:00 #2
Scusate in che senso "E se l'AI stesse davvero rubando i libri?".
La "AI", che non ricordo non essere AI, sta già rubando tutto.
A lavoro abbiamo dovuto bloccare i migliaia di bot che ci stanno intasando i siti rubando le informazioni. La "AI" sta già rubando tutto e lo utilizza per rispondere agli utenti che non hanno nulla da fare su ChatGPT.
zancle23 Giugno 2025, 10:49 #3
Originariamente inviato da: Redazione di Hardware Upgrade
Link alla notizia: https://www.hwupgrade.it/news/web/e...ito_140107.html

Uno studio accademico mostra che Llama 3.1 70B di Meta ha memorizzato fino al 42% di Harry Potter e la Pietra Filosofale.

I ricercatori hanno valutato la probabilità che il modello rigeneri fedelmente sequenze di 50 token da un corpus di 36 libri, utilizzando un approccio statistico basato sui valori di probabilità interni al modello stesso, anziché tramite la generazione empirica di testi. Il risultato è che alcuni modelli, e in particolare Llama 3.1 70B, sono in grado di produrre passaggi identici a quelli di opere famose con una frequenza significativa.

Click sul link per visualizzare la notizia.


si vuole condannare sulla possibilità che un fatto possa accadere e non sul fatto che sia accaduto?
è come se mi condannassero perchè, guidando l'auto, statisticamente potrei fare un incidente, che potrebbe causare la morte di alcune persone.

forse e dico forse, la memorizzazione serve ad evitare che ciò accada.
SpyroTSK23 Giugno 2025, 10:59 #4
Originariamente inviato da: zancle
si vuole condannare sulla possibilità che un fatto possa accadere e non sul fatto che sia accaduto?
è come se mi condannassero perchè, guidando l'auto, statisticamente potrei fare un incidente, che potrebbe causare la morte di alcune persone.


Tipo la tassa SIAE sui dispositivi di memoria?
zancle23 Giugno 2025, 11:05 #5
Originariamente inviato da: SpyroTSK
Tipo la tassa SIAE sui dispositivi di memoria?


hai colto sul segno.
SpyroTSK23 Giugno 2025, 19:58 #6
Comunque, se l'ai viene istruita passando i libri legittimi (es. Comprato in digitale) non vedo il problema di farlo leggere alle AI. Ovviamente però l'output all'utente non può contenere il libro per intero.
Anzi, onestamente lo trovo anche obbligatorio in quanto l'ai per essere utile, DEVE avere la maggior parte della nostra conoscenza, che sia storia, scienze o letteratura.
mrk-cj9404 Luglio 2025, 17:58 #7
Originariamente inviato da: vraptus
Fintanto che le sanzioni saranno inferiori ai possibili guadagni queste società se ne fregheranno altamente di tutte le leggi del mondo e continueranno a fare quel che vogliono.


e fan bene, perchè porre tutti sti limiti di apprendimento all'IA?

Originariamente inviato da: SpyroTSK
Comunque, se l'ai viene istruita passando i libri legittimi (es. Comprato in digitale) non vedo il problema di farlo leggere alle AI. Ovviamente però l'output all'utente non può contenere il libro per intero.
Anzi, onestamente lo trovo anche obbligatorio in quanto l'ai per essere utile, DEVE avere la maggior parte della nostra conoscenza, che sia storia, scienze o letteratura.


esatto
Pascas09 Luglio 2025, 11:13 #8
Originariamente inviato da: zancle
si vuole condannare sulla possibilità che un fatto possa accadere e non sul fatto che sia accaduto?
è come se mi condannassero perchè, guidando l'auto, statisticamente potrei fare un incidente, che potrebbe causare la morte di alcune persone.


è quello che già fanno con i controlli con l'etilometro e simili. Magari guidi bene anche da ubriaco e non uccidi nessuno ma ti condannano perchè avresti potuto farlo in quelle condizioni. Anche per la cintura/il casco. Potresti fare male a te stesso e quindi ti condannano se non rispetto le regole
Ripper8909 Luglio 2025, 11:47 #9
Quante stupidaggini, all'AI verrà dato in pasto tutto anche dovendo passando per via traverse o in modo indiretto.

Basta che succeda 1 sola volta e il testo è acquisito definitivamente, non ha bisogno di leggerselo più di una volta come gli esseri umani.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^