Meta sotto accusa: avrebbe usato contenuti pirata ottenuti via Torrent per allenare l'IA

Nuovi documenti rivelano che Meta potrebbe aver utilizzato materiale protetto da copyright per addestrare la sua intelligenza artificiale. La causa legale alimenta il dibattito sull'uso di contenuti pirata nello sviluppo di modelli linguistici avanzati, prassi che sembrerebbe decisamente diffusa.

di Nino Grasso pubblicata il 14 Gennaio 2025, alle 12:31 nel canale Web
Meta

Meta è stata recentemente accusata di aver utilizzato contenuti piratati per addestrare la sua intelligenza artificiale. La controversia riguarda specificamente il modello linguistico Llama, il motore dietro Meta AI, e alimenta il dibattito sul confine tra innovazione tecnologica e rispetto del diritto d'autore nell'era della GenAI.

Meta AI

La vicenda ha origine da una causa legale intentata nel 2023 da due romanzieri, Richard Kadrey e Christopher Golden, i quali sostengono che Meta abbia impiegato materiale protetto da copyright senza la dovuta autorizzazione. Inizialmente, l'azienda aveva presentato documenti con parti oscurate al tribunale, ma un recente ordine del giudice Vince Chhabria del tribunale distrettuale degli Stati Uniti per il distretto settentrionale della California ha imposto la loro divulgazione integrale.

Meta ha usato contenuti pirata per addestrare la propria IA?

Questi documenti includono conversazioni interne tra i dipendenti di Meta, ora rese pubbliche, che gettano luce sulle pratiche potenzialmente discutibili adottate in fase di training delle tecnologie. Un ingegnere dell'azienda ha espresso preoccupazioni riguardo all'uso di torrent su laptop aziendali, suggerendo una consapevolezza interna delle implicazioni etiche di tali azioni. Ancora più sorprendente è l'allusione a un'autorizzazione diretta da parte di "MZ" - presumibilmente Mark Zuckerberg - per l'utilizzo di materiale piratato nell'addestramento dell'IA.

Tra le fonti di contenuti non autorizzati figura LibGen, una vasta biblioteca digitale nota per ospitare libri, riviste e articoli accademici piratati. Creata in Russia nel 2008, LibGen è stata al centro di numerose controversie legali sul copyright, pur mantenendo un alone di mistero riguardo alla sua gestione effettiva. Secondo quanto riportato da Wired, Meta avrebbe attinto anche da altre "librerie ombra" per alimentare il suo progetto di intelligenza artificiale. La difesa di Meta si basa sulla dottrina del "fair use", un principio legale che, in determinate circostanze, consente l'uso di materiale protetto da copyright senza esplicita autorizzazione.

La causa "Kadrey et al. v. Meta Platforms" rappresenta uno dei primi casi legali incentrati sull'uso di contenuti protetti da copyright nell'addestramento di modelli di intelligenza artificiale. Come tale, potrebbe stabilire importanti precedenti per il futuro del settore, influenzando il modo in cui le aziende tecnologiche approcciano l'acquisizione e l'utilizzo di dati per lo sviluppo di IA. La causa si inserisce in un momento cruciale per l'evoluzione della tecnologia, con il settore che si trova a un bivio etico e legale dove la spinta verso l'avanzamento tecnologico si scontra con la necessità di rispettare i diritti degli autori e dei creatori di contenuti. La risoluzione di questo caso, insomma, potrebbe influenzare le pratiche future nell'addestramento di modelli linguistici e altre forme di IA anche anche di altre realtà concorrenti del nuovo prolifico mercato.

I migliori sconti su Amazon oggi

-45%

LG OLED evo 65'', Serie C4 2024, OLED65C46LA, Smart TV 4K, Processore

2599.00 1429.90€ Compra ora

-45%

Amazfit GTS 3, 42 mm, Smartwatch Orologio Intelligente Fitness con Bluetooth, AMOLED, 150 Modalità Sportive, 5 ATM Impermeabile, Alexa, GPS, SpO2, Cardiofrequenzimetro, Durata Batteria di 12 Giorni

79.90€ Compra ora

Gli smartphone crescono nel 2024: aumenta la domanda per i modelli da oltre 1000 euro

Le battaglie legali potrebbero portare alla fine di WordPress

s12a14 Gennaio 2025, 13:47 #1

Meta potrebbe aver utilizzato materiale protetto da copyright per addestrare la sua intelligenza artificiale

Cosa esattamente non è protetto dal copyright sul web a parte documenti esplicitamente di pubblico dominio (lo 0.0x % del totale)?

[...] prassi che sembrerebbe decisamente diffusa.

Si casca dal pero. L'addestramento dei modelli IA base è effettuato con dati pescati a strascico da qualunque fonte immaginabile. Ma svariati terabyte di dati compressi in pochi gigabyte di "pesi" implicano un tasso di compressione tale che dei dati originali resta ben poco.

Il problema principale qui probabilmente è il fatto di avere scaricato torrent pirata dall'azienda.

gparlav14 Gennaio 2025, 17:22 #2

Il problema non è la "compressione" di Tbyets di dati originali in Gbytes di "pesi" utilizzati dal motore IA. Il problema è il nesso di causalità tra i dati originari, coperti da copyright, rispetto al risultato. Il prodotto finale, rappresentato dai pesi del motore IA, non si sarebbe potuto originare senza l'utilizzo dei dati originari. Per i quali non si è avuta alcuna autorizzazione all'utilizzo, oltre ovviamente al corrispettivo economico

Il c.d. "Fair use" cui si appellano i vari produttori di motori IA, è solo una scusa per giustificare la loro pesca a strascico e, soprattutto, l'utilizzo che di tale conoscenza viene fatto.

s12a14 Gennaio 2025, 19:06 #3

La compressione è un punto chiave del'argomento, perché a tali livelli è per forza di cose lossy, con perdita molto elevata; non è possibile riprodurre con un normale LLM i dati di addestramento originali parola per parola, se non di brevi frammenti di passaggi citati innumerevoli volte in giro per il web.

Il fair use riguarda la redistribuzione in forma parziale dei lavori originali coperti da copyright senza richiedere autorizzazione. Con un LLM non redistribuisci i dati originali, ma al limite un estratto assai digerito.

LMCH14 Gennaio 2025, 20:21 #4

Originariamente inviato da: s12a

Il fair use riguarda la redistribuzione in forma parziale dei lavori originali coperti da copyright senza richiedere autorizzazione. Con un LLM non redistribuisci i dati originali, ma al limite un estratto assai digerito.

Il fair use riguarda anche il non trarre eccessivo profitto dall'utilizzo dei contenuti.

Un autore umano che legge libri altrui e poi ne trae ispirazione per scriverne di nuovi sulla stessa tematica non è la stessa cosa di una multinazionale che costruisce un modello linguistico usando migliaia di libri di autori diversi e che monetizza subito e nei modi più disparati (mentre un essere umano non è così rapido e non monetizza in così tanti modi diversi).

s12a14 Gennaio 2025, 20:54 #5

Puoi scaricare i pesi di Meta Llama ufficiali su HuggingFace o le versioni quantizzate dalla community dallo stesso sito e monetizzarci anche tu, volendo, o semplicemente usarli per svago/studio/curiosità.

Capirei al limite se i modelli fossero completamente chiusi e creati ad uso e consumo esclusivo dell'azienda (OpenAI, Anthropic...), ma in questo caso sono cosiddetti open-weight; non vedo come cercare di affossare Meta in merito possa portare benefici collettivi.

Praticamente si va a colpire per questioni ideologiche una delle poche aziende con le risorse per addestrare regolarmente modelli di tale capacità (dai costi di addestramento complessivi di svariate decine di milioni di euro) e che simultaneamente rilascia pubblicamente anche i pesi; grande idea!

I genii dell'UE non sono stati da meno e grazie a loro (con l'AI Act) molto probabilmente non vedremo Llama4 (o altri modelli open-weight da altre aziende, addestrati con dati coperti da copyright) ufficialmente in territorio Europeo.

demon7714 Gennaio 2025, 23:13 #6

Scusate la domanda niubba..
ma come fanno a sapere con cosa uno ha addestrato la propria IA?

s12a14 Gennaio 2025, 23:37 #7

Originariamente inviato da: demon77

Scusate la domanda niubba..
ma come fanno a sapere con cosa uno ha addestrato la propria IA?

Segnalazione dall'interno (whistleblower) come è successo con OpenAI, oppure in questo caso specifico, nel paper del primo Llama rilasciato nel 2023 gli autori avevano candidamente ammesso di avere usato Books3 (un noto archivio di libri in formato plaintext per l'addestramento di LLM), da cui è partita una denuncia da alcuni autori, e dai documenti legali è infine uscito fuori che sono stati anche usati i contenuti di LibGen, scaricato via torrent da un PC aziendale.

Link ad immagine (click per visualizzarla)

Altrimenti, normalmente non è possibile tirare fuori libri parola per parola da un LLM generalistico, a meno che non sia addestrato espressamente per memorizzarne i contenuti al 100%, cosa che però non viene normalmente fatta, perché altrimenti il modello non sarebbe in grado di generare null'altro (e non sarebbe più generalistico) e poi perché comunque c'è un limite alla quantità di informazione che un LLM può memorizzare in questo modo; non è un database.

s12a15 Gennaio 2025, 22:23 #8

https://www.courtlistener.com/docke...rms-inc/?page=3

I "case documents".

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

MSI Prestige 13 AI e i portatili business al Computex

NVIDIA GeForce RTX 5060: le schede video di ogni partner dal Computex

MSI Maestro 9000 al Computex 2025: un case che stupisce

Phanteks al Computex 2025

Corsair al Computex 2025

Fujifilm GFX100RF: la 'compatta' medio formato

Meglio un MacBook o un PC portatile con Windows, oggi? Scenari, dubbi e qualche certezza Passano gli anni, anzi i decenni, ma la domanda puntualmente riemerge fra le mail degli utenti meno esperti, alla ricerca di consigli e mossi dai più svariati motivi....

realme GT7: un "flaghsip killer" concreto! La recensione Abbiamo provato l'ultimo smartphone di realme, il nuovo GT7. Si tratta di un device che si colloca in una fascia di mercato delicata, ovvero quella che possiamo...

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

La rivoluzione dei dati in tempo reale è in arrivo. Un assaggio a Confluent Current 2025 Siamo andati a Londra per partecipare a Current 2025, la conferenza annuale di Confluent. Il tema al centro dell'evento era l'elaborazione dei dati in tempo reale...

Tutto sulla nuova Tesla Model Y: autonomia in autostrada, prova bagagliaio e dettagli Abbiamo guidato per diversi giorni la nuova Tesla Model Y, in versione di lancio dual motor e con batteria long range. Ecco tutto quello che c'è da sapere sull'erede...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Meta sotto accusa: avrebbe usato contenuti pirata ottenuti via Torrent per allenare l'IA

Meta ha usato contenuti pirata per addestrare la propria IA?

LG OLED evo 65'', Serie C4 2024, OLED65C46LA, Smart TV 4K, Processore

Amazfit GTS 3, 42 mm, Smartwatch Orologio Intelligente Fitness con Bluetooth, AMOLED, 150 Modalità Sportive, 5 ATM Impermeabile, Alexa, GPS, SpO2, Cardiofrequenzimetro, Durata Batteria di 12 Giorni

8 Commenti