ChatGPT e violazione di copyright: OpenAI pronta a dare battaglia

Un gruppo di autori ha accusato la società di violazione dei diritti d'autore con il materiale di training di ChatGPT. Secondo OpenAI si tratta di conclusioni infondate e presenta una mozione per respingere le accuse
di Andrea Bai pubblicata il 05 Settembre 2023, alle 08:01 nel canale WebChatGPTOpenAI
All'inizio dell'estate alcuni autori nordamericani avevano intentato una coppia di cause collettive quasi identiche contro OpenAI, accusandola di aver addestrato ChatGPT illegalmente utilizzando copie piratate dei loro libri. La società ha ora depositato, per entrambe le cause, una mozione per respingere le accuse.
OpenAI ha chiesto a un tribunale distrettuale degli Stati Uniti in California di respingere tutte le richieste tranne una, la quale sostiene che vi sia violazione diretta del copyright, e che OpenAI spera di poter smentire "in una fase successiva del procedimento".
Gli autori avevano avanzato altre accuse (presunta violazione indiretta del copyright, violazione del Digital Millennium Copyright Act, concorrenza sleale, negligenza e indebito arricchimento) che secondo OpenAI dovrebbero essere stralciate dalle due cause poiché "infondate".
In particolare OpenAI sostiene che gli autori abbiano "frainteso la portata del copyright, non tenendo conto delle limitazioni ed eccezioni (incluso l'uso lecito) che lasciano correttamente spazio a innovazioni come i grandi modelli linguistici ora all'avanguardia nell'intelligenza artificiale". In altri termini secondo la società californiana, se anche i libri degli autori costituissero effettivamente una "piccola parte" dell'enorme set di dati su cui ChatGPT è stata allenata, "l'uso di materiali protetti da copyright da parte di innovatori in modi trasformativi non viola il copyright".
OpenAI vuole sottolineare la differenza con chi cerca di trarre profitto direttamente dalla distribuzione di materiale protetto e che il suo obiettivo era piuttosto quello di "insegnare ai suoi modelli a derivare le regole alla base del linguaggio umano". Si legge ancora nelle mozioni presentate che la legge sul copyright ha come obiettivo quello di "promuovere il progresso della scienza e delle arti utili" proteggendo il modo in cui gli autori esprimono le idee, ma "non l'idea stessa, i fatti incorporati nel messaggio articolato dell'autore o gli altri mattoni creativi", che sono presumibilmente gli elementi delle opere degli autori che sarebbero utili per l'addestramento del modello ChatGPT.

OpenAI si appoggia su un precedente relativo a Google Books e afferma che "mentre un autore può registrare il copyright del suo libro, le 'informazioni statistiche' relative alle 'frequenze delle parole, modelli sintattici e marker tematici' in quel libro sono al di fuori dell'ambito di protezione del copyright". Per questo motivo non costituirebbe violazione la creazione di copie integrali di un'opera come passo preliminare per lo sviluppo di un nuovo prodotto "non violativo", anche se il nuovo prodotto "compete" con l'originale.
La strategia di OpenAI è quella di convincere la corte che l'accusa di violazione indiretta del copyright avanzata dagli autori è una "conclusione giuridica errata". Il principio su cui si basano gli autori e firmatari delle cause collettive è che ogni output prodotto da ChatGPT rappresenti un'opera derivata, a prescindere dalla presenza di eventuali somiglianze tra l'output e il materiale di addestramento.
La società cerca inoltre di dimostrare che non vi è alcun "interesse
finanziaro diretto" in quella che sarebbe la presunta violazione del
copyright delle opere degli scrittori, dal momento che non esisterebbe
alcun "legame causale diretto tra la violazione delle opere protette dal
copyright del querelante e qualsiasi profitto per [l'imputato]".
Gli autori hanno inoltre, come indicato più sopra, accusato OpenAI della
violazione del DMCA quando ChatGPT emette un output che copia le loro
opere senza specificare le informazioni di gestione del copyright, come ad
esempio i nomi degli autori o l'anno di pubblicazione. Anzi, secondo gli
autori queste informazioni sarebbero rimosse intenzionalmente allo scopo
di "trarre profitto slealmente e attribuirsi il merito di aver sviluppato
un prodotto commerciale basato su riproduzioni non attribuite di quegli
scritti e idee rubati".
OpenAI bolla come queste accuse "insufficienti e prive di qualsiasi spiegazione", in modo particolare sulle modalità e sulle motivazioni con cui essa stessa cancellerebbe i nomi degli autori e gli anni di pubblicazione dai libri nei suoi dati di training, o quali motivazioni gli autori hanno per credere che ciò sia avvenuto. Quanto denunciato dagli autori, e cioè che i loro libri sarebbero stati "copiati per intero da OpenAI", sarebbe in diretta contraddizione con le accuse di rimozione intenzionale delle informazioni di gestione del copyright.
In ogni caso OpenAI sostiene che "anche ammettendo che gli output di ChatGPT siano un'opera derivata, il DMCA non vieta la distribuzione di opere derivate senza le informazioni di gestione del copyright. che accompagnavano l'originale" ma vieta solamente la loro rimozione quando si distribuiscono opere originali o copie di esse.
Come dicevamo all'inizio OpenAI ha scelto di contrastare l'accusa di violazione diretta della legge sul copyright in un secondo momento, lasciando quindi decidere al tribunale se il modello di training dell'intelligenza artificiale sia effettivamente "colpevole" di riprodurre e distribuire opere originali o di realizzare opere derivate senza autorizzazione o senza modifiche sufficienti.
26 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoInvece sull'accusa di usare informazioni presenti in un libro per generare altri contenuti, la vedo un po' dura. Altrimenti saremmo tutti colpevoli, visto che è lo stesso approccio che usiamo noi umani, studiamo e usiamo quelle informazioni per generare altro testo.
È un po' diverso...
L'uomo memorizza concetti, al massimo qualche frase pari-pari, e poi rielabora.
Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole.
Si rischia di arrivare al punto in cui scaricare un libro piratato è illegale, ma chiedere all'IA di riscrivere quel tal libro (magari con modifiche minori) non lo è più...
E magari, dopo il libro, si farà con i software, le immagini, i film... tutto ciò che è protetto da copyright.
Non si può adattare le leggi "umane" alle IA, perché le capacità sono infinitamente diverse.
L'uomo memorizza concetti, al massimo qualche frase pari-pari, e poi rielabora.
Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole.
Si rischia di arrivare al punto in cui scaricare un libro piratato è illegale, ma chiedere all'IA di riscrivere quel tal libro (magari con modifiche minori) non lo è più...
E magari, dopo il libro, si farà con i software, le immagini, i film... tutto ciò che è protetto da copyright.
Non si può adattare le leggi "umane" alle IA, perché le capacità sono infinitamente diverse.
direi semplicemente "le capacità sono infinite". metti un limite e troverà infiniti modi per raggirarlo
L'uomo memorizza concetti, al massimo qualche frase pari-pari, e poi rielabora.
Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole.
Si rischia di arrivare al punto in cui scaricare un libro piratato è illegale, ma chiedere all'IA di riscrivere quel tal libro (magari con modifiche minori) non lo è più...
E magari, dopo il libro, si farà con i software, le immagini, i film... tutto ciò che è protetto da copyright.
Non si può adattare le leggi "umane" alle IA, perché le capacità sono infinitamente diverse.
MA PROPRIO NO!!!
Non hai la benché minima idea di come funzioni una AI generativa.
Lo dimostra questa tua frase: "Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole."
Una AI non memorizza un testo od una immagine.
Un'AI è composta di "pesi" che regolano il funzionamento della sua rete e tali pesi sono il risultato dell'addestramento.
Potenzialmente è lo stesso che potresti fare te come umano. Comprare un libro e metterlo nella tua libreria. l'unica diversità è che l'IA è più veloce nel memorizzare le informazioni e proporle.
Anche questo avviene già in ambito "umano". Nei libri a me è successo più volte di leggere libri che sembravano la copia di altri. Per non parlare dei film, in cui questa è ormai una prassi consolidata, vedi i Mockbusters
L'uomo memorizza concetti, al massimo qualche frase pari-pari, e poi rielabora.
Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole.
Si rischia di arrivare al punto in cui scaricare un libro piratato è illegale, ma chiedere all'IA di riscrivere quel tal libro (magari con modifiche minori) non lo è più...
E magari, dopo il libro, si farà con i software, le immagini, i film... tutto ciò che è protetto da copyright.
Non si può adattare le leggi "umane" alle IA, perché le capacità sono infinitamente diverse.
l'IA fa esattamente lo stesso "legge" 50, 100, libri e realizza un libro diverso attingendo dal contenuto dei libri "letti".
Anche le capacità dell'essere umano non sono altro che la somma delle competenze acquisite tramite lo studio, la pratica, l'osservazione ecc. senza queste cose non saremmo in grado nemmeno di allacciarci le scarpe se nessuno ce lo avesse insegnato, così la IA apprende da ciò che è stato fatto prima, solo che lo fa in modo esageratamente più efficiente, l'unica cosa che può mancare è la fantasia, ma anche questa in larga parte è solo l'applicazione in modo diverso di qualcosa che si è appreso in precedenza.
La questione è molto complicata in effetti.
Concordo. E' un insieme di etica e aspetto economico. Dal punto di vista dell'etica, un IA non fa altro che ricalcare il meccanismo umano, sia se compra il libro onestamento, sia se ne prende una versione pirata. ma dal punto di visoa economico è un gran problema.
Se un libro è potenzialmente acquistato da una multitudine di persone che ripagano l'autore. Nel caso dell'IA, sempre potenzialmente, potrebbe essere acquistato una sola copia da parte dell'IA, e poi quest'ultima provvederebbe a ispirarsi per produrre opere che lascino intatti i concetti base, oppure a fornire riassunti molto dettagliati. In breve nessun autore sarebbe incentivato a produrre opere.
Se un libro è potenzialmente acquistato da una multitudine di persone che ripagano l'autore. Nel caso dell'IA, sempre potenzialmente, potrebbe essere acquistato una sola copia da parte dell'IA, e poi quest'ultima provvederebbe a ispirarsi per produrre opere che lascino intatti i concetti base, oppure a fornire riassunti molto dettagliati. In breve nessun autore sarebbe incentivato a produrre opere.
a breve il concetto di arte (tra i tanti, potrei banalmente parlare anche di concetto di "lavoro"
Non hai la benché minima idea di come funzioni una AI generativa.
Lo dimostra questa tua frase: "Un'IA memorizza il libro intero, lettera per lettera, e poi lo riscrive tutto, se vuole."
Una AI non memorizza un testo od una immagine.
Un'AI è composta di "pesi" che regolano il funzionamento della sua rete e tali pesi sono il risultato dell'addestramento.
Magari non ho idea di come funzioni un'IA generativa, come dici tu, ma mi baso sui fatti.
I fatti sono:
1- ChatGPT è un programma proprietario, quindi né tu né io sappiamo realmente come memorizza i dati;
2- Ciò che si contesta è proprio il fatto che il programma sembra riproporre parti di testo prese pari pari dai libri, senza citarne gli autori.
Quindi, i casi sono 2:
- o ChatGPT memorizza i dati, come ho detto, e li ripropone;
- o non li memorizza, ma nel momento della richiesta va a cercarseli e li ricopia, che legalmente è ancora peggio.
Non mi pare ci siano altre possibilità.
Il funzionamento è lo stesso, ma le proporzioni sono enormemente diverse.
Ciò che viene concesso ad un uomo, considerate le sue capacità psico-fisiche, non deve per forza essere concesso ad altre entità con capacità maggiori (o anche solo diverse).
Per esempio, ci sono mostre/musei in cui puoi girare, guardare e conseguentemente memorizzare le opere... ma non puoi fotografare.
Uomo e macchina fotografica sono entrambi sistemi di cattura e memorizzazione, ma vengono considerati diversi, e ciò che è concesso ad uno non sempre è concesso all'altro...
Anche questo avviene già in ambito "umano". Nei libri a me è successo più volte di leggere libri che sembravano la copia di altri. Per non parlare dei film, in cui questa è ormai una prassi consolidata, vedi i Mockbusters
Quando c'è una somiglianza, si entra nell'ambito del limite che c’è tra ispirazione e plagio.
Ma qui non si parla di somiglianza, si parla proprio di copia fedele...
Attingere dei concetti dai libri, credo sia perfettamente consentito.
Ma l'articolo, e le polemiche degli autori, parlano di altro.
Come quando si parlava del Copilot di Github, nelle situazioni in cui hanno trovato suggerito del codice copiato pari pari da quello già scritto da altri...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".