I contenuti protetti dal copyright? Indispensabili per l'IA: Parola di OpenAI [Archivio]

Redazione di Hardware Upg

09-01-2024, 17:01

Link alla notizia: https://edge9.hwupgrade.it/news/data/i-contenuti-protetti-dal-copyright-indispensabili-per-l-ia-parola-di-openai_123196.html

Dato che praticamente qualsiasi contenuto è protetto dal diritto d'autore, sarebbe impossibile avere un'IA senza addestrarla senza contenuti coperti da copyright. Lo sostiene OpenAI e forse non ha tutti i torti. Però...

Click sul link per visualizzare la notizia.

xarz3

09-01-2024, 17:31

OpenAI dovrebbe aprire il portafogli di più e la bocca di meno.

Mi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.

boxmoto

09-01-2024, 18:44

Se compro un libro, lo compro per leggerlo, e una volta imparato quel che c'è scritto ho diritto di usare quella conoscenza che ho acquistato. Se leggo una pagina web che ha una copyright, ma è pubblicamente accessibile, nella maggior parte dei casi "pago" perchè sono costretto a vedere le pubblicità che indirettamente costituiscono il pagamento. Se voglio leggere il Corriere della Sera non ho libero accesso alle sue pagine se non mi abbono. L'IA deve poter leggere liberamente tutte le pagine accessibili. Se un sito ritiene che il modello con la pubblicità non le va bene, sia il suo gestore a imporre un login nome utente e password, così l'IA non lo legge.

Pretendere di poter pubblicare liberamente qualunque cosa sul web e poi dire che se la leggi non puoi usarla è semplicemente una follia totale.

Oltre a questo, per il bene dell'umanità il sistema di licenze, brevetti e copyright deve essere profondamente cambiato. Oggi in USA si può brevettare praticamente qualunque idea generica, senza produrre nulla che la implementi. Per colpa di questa follia la stampa 3D ha ritardato di 20 anni il suo ingresso nel mercato, ma gli esempi di farabutti che brevettano idee per poi succhiare il sangue a chi le cose le produce veramente sono innumerevoli.
I brevetti e le copyright devono avere un tempo limitato, magari a 5 anni per i software, a 7-10 per le tecnologie elettroniche, a 5/10 anni per le medicine (il cui sviluppo e ricerca costa ed è giusto sia poi retribuito da guadagni), a massimo 10 anni per i libri. Insomma, non è ammissibile la durata attuale dei brevetti, almeno devono esserci regole secondo le quali se brevetti un'idea e non la implementi entro 5 anni perdi ogni diritto e l'idea diventa patrimonio di tutti non più vincolabile. La bestialità del nostro capitalismo zoppo è solo un limite al bene della comunità e un danno per l'umanità.

Per questo quando vedo scrivere assurdità sul fatto che l'IA non deve poter elaborare quel che è liberamente accessibile, sebbene soggetto a copyright, sul web, penso a come sia idiota la nostra società.

zephyr83

09-01-2024, 23:08

Se compro un libro, lo compro per leggerlo, e una volta imparato quel che c'è scritto ho diritto di usare quella conoscenza che ho acquistato. Se leggo una pagina web che ha una copyright, ma è pubblicamente accessibile, nella maggior parte dei casi "pago" perchè sono costretto a vedere le pubblicità che indirettamente costituiscono il pagamento. Se voglio leggere il Corriere della Sera non ho libero accesso alle sue pagine se non mi abbono. L'IA deve poter leggere liberamente tutte le pagine accessibili. Se un sito ritiene che il modello con la pubblicità non le va bene, sia il suo gestore a imporre un login nome utente e password, così l'IA non lo legge.

Pretendere di poter pubblicare liberamente qualunque cosa sul web e poi dire che se la leggi non puoi usarla è semplicemente una follia totale.

Oltre a questo, per il bene dell'umanità il sistema di licenze, brevetti e copyright deve essere profondamente cambiato. Oggi in USA si può brevettare praticamente qualunque idea generica, senza produrre nulla che la implementi. Per colpa di questa follia la stampa 3D ha ritardato di 20 anni il suo ingresso nel mercato, ma gli esempi di farabutti che brevettano idee per poi succhiare il sangue a chi le cose le produce veramente sono innumerevoli.
I brevetti e le copyright devono avere un tempo limitato, magari a 5 anni per i software, a 7-10 per le tecnologie elettroniche, a 5/10 anni per le medicine (il cui sviluppo e ricerca costa ed è giusto sia poi retribuito da guadagni), a massimo 10 anni per i libri. Insomma, non è ammissibile la durata attuale dei brevetti, almeno devono esserci regole secondo le quali se brevetti un'idea e non la implementi entro 5 anni perdi ogni diritto e l'idea diventa patrimonio di tutti non più vincolabile. La bestialità del nostro capitalismo zoppo è solo un limite al bene della comunità e un danno per l'umanità.

Per questo quando vedo scrivere assurdità sul fatto che l'IA non deve poter elaborare quel che è liberamente accessibile, sebbene soggetto a copyright, sul web, penso a come sia idiota la nostra società.

elaborare è un conto, riutilizzare pari pari è un altro. puoi comprare e leggere il libro ma non puoi riscriverlo in parte pari pari o anche fotocopiarlo e rivenderlo come se fosse tuo e quel poco che riutilizzi lo devi citare come fonte.
il problema attuale di questa pseudo AI non è l'accesso a queste informazioni protette ma come le riporta che è una cosa ben diversa.

Okkau

10-01-2024, 06:33

OpenAI dovrebbe aprire il portafogli di più e la bocca di meno.

Mi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.

E come farebbero ad aprire il portafoglio se dovessero fornire il servizio totalmente gratis?
Ogni giorno ChatGpt costa 700.000 dollari (ora forse anche di più) di infrastrutture.
Per ogni singola richiesta servono potenze computazionali e una quantità di memoria assurda (anche 30Gb per una semplice domanda), cose che nessuno ti regala.

Unrue

10-01-2024, 09:27

OpenAI dovrebbe aprire il portafogli di più e la bocca di meno.

Mi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.

Il portafogli a chi? A tutto il mondo? E' un argomento spinoso, ma spero per loro che siano preparati, dato che era straovvio che prima o poi questa cosa gli esplodesse in mano.

xarz3

10-01-2024, 09:41

E come farebbero ad aprire il portafoglio se dovessero fornire il servizio totalmente gratis?
Ogni giorno ChatGpt costa 700.000 dollari (ora forse anche di più) di infrastrutture.
Per ogni singola richiesta servono potenze computazionali e una quantità di memoria assurda (anche 30Gb per una semplice domanda), cose che nessuno ti regala.

Non vedo come sia un mio problema. Da che mondo é mondo i dati coperti da diritto d autore si pagano. Non vedo perché addestrare un modello linguistico dovrebbe contare diversamente dal riprodurre musica ad una festa di compleanno per cui vanno pagati i diritti

Unrue

10-01-2024, 09:45

Non vedo come sia un mio problema. Da che mondo é mondo i dati coperti da diritto d autore si pagano. Non vedo perché addestrare un modello linguistico dovrebbe contare diversamente dal riprodurre musica ad una festa di compleanno per cui vanno pagati i diritti

Però non confondiamo la questione dei diritti d'autore (giusta di per se) con le porcate puramente italiane che impone la SIAE, che vanno ben oltre.

xarz3

10-01-2024, 09:46

Il portafogli a chi? A tutto il mondo? E' un argomento spinoso, ma spero per loro che siano preparati, dato che era straovvio che prima o poi questa cosa gli esplodesse in mano.

OpenAI dovrebbe, ad esempio, pagare i diritti a quei giornali da cui prende articoli per addestrare i propri modelli. Non vedo come tutte le scuse arrancate nell'articolo possano avere alcuna rilevanza. I modelli linguistici hanno bisogno di dati, i dati si pagano. Punto. Il fatto che sia difficile o costoso non é un problema mio, é un problema loro. Ripeto io sarei comprensivo se questo fosse un prodotto di ricerca reso poi pubblico a tutta la comunità in maniera gratuita e con solo monetizzazione secondaria (ad es il modello addestrato é aperto, ma offrono un servizio a pagamento per farlo girare senza dover tirare su l infrastruttura necessaria), ma siccome di Open in OpenAI ci sta ben poco e i loro modelli sono tutti blindati, allora non sono affatto comprensivo

Unrue

10-01-2024, 09:47

OpenAI dovrebbe, ad esempio, pagare i diritti a quei giornali da cui prende articoli per addestrare i propri modelli. Non vedo come tutte le scuse arrancate nell'articolo possano avere alcuna rilevanza.

Il problema non è tanto l'uso, ma come le ripropongono. In fondo, se una cosa è pubblica, non vedo perché un AI non possa leggerla.

I modelli linguistici hanno bisogno di dati, i dati si pagano

Nel caso del NY la questione non mi è chiara. Essendo una testata con contenuti a pagamento, immagino che OpenAI abbia un abbonamento per accedere a tutti gli articoli. Quindi, avendo già pagato, perché non può usarli per addestrare un'AI?

Per la parte non a pagamento a maggior ragione.

Saturn

10-01-2024, 09:48

Però non confondiamo la questione dei diritti d'autore (giusta di per se) con le porcate puramente italiane che impone la SIAE, che vanno ben oltre.

Eh...manco ce ne fossero stati pochi di questi "giustizieri" che negli anni andavano a multare quattro disgraziati perchè al circoletto del paese mettevano le sigle di cartoni animati per le festicciole dei figli di tre o quattro anni.

Ah...tutto per tutelare "gli artisti"....seh...vabbè...per tutelare le loro tasche !

Quel baraccone di ente inutile spero di vederlo chiudere prima di morire.

zephyr83

10-01-2024, 13:05

Il problema non è tanto l'uso, ma come le ripropongono. In fondo, se una cosa è pubblica, non vedo perché un AI non possa leggerla.

Nel caso del NY la questione non mi è chiara. Essendo una testata con contenuti a pagamento, immagino che OpenAI abbia un abbonamento per accedere a tutti gli articoli. Quindi, avendo già pagato, perché non può usarli per addestrare un'AI?

Per la parte non a pagamento a maggior ragione.

perché poi quei dati li riutilizzano anche pari pari e spesso sbagliando anche la fonte cosa che potrebbe addirittura portare a un danno d'immagine per il giornale.
ma poi il concetto a me pare sbagliato, questi addestrano qualcosa di privato con il proposito futuro di lucrarci sfruttando informazioni private/di proprietà anche se accessibili a tutti.

GiGBiG

10-01-2024, 19:22

Se compro un libro, lo compro per leggerlo, ...

LA copyright?! :eek: :eek:

La smettiamo di cambiare a cxxxo i generi delle parole che ne hanno già uno fisso da decine di anni?!

Unrue

11-01-2024, 06:11

perché poi quei dati li riutilizzano anche pari pari e spesso sbagliando anche la fonte cosa che potrebbe addirittura portare a un danno d'immagine per il giornale.
ma poi il concetto a me pare sbagliato, questi addestrano qualcosa di privato con il proposito futuro di lucrarci sfruttando informazioni private/di proprietà anche se accessibili a tutti.

Se non è espressamente vietato dai termini d'uso del NYT lo possono fare. A quanto pare non lo è, ma se ne sono resi conto e gli rode il culo, quindi hanno fatto causa sperando in qualche modo di vincerla. Il giusto o sbagliato in termini legali non esiste. Esiste quello che dice la legge, e non sempre le due cose coincidono, specialmente negli USA.

Vedremo come andrà a finire.

zephyr83

15-01-2024, 09:51

Se non è espressamente vietato dai termini d'uso del NYT lo possono fare. A quanto pare non lo è, ma se ne sono resi conto e gli rode il culo, quindi hanno fatto causa sperando in qualche modo di vincerla. Il giusto o sbagliato in termini legali non esiste. Esiste quello che dice la legge, e non sempre le due cose coincidono, specialmente negli USA.

Vedremo come andrà a finire.

no scusa, non si può riportare un articolo di un giornale e poi dire che è di un altro o viceversa, riportare una notizia (tipo una fake news) e poi attribuirla a un determinato giornale. su questo punto c'è poco da cercare scappatoie.
poi c'è sempre la normativa sul Copyright, in questo caso quella USA.