Migliaia di video YouTube usati senza consenso da Apple, NVIDIA, Anthropic per addestrare l'IA

Secondo un'indagine di Proof News, i sottotitoli di 173.536 video di YouTube, prelevati da più di 48.000 canali, sono stati utilizzati dai pesi massimi della Silicon Valley, tra cui Anthropic, Nvidia, Apple e Salesforce, per addestrare le loro IA.
di Manolo De Agostini pubblicata il 17 Luglio 2024, alle 08:01 nel canale WebIntelligenza ArtificialeYouTube
Secondo un'indagine condotta da Proof News, copubblicata con Wired, oltre 170.000 video di YouTube fanno parte di un enorme dataset chiamato "YouTube Subtitles" che è stato usato per addestrare i sistemi di intelligenza artificiale di società come Apple, Anthropic, NVIDIA e Salesforce.
Il tutto, ovviamente, senza chiedere il consenso a chi ha pubblicato i suddetti video e in potenziale violazione dei termini della piattaforma di casa Alphabet.
Il pacchetto è una raccolta di sottotitoli presi da video di YouTube appartenenti a più di 48.000 canali e non include le immagini dei video. Al suo interno compaiono i sottotitoli di produzioni di famosi creator come MrBeast, PewDiePie e Marques Brownlee, così come clip di organi di informazione come ABC News, BBC e The New York Times.
"Apple ha ottenuto dati per la propria intelligenza artificiale da diverse aziende", ha scritto Brownlee in un post su X. "Una di queste ha raccolto tonnellate di dati/trascrizioni da video di YouTube, compresi i miei. Apple tecnicamente sfugge alla 'colpa' in questo caso, perché non è lei a fare lo scraping. Ma questo sarà un problema in continua evoluzione per molto tempo".
Proof News ha rilasciato uno strumento di ricerca interattivo che permette di vedere quali contenuti appaiono nel dataset.
Il pacchetto fa parte di una raccolta più ampia di materiale dell'organizzazione no-profit EleutherAI chiamata The Pile, un dataset open source che contiene anche set di dati di libri, articoli di Wikipedia e altro ancora.
The Pile è spesso utilizzato e citato nei circoli di intelligenza artificiale ed è noto che in passato è stato usato dalle aziende tecnologiche per la formazione. È stato citato in molteplici cause legali da parte di titolari di proprietà intellettuale contro aziende di intelligenza artificiale e tecnologia. Gli imputati in quelle cause legali, tra cui OpenAI, affermano che questo tipo di scraping è un uso corretto. Le cause legali sono ancora in corso.
Le aziende che operano nel campo dell'intelligenza artificiale raramente sono trasparenti riguardo ai dati che usano per migliorare i loro sistemi. Il modo in cui vengono utilizzati nello specifico i contenuti di YouTube è stato un tema di dibattito negli ultimi mesi.
A marzo, quando OpenAI ha presentato il suo tool strumento di generazione video, Sora, il CTO Mira Murati ha ripetutamente eluso le domande sul fatto che il sistema fosse addestrato sui video di YouTube. "Non entrerò nei dettagli dei dati utilizzati, ma erano dati disponibili al pubblico o concessi in licenza", disse al Wall Street Journal. Pressata specificamente sui contenuti di YouTube, Murati aggiunse che "non ne era sicura".
Il CEO di YouTube Neal Mohan ha affermato che l'uso di contenuti video per addestrare l'intelligenza artificiale - comprese le trascrizioni - violerebbe i termini della piattaforma. Il CEO di Google Sundar Pichai si è detto concorde, per cui se OpenAI avesse effettivamente addestrato Sora sui contenuti di YouTube, avrebbe infranto i termini della piattaforma. "Abbiamo termini e condizioni e ci aspetteremmo che le persone rispettino tali termini e condizioni quando costruisci un prodotto, quindi è così che mi sento al riguardo", ha affermato Pichai.
La nuova indagine richiama l'attenzione sullo scarso controllo che i titolari della proprietà intellettuale hanno su come il loro lavoro viene utilizzatoquando è disponibile sul web.
Il fondatore di EleutherAI, Sid Black, ha dichiarato di aver usato uno script per scaricare i sottotitoli tramite l'API di YouTube, proprio come fa un browser. Un portavoce di Google ha dichiarato a Proof News che la società ha intrapreso "azioni nel corso degli anni per impedire lo scraping abusivo e non autorizzato", ma non ha dato una risposta più specifica.
Jennifer Martinez, portavoce di Anthropic, ha fatto scaricabarile: "The Pile include un sottoinsieme molto piccolo di sottotitoli di YouTube... I termini di YouTube coprono l'uso diretto della sua piattaforma, che è distinto dall'uso del dataset di The Pile. Per quanto riguarda le potenziali violazioni dei termini di servizio di YouTube, dovremmo rimandarvi agli autori di The Pile".
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".