Migliaia di video YouTube usati senza consenso da Apple, NVIDIA, Anthropic per addestrare l'IA
Secondo un'indagine di Proof News, i sottotitoli di 173.536 video di YouTube, prelevati da più di 48.000 canali, sono stati utilizzati dai pesi massimi della Silicon Valley, tra cui Anthropic, Nvidia, Apple e Salesforce, per addestrare le loro IA.
di Manolo De Agostini pubblicata il 17 Luglio 2024, alle 08:01 nel canale WebIntelligenza ArtificialeYouTube
Secondo un'indagine condotta da Proof News, copubblicata con Wired, oltre 170.000 video di YouTube fanno parte di un enorme dataset chiamato "YouTube Subtitles" che è stato usato per addestrare i sistemi di intelligenza artificiale di società come Apple, Anthropic, NVIDIA e Salesforce.
Il tutto, ovviamente, senza chiedere il consenso a chi ha pubblicato i suddetti video e in potenziale violazione dei termini della piattaforma di casa Alphabet.
Il pacchetto è una raccolta di sottotitoli presi da video di YouTube appartenenti a più di 48.000 canali e non include le immagini dei video. Al suo interno compaiono i sottotitoli di produzioni di famosi creator come MrBeast, PewDiePie e Marques Brownlee, così come clip di organi di informazione come ABC News, BBC e The New York Times.

"Apple ha ottenuto dati per la propria intelligenza artificiale da diverse aziende", ha scritto Brownlee in un post su X. "Una di queste ha raccolto tonnellate di dati/trascrizioni da video di YouTube, compresi i miei. Apple tecnicamente sfugge alla 'colpa' in questo caso, perché non è lei a fare lo scraping. Ma questo sarà un problema in continua evoluzione per molto tempo".
Proof News ha rilasciato uno strumento di ricerca interattivo che permette di vedere quali contenuti appaiono nel dataset.
Il pacchetto fa parte di una raccolta più ampia di materiale dell'organizzazione no-profit EleutherAI chiamata The Pile, un dataset open source che contiene anche set di dati di libri, articoli di Wikipedia e altro ancora.
The Pile è spesso utilizzato e citato nei circoli di intelligenza artificiale ed è noto che in passato è stato usato dalle aziende tecnologiche per la formazione. È stato citato in molteplici cause legali da parte di titolari di proprietà intellettuale contro aziende di intelligenza artificiale e tecnologia. Gli imputati in quelle cause legali, tra cui OpenAI, affermano che questo tipo di scraping è un uso corretto. Le cause legali sono ancora in corso.
Le aziende che operano nel campo dell'intelligenza artificiale raramente sono trasparenti riguardo ai dati che usano per migliorare i loro sistemi. Il modo in cui vengono utilizzati nello specifico i contenuti di YouTube è stato un tema di dibattito negli ultimi mesi.
A marzo, quando OpenAI ha presentato il suo tool strumento di generazione video, Sora, il CTO Mira Murati ha ripetutamente eluso le domande sul fatto che il sistema fosse addestrato sui video di YouTube. "Non entrerò nei dettagli dei dati utilizzati, ma erano dati disponibili al pubblico o concessi in licenza", disse al Wall Street Journal. Pressata specificamente sui contenuti di YouTube, Murati aggiunse che "non ne era sicura".
Il CEO di YouTube Neal Mohan ha affermato che l'uso di contenuti video per addestrare l'intelligenza artificiale - comprese le trascrizioni - violerebbe i termini della piattaforma. Il CEO di Google Sundar Pichai si è detto concorde, per cui se OpenAI avesse effettivamente addestrato Sora sui contenuti di YouTube, avrebbe infranto i termini della piattaforma. "Abbiamo termini e condizioni e ci aspetteremmo che le persone rispettino tali termini e condizioni quando costruisci un prodotto, quindi è così che mi sento al riguardo", ha affermato Pichai.
La nuova indagine richiama l'attenzione sullo scarso controllo che i titolari della proprietà intellettuale hanno su come il loro lavoro viene utilizzatoquando è disponibile sul web.
Il fondatore di EleutherAI, Sid Black, ha dichiarato di aver usato uno script per scaricare i sottotitoli tramite l'API di YouTube, proprio come fa un browser. Un portavoce di Google ha dichiarato a Proof News che la società ha intrapreso "azioni nel corso degli anni per impedire lo scraping abusivo e non autorizzato", ma non ha dato una risposta più specifica.
Jennifer Martinez, portavoce di Anthropic, ha fatto scaricabarile: "The Pile include un sottoinsieme molto piccolo di sottotitoli di YouTube... I termini di YouTube coprono l'uso diretto della sua piattaforma, che è distinto dall'uso del dataset di The Pile. Per quanto riguarda le potenziali violazioni dei termini di servizio di YouTube, dovremmo rimandarvi agli autori di The Pile".










Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Renault Twingo E-Tech Electric: che prezzo!
Lo compri una volta, lo giochi dove vuoi: PlayStation intende seguire l'esempio di Xbox Play Anywhere?
Qiantinuum annuncia Helios, "il computer quantistico più potente al mondo"
Samsung Galaxy S26 Ultra: una sola novità tra i sensori delle fotocamere
Google prepara Gemini 3 Pro e Nano Banana 2: arrivo previsto entro fine anno
TVS non è solo moto e scooter: ecco la e-bike Cilo Tanay HC1 in carbonio
Alexa+ arriva su BMW: gli automobilisti potranno conversare in maniera naturale con l'auto
Gemini Deep Research arriva su Google Finance: la nuova IA proverà ad anticipare il mercato
Rinvii a catena, Marvel 1943: Rise of Hydra slitta oltre il 2026 a data da destinarsi
Xiaomi inaugura uno spazio dedicato ai fan durante le Nitto ATP Finals 2025
Rilasciate le specifiche di Bluetooth 6.2: mai più dongle USB dedicati per tastiere e mouse?
L'obiettivo che mette tutto a fuoco: la rivoluzione ottica arriva dalla Carnegie Mellon
Meta avrebbe raccolto fino al 10% dei ricavi 2024 da inserzioni fraudolente. L’azienda respinge: quadro distorto
NVIDIA DGX Spark e videogiochi? Una pessima idea, anche se funziona
Serie Oppo Reno15 confermata: arriva il 10 novembre in Cina con fotocamera da 200 MP









0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".