Sora: i video sono realistici, ma da dove arrivano i dati di addestramento?

Sora: i video sono realistici, ma da dove arrivano i dati di addestramento?

Lo strumento di generazione video sviluppato da OpenAI stupisce per la capacità di ricreare con precisione scene simili a film, serie e videogiochi famosi. Restano però irrisolti i dubbi sul tipo di contenuti utilizzati per addestrare il sistema e sulla questione del copyright

di pubblicata il , alle 15:01 nel canale Web
Sora AIOpenAI
 

Lo scorso dicembre OpenAI aveva mostrato Sora, la sua AI generativa capace di realizzare clip video a partire da un semplice prompt testuale. Sora, pur non immune da qualche imprecisione, aveva impressionato fin da subito per la sua capacità di ricreare scene del tutto plausibili, stabilendo di fatto un nuovo paradigma per le sue potenziali applicazioni e implicazioni per il mondo della comunicazione visuale, dall'intrattenimento all'informazione.

L'origine dei dati usati per addestrare la tecnologia rimane in gran parte sconosciuta. E' però abbastanza scontato immaginare che la stessa pratica di utilizzare enormi quantità di testi online, raccolti non necessariamente con consenso diretto, sia stata utilizzata anche con Sora. La stessa OpenAI ha dichiarato in varie occasioni che il modello è stato addestrato a partire da una grande varietà di formati visivi, inclusi vertical video, clip più lunghe e ad alta risoluzione, combinando materiale "pubblicamente disponibile e concesso in licenza". Non è stato però specificato quali contenuti siano stati effettivamente utilizzati.

Il Washington Post ha però mostrato come Sora sia capace di generare sequenze che riproducono fedelmente stili e scene di celebri serie TV come Wednesday di Netflix, videogiochi noti come Minecraft, loghi animati di case cinematografiche come Warner Bros. e DreamWorks, oltre a contenuti riconducibili a piattaforme come NBA, TikTok e Twitch. Questa fedele somiglianza potrebbe essere indizio del fatto che durante le operazioni di addestramento a Sora siano state somministrate versioni originali di questi materiali.

Il fatto che un modello generativo sia per lo più incline a "mimare" ciò di cui è "venuto a conoscenza" durante l'addestramento non dimostra necessariamente nulla, nemmeno il fatto che il materiale di training sia necessariamente originale e usato senza autorizzazione: spesso infatti sulle piattaforme social finiscono video, spezzoni di film e serie televisive senza alcun consenso dei detentori dei diritti, e talvolta anche spezzoni comprendenti proprio i titoli di testa dei film, contenenti appunto i loghi degli studi cinematografici. Dal canto loro realtà come Netflix e Twitch hanno negato qualsiasi collaborazione o cessione di contenuti a OpenAI.

Il Washington Post cita però uno studio della Data Provenance Initiative secondo il quale oltre il 70% dei dataset video pubblici utilizzati dalle aziende IA proviene da contenuti estratti da YouTube, questo anche se i termini del servizio vietano in maniera esplicita il download e l'uso senza permesso. Il nodo dell'origine dei dati di addestramento di Sora resta, al momento, irrisolto. Al momento OpenAI non è ancora stata presa di mira da alcuna causa legale per Sora, ma deve affrontare diversi contenziosi per l'uso di testi e di audio nell'addestramento dei modelli linguistici. L'azienda di Sam Altman si difende affermando che l'uso dei dati avviene nel rispetto del principio di "fair use" e con l'impiego di sistemi che evitano la riproduzione pedissequa dei materiali di addestramento. C'è, però, una grande verità: la mancanza di trasparenza che permea l'intero settore, senza uno standard pubblico e norme capaci di dare chiarezza e, dall'altro lato, la reticenza delle aziende AI a rivelare quali dataset hanno utilizzato.

Ovviamente il punto centrale è la protezione della proprietà intellettuale e, con essa, il riconoscimento per gli autori/creatori di contenuti. Lo stesso Sam Altman ha dichiarato in più occasioni di sostenere modelli di compensazione per gli artisti, sottolineando che “le persone devono essere pagate”. Resta tuttavia da chiarire in che modo un simile approccio possa essere implementato in un settore in rapida evoluzione, tra pressioni legali, resistenze delle major e l’espansione del mercato dei contenuti generati dall’intelligenza artificiale. Senza dimenticare che le dichiarazioni, fino a che rimangono tali, costano poco.

31 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Unrue22 Settembre 2025, 15:06 #1
Ma ovvio che hanno usato sorgenti non lecite. Poi schiereranno stuoli di avvocati e un accordo lo trovano.

E' sempre così con gli LLM. Prima setacci, poi se ti beccano, paghi. Ma intanto il modello lo hai addestrato.
Gnubbolo22 Settembre 2025, 16:44 #2
la cosa migliore è custodire la propria base di dati in Vietnam e lasciare qualche specchietto per allodole in casa propria..
SpyroTSK23 Settembre 2025, 09:16 #3
Realistici?
0 impronte in tutti, inoltre nel primo video c'è una cosa strana che si muove da dx a sx.
Il secondo sembra che i mammut facciano drift (girano a dx e vanno dritti)
Nel terzo video i mammut sono pietrificati.
Nel quarto video, stanno fluttuando.
fukka7523 Settembre 2025, 09:46 #4
per un attimo (non avevo la più pallida idea di cosa fosse Sora, ora lo so) mi sono chiesto quali video girati a Sora (per chi non lo sapesse, comune della provincia di Frosinone) fossero così importanti da dedicare loro un articolo su HWU
barzokk23 Settembre 2025, 09:58 #5
Originariamente inviato da: SpyroTSK
Realistici?
0 impronte in tutti, inoltre nel primo video c'è una cosa strana che si muove da dx a sx.
Il secondo sembra che i mammut facciano drift (girano a dx e vanno dritti)
Nel terzo video i mammut sono pietrificati.
Nel quarto video, stanno fluttuando.

le impronte delle zampe, che appaiono e scompaiono sono inquietanti...
purtroppo anche questo ha il difetto intrinseco delle AI, le allucinazioni
Unrue23 Settembre 2025, 10:29 #6
Originariamente inviato da: SpyroTSK
Realistici?
0 impronte in tutti, inoltre nel primo video c'è una cosa strana che si muove da dx a sx.
Il secondo sembra che i mammut facciano drift (girano a dx e vanno dritti)
Nel terzo video i mammut sono pietrificati.
Nel quarto video, stanno fluttuando.


Quegli esempi in particolare non sono venuti molto bene, ma se cerchi in giro vedi della roba spettacolare:

https://www.youtube.com/watch?v=HK6y8DAPN_0
barzokk23 Settembre 2025, 16:28 #7
Originariamente inviato da: Unrue
Quegli esempi in particolare non sono venuti molto bene, ma se cerchi in giro vedi della roba spettacolare:

https://www.youtube.com/watch?v=HK6y8DAPN_0

cristo stai scherzando .... ne ho guardato 30 secondi...
inquietante...
la zampa del cane di sinistra, diventa una zampa del cane al centro...
allucinazioni da LSD
https://youtu.be/HK6y8DAPN_0?t=33
Unrue24 Settembre 2025, 07:49 #8
Originariamente inviato da: barzokk
cristo stai scherzando .... ne ho guardato 30 secondi...
inquietante...
la zampa del cane di sinistra, diventa una zampa del cane al centro...
allucinazioni da LSD
https://youtu.be/HK6y8DAPN_0?t=33


Come sempre si guarda il dito e non la luna. Nessuno dice che siano perfetti, ma bisogna capire che sono cose inimmaginabili fino a poco tempo fa e le potenzialità di miglioramento sono infinite.

Dicevano lo stesso anche delle mani che l'AI faceva male e tutti a guardare solo quello. Adesso le fa bene e tutti zitti. Chiaramente poi dipende anche dal modello, come è stato addestrato, dal prompt ecc. Non è che qualunque cosa prendi funziona perfettamente. Se si guarda il singolo difetto per fare i pignoloni e si ignora tutto il resto, direi che si ha una visione quantomeno limitata.

Un pò come quello che prende un LLM generico e pretende che crei codice perfettamente per qualunque linguaggio frignando in giro, ignorando che ci sono quelli specializzati che lo fanno molto meglio..
randorama24 Settembre 2025, 08:35 #9
Originariamente inviato da: Unrue
Come sempre si guarda il dito e non la luna. Nessuno dice che siano perfetti, ma bisogna capire che sono cose inimmaginabili fino a poco tempo fa e le potenzialità di miglioramento sono infinite.

sono gli stessi che 150 anni fa avrebbero perculato edison "perchè le tue lampadine si bruciano subito"...
barzokk24 Settembre 2025, 08:51 #10
Originariamente inviato da: Unrue
Come sempre si guarda il dito e non la luna. Nessuno dice che siano perfetti, ma bisogna capire che sono cose inimmaginabili fino a poco tempo fa e le potenzialità di miglioramento sono infinite.

Dicevano lo stesso anche delle mani che l'AI faceva male e tutti a guardare solo quello. Adesso le fa bene e tutti zitti. Chiaramente poi dipende anche dal modello, come è stato addestrato, dal prompt ecc. Non è che qualunque cosa prendi funziona perfettamente. Se si guarda il singolo difetto per fare i pignoloni e si ignora tutto il resto, direi che si ha una visione quantomeno limitata.

Un pò come quello che prende un LLM generico e pretende che crei codice perfettamente per qualunque linguaggio frignando in giro, ignorando che ci sono quelli specializzati che lo fanno molto meglio..

purtroppo temo che come negli LLM le allucinazioni siano inevitabili
non credo che si andrà molto avanti (con queste tecnologie, intendo dire)
per le mani, dopo i perculamenti, avranno implementato uno specifico check numero dita


Originariamente inviato da: randorama
sono gli stessi che 150 anni fa avrebbero perculato edison "perchè le tue lampadine si bruciano subito"...

beh non vorrei tornare al "gomblotto dei filamenti", ma in realtà una volta le lampadine non si bruciavano
Disclaimer: conoscevo davvero uno che produceva i filamenti

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^