OpenAI Sora, il nuovo modello IA realizza video credibili partendo da un prompt testuale

OpenAI ha presentato Sora, un modello IA in grado di generare video realistici e fantasiosi a partire da semplici istruzioni testuali. Al momento il sistema è capace di creare scene complesse della durata massima di 1 minuto.

di Nino Grasso pubblicata il 16 Febbraio 2024, alle 10:31 nel canale Web
OpenAI

OpenAI ha svelato al pubblico Sora, il suo nuovo modello di IA text-to-video. La nuova tecnologia permette di trasformare un prompt testuale con descrizioni in linguaggio naturale in video della durata massima di 1 minuto, con un elevato realismo sia visivo che contenutistico. Non è una novità assoluta, ma gli esempi pubblicati da OpenAI sono nettamente più realistici rispetto alle altre tecnologie text-to-video diffuse fino ad oggi.

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

Stando a quanto dichiarato da OpenAI nel sito ufficiale, Sora è in grado di generare "scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo". Ciò significa che l’utente può inserire prompt testuali dettagliati e il sistema sarà capace di convertirli in clip video che rispecchiano fedelmente quanto descritto.

Sora promette video realistici partendo da prompt testuali e immagini fisse

Prompt: Historical footage of California during the gold rush

Ad esempio, se si chiede a Sora di generare un video ambientato nella California dell’epoca della corsa all'oro, la tecnologia produrrà una scena aerea realistica di un paesaggio tipico di quel periodo storico, completa di personaggi, azioni e dettagli coerenti. Analogamente, se si chiede di ricreare situazioni fantasiose o con stili cinematorafici ben precisi, Sora genererà un video credibile partendo dalla richiesta dell'utente.

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.

Prompt: A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.

Il sistema si basa su sofisticate reti neurali che gli consentono di comprendere le leggi della fisica e come gli oggetti esistono e interagiscono nel mondo reale (al netto di qualche imprecisione, come la stessa azienda ammette). È quindi in grado di posizionare i soggetti nelle scene e farli muovere in modo naturale e convincente. Inoltre, Sora sa ricreare con precisione sia gli oggetti che i personaggi, senza tralasciare emozioni e tratti somatici. Oltre a riconoscere il testo testo, Sora può anche generare clip video a partire da immagini fisse, oppure completare spezzoni video esistenti, ad esempio aggiungendo fotogrammi mancanti o prolungando la durata del filmato.

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Al momento Sora è disponibile soltanto ad un ristretto gruppo di "red teamer", cioè ricercatori che ne valutano rischi e potenziali implicazioni negative, e ad alcuni artisti per ottenere feedback. Non è quindi accessibile al grande pubblico, anche se OpenAI non ha escluso un possibile futuro rilascio più ampio. Il lancio di Sora segue quello di DALL-E 3, la tecnologia proprietaria per la generazione di immagini a partire da testo. Entrambi gli strumenti promettono di rivoluzionare il modo in cui si creano e consumano contenuti digitali, anche se destano forti preoccupazioni rispetto ai possibili utilizzi dannosi e alle sfide etiche sollevate dalla creazione di materiale digitale sempre più credibile e sofisticato. Proprio per questo OpenAI sta procedendo con cautela, limitando l’accesso a pochi esperti selezionati.

I migliori sconti su Amazon oggi

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

499.00€ Compra ora

-29%

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

279.00 199.00€ Compra ora

-43%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

149.90 85.03€ Compra ora

Google Pixel 8 scende di prezzo con un coupon da 50 euro. Sconti sia per il 128 che per il 256 GB

QBot fa ancora parlare di sé: tra le nuove varianti ce n'è una camuffata da installer Adobe

TorettoMilano16 Febbraio 2024, 10:33 #1

ho visto pure la nuova feature di tiktok (non credo sia già disponibile), da una immagine statica ci puoi creare un video

incredibile ma anche inquietante

UtenteHD16 Febbraio 2024, 10:51 #2

l?IA sta facendo passi da gigante, e la velocita' di miglioramento sara' piu' accelerata, non la si ferma piu'.
Per la qualita' e realismo dei video, beh per me incredibile.. forse e' vero quello che avevano detto tempo fa, che in futuro sarebbe stato molto piu' difficile capire la realta' da quello che non e'.
Comunque incredibile..

Siux21316 Febbraio 2024, 10:55 #3

da libro a film!

si potranno creare dei libri animati, figo!

pengfei16 Febbraio 2024, 11:25 #4

Aspettando l'equivalente rilasciato da Stability AI ma open sul serio per essere inondati da video zozzi generati

Lì sì che c'è da aver paura per quello che gli utenti si inventeranno

Mo4216 Febbraio 2024, 11:58 #5

Originariamente inviato da: pengfei

Aspettando l'equivalente rilasciato da Stability AI ma open sul serio per essere inondati da video zozzi generati

Lì sì che c'è da aver paura per quello che gli utenti si inventeranno

Esatto. Che poi è il motivo principale per il quale tutto ciò è stato creato, non prendiamoci in giro. Altro che arte...

deejlux16 Febbraio 2024, 12:03 #6

Originariamente inviato da: pengfei

Aspettando l'equivalente rilasciato da Stability AI ma open sul serio per essere inondati da video zozzi generati

Lì sì che c'è da aver paura per quello che gli utenti si inventeranno

Saranno contente le 30enni single di ritrovare in giro "l'unico uomo della mia vita" di cui han pubblicato 300 foto al giorno.

omerook16 Febbraio 2024, 12:09 #7

ottime notizie per chi lavora nel mondo dello spettacolo

https://www.youtube.com/watch?v=ORv9d7s4ktY

Opteranium16 Febbraio 2024, 13:14 #8

direi che possiamo calare il sipario, nulla di ciò che gira in rete o al telefono (visti i casi di truffa con voce fittizia AI-mediata) sarà più attendibile.
Torneremo a fare le cose di persona, mi pare anche giusto, vista la deriva di isolamento allucinante di gente immersa nei social ma estranea al mondo che la circonda

Mo4216 Febbraio 2024, 13:36 #9

Originariamente inviato da: Opteranium

Purtroppo non "torneremo" mai più a quella dimensione sociale. La deriva di cui parli peggiorerà sempre di più. E a meno che il tracollo in vista non sia così "azzerante" da risvegliare le coscienze di chi da tutto questo ci guadagna, nessuno porrà mai un limite a questo periglioso declino socio-culturale. Sarà un'inarrestabile caduta perfettamente tarata per sfruttare al meglio i polli di turno. A questo punto l'unica speranza per rimanere "sani" è provare a ignorare bellamente il tutto, sperando che, grazie al grave e ben diffuso problema di deficit di attenzione, l'attuale generazione si stufi presto di codeste porcherie e passi al prossimo trend del momento. Ma la vedo dura che ciò accada, dato che, come ho già detto, è stato tutto pianificato a tavolino.

GianMi16 Febbraio 2024, 14:45 #10

Non c'è solo OpenAI...

...fatevi un giro qui: https://lumiere-video.github.io/

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

OpenAI Sora, il nuovo modello IA realizza video credibili partendo da un prompt testuale

Sora promette video realistici partendo da prompt testuali e immagini fisse

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

31 Commenti