OpenAI Sora, il nuovo modello IA realizza video credibili partendo da un prompt testuale

OpenAI ha presentato Sora, un modello IA in grado di generare video realistici e fantasiosi a partire da semplici istruzioni testuali. Al momento il sistema è capace di creare scene complesse della durata massima di 1 minuto.
di Nino Grasso pubblicata il 16 Febbraio 2024, alle 10:31 nel canale WebOpenAI
OpenAI ha svelato al pubblico Sora, il suo nuovo modello di IA text-to-video. La nuova tecnologia permette di trasformare un prompt testuale con descrizioni in linguaggio naturale in video della durata massima di 1 minuto, con un elevato realismo sia visivo che contenutistico. Non è una novità assoluta, ma gli esempi pubblicati da OpenAI sono nettamente più realistici rispetto alle altre tecnologie text-to-video diffuse fino ad oggi.
Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.
Stando a quanto dichiarato da OpenAI nel sito ufficiale, Sora è in grado di generare "scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo". Ciò significa che l’utente può inserire prompt testuali dettagliati e il sistema sarà capace di convertirli in clip video che rispecchiano fedelmente quanto descritto.
Sora promette video realistici partendo da prompt testuali e immagini fisse
Prompt: Historical footage of California during the gold rush
Ad esempio, se si chiede a Sora di generare un video ambientato nella California dell’epoca della corsa all'oro, la tecnologia produrrà una scena aerea realistica di un paesaggio tipico di quel periodo storico, completa di personaggi, azioni e dettagli coerenti. Analogamente, se si chiede di ricreare situazioni fantasiose o con stili cinematorafici ben precisi, Sora genererà un video credibile partendo dalla richiesta dell'utente.
Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.
Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.
Prompt: A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.
Il sistema si basa su sofisticate reti neurali che gli consentono di comprendere le leggi della fisica e come gli oggetti esistono e interagiscono nel mondo reale (al netto di qualche imprecisione, come la stessa azienda ammette). È quindi in grado di posizionare i soggetti nelle scene e farli muovere in modo naturale e convincente. Inoltre, Sora sa ricreare con precisione sia gli oggetti che i personaggi, senza tralasciare emozioni e tratti somatici. Oltre a riconoscere il testo testo, Sora può anche generare clip video a partire da immagini fisse, oppure completare spezzoni video esistenti, ad esempio aggiungendo fotogrammi mancanti o prolungando la durata del filmato.
Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Al momento Sora è disponibile soltanto ad un ristretto gruppo di "red teamer", cioè ricercatori che ne valutano rischi e potenziali implicazioni negative, e ad alcuni artisti per ottenere feedback. Non è quindi accessibile al grande pubblico, anche se OpenAI non ha escluso un possibile futuro rilascio più ampio. Il lancio di Sora segue quello di DALL-E 3, la tecnologia proprietaria per la generazione di immagini a partire da testo. Entrambi gli strumenti promettono di rivoluzionare il modo in cui si creano e consumano contenuti digitali, anche se destano forti preoccupazioni rispetto ai possibili utilizzi dannosi e alle sfide etiche sollevate dalla creazione di materiale digitale sempre più credibile e sofisticato. Proprio per questo OpenAI sta procedendo con cautela, limitando l’accesso a pochi esperti selezionati.
31 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoincredibile ma anche inquietante
Per la qualita' e realismo dei video, beh per me incredibile.. forse e' vero quello che avevano detto tempo fa, che in futuro sarebbe stato molto piu' difficile capire la realta' da quello che non e'.
Comunque incredibile..
da libro a film!
si potranno creare dei libri animati, figo!Esatto. Che poi è il motivo principale per il quale tutto ciò è stato creato, non prendiamoci in giro. Altro che arte...
Saranno contente le 30enni single di ritrovare in giro "l'unico uomo della mia vita" di cui han pubblicato 300 foto al giorno.
https://www.youtube.com/watch?v=ORv9d7s4ktY
Torneremo a fare le cose di persona, mi pare anche giusto, vista la deriva di isolamento allucinante di gente immersa nei social ma estranea al mondo che la circonda
Torneremo a fare le cose di persona, mi pare anche giusto, vista la deriva di isolamento allucinante di gente immersa nei social ma estranea al mondo che la circonda
Purtroppo non "torneremo" mai più a quella dimensione sociale. La deriva di cui parli peggiorerà sempre di più. E a meno che il tracollo in vista non sia così "azzerante" da risvegliare le coscienze di chi da tutto questo ci guadagna, nessuno porrà mai un limite a questo periglioso declino socio-culturale. Sarà un'inarrestabile caduta perfettamente tarata per sfruttare al meglio i polli di turno. A questo punto l'unica speranza per rimanere "sani" è provare a ignorare bellamente il tutto, sperando che, grazie al grave e ben diffuso problema di deficit di attenzione, l'attuale generazione si stufi presto di codeste porcherie e passi al prossimo trend del momento. Ma la vedo dura che ciò accada, dato che, come ho già detto, è stato tutto pianificato a tavolino.
Non c'è solo OpenAI...
...fatevi un giro qui: https://lumiere-video.github.io/Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".