ByteDance presenta OmniHuman: l’AI che trasforma una foto in un video realistico

ByteDance ha sviluppato OmniHuman, un sistema di intelligenza artificiale capace di generare video realistici a partire da una singola fotografia. La tecnologia anima il corpo intero, ed è in grado di sincronizzare movimenti e gesti con il parlato
di Rosario Grasso pubblicata il 06 Febbraio 2025, alle 11:01 nel canale WebByteDanceTikTok
ByteDance ha introdotto OmniHuman, un modello di intelligenza artificiale in grado di convertire una singola immagine in un video nel quale il soggetto parla, canta e si muove con naturalezza. Rispetto alle precedenti soluzioni di generazione video basate su AI, OmniHuman è in grado di riprodurre l’intero corpo in movimento e di rendere più credibili le animazioni.
Il sistema utilizza una strategia di addestramento denominata “omni-conditions”, che combina input testuali, audio e movimenti corporei per migliorare la qualità della generazione video. Il dataset di riferimento comprende oltre 18.700 ore di registrazioni umane, il che permette all’AI di apprendere una vasta gamma di espressioni e gestualità. Questa metodologia consente di ottimizzare l’uso delle informazioni disponibili e di ottenere una resa più fluida e coerente nelle animazioni.
Secondo i ricercatori di ByteDance, OmniHuman supera i modelli esistenti in termini di realismo e coerenza del movimento, come dimostrano i loro test interni sulla qualità. Oltre alla creazione di video di persone che parlano, il sistema è in grado di rappresentare soggetti mentre suonano strumenti musicali o eseguono movimenti complessi.
Lo sviluppo di OmniHuman arriva in un momento di forte competizione tra le principali aziende del settore, tra cui Google, Meta e Microsoft, che stanno investendo nella creazione di sistemi avanzati di generazione video. L’introduzione di questa tecnologia offre nuove opportunità per la creazione di contenuti digitali ma solleva anche questioni legate all’uso etico e alla possibilità di manipolazione delle immagini. ByteDance presenterà ufficialmente il progetto in una prossima conferenza dedicata alla visione artificiale, i cui dettagli non sono ancora stati resi noti.
OmniHuman-1
— Gradio (@Gradio) February 4, 2025
Generates extremely realistic human videos based on guiding audio, video or a single image. Results are mindblowing, especially the last one 🤯 pic.twitter.com/s8Lwy6RL8k
ByteDance è una multinazionale tecnologica cinese fondata nel 2012, nota soprattutto per aver creato TikTok, la piattaforma di condivisione video di successo globale. L’azienda sviluppa e gestisce diversi prodotti basati sull’intelligenza artificiale, tra cui l’aggregatore di notizie Toutiao e altri strumenti di intrattenimento digitale. Con sede a Pechino, ByteDance investe massicciamente nella ricerca sull’AI, e ha già sviluppato diverse tecnologie avanzate per la creazione di contenuti, il riconoscimento facciale e la generazione automatica di video.
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".