Gemini Omni disponibile da oggi: ecco l'IA multimodale per tutto, foto, audio e clip

Gemini Omni disponibile da oggi: ecco l'IA multimodale per tutto, foto, audio e clip

L'ecosistema Gemini evolve ulteriormente con Omni Flash, modello nativamente multimodale specializzato nella generazione e nell'editing video conversazionale. Già in distribuzione per utenti Pro e Ultra, la tecnologia sbarca anche su YouTube Shorts

di pubblicata il , alle 10:01 nel canale Web
Google
 

Google DeepMind ha annunciato il debutto di Gemini Omni, una nuova famiglia di modelli nativamente multimodali progettata per unire le capacità di ragionamento logico dell'ecosistema Gemini con la generazione di contenuti visivi e uditivi.

Il primo modello a raggiungere il mercato è Gemini Omni Flash, una versione focalizzata sulla creazione e sulla manipolazione video che promette di scardinare i flussi di lavoro tradizionali legati al montaggio e alla post-produzione. Il modello è in fase di distribuzione globale per gli abbonati ai piani Google AI Pro e Ultra all'interno dell'app Gemini e in Google Flow, ma l'azienda ha pianificato un rilascio esteso: entro la settimana la tecnologia sarà accessibile gratuitamente anche all'interno di YouTube Shorts e nell'applicazione YouTube Create, mentre nelle prossime settimane verrà estesa a sviluppatori e aziende tramite API.

Gemini Omni promette editing video in linguaggio naturale e simulazione della fisica

L'architettura alla base di Omni consente di elaborare contemporaneamente e in modo combinato input testuali, immagini, tracce audio e clip video preesistenti per generare filmati ad alta risoluzione.

Il vero elemento di discontinuità rispetto ai generatori di immagini e video visti finora risiede nella gestione sequenziale delle istruzioni e nella comprensione del contesto logico-fisico. La caratteristica chiave di Gemini Omni Flash è, infatti, la capacità di gestire il montaggio e la modifica dei filmati attraverso una semplice conversazione in linguaggio naturale, dove ogni comando si sovrappone a quelli precedenti senza perdere la memoria della scena originale.

Nei flussi di editing dimostrati da Big G, l'utente può inserire un video registrato dal vivo e chiedere modifiche radicali o parziali: cambiare i materiali di un oggetto (ad esempio trasformare una scultura in bolle di sapone), aggiungere elementi secondari, variare l'inquadratura, lo stile visivo o l'intero background. Il sistema garantisce la coerenza temporale dei personaggi e preserva la memoria delle azioni avvenute nei frame passati, evitando le classiche allucinazioni visive dei modelli generativi standard.

A fare la differenza è l'integrazione del motore di ragionamento tipico dei modelli testuali di Google. Omni Flash applica nozioni di fisica intuitiva per calcolare il comportamento di forze come la gravità, l'energia cinetica e la dinamica dei fluidi.

Questo approccio permette di generare scene complesse, come una biglia che si muove su una pista a reazione a catena o animazioni in claymation (stop-motion con la plastilina) per spiegare il ripiegamento delle proteine, rispettando i vincoli del mondo reale. Il modello attinge inoltre al bagaglio di competenze storiche e culturali di Gemini, permettendo la creazione di video esplicativi basati su prompt testuali articolati, come sequenze alfabetiche a tempo di musica con grafica personalizzata per ogni lettera.

L'evoluzione della piattaforma prevede l'introduzione programmata di ulteriori formati di output, inclusi audio e immagini statiche. Tra le funzioni più avanzate in fase di test figurano gli avatar digitali personalizzati: gli utenti potranno generare repliche virtuali di se stessi in grado di parlare riproducendo fedelmente il proprio aspetto e la propria voce, uno strumento pensato per automatizzare la creazione di contenuti parlati e la gestione del lip-sync. Sul fronte della sicurezza e della trasparenza, Google ha confermato che ogni singolo contenuto generato tramite la suite Omni integrerà in modo nativo e impercettibile la filigrana digitale SynthID, affiancata dalle credenziali sui contenuti conformi allo standard C2PA.

I sistemi di verifica saranno integrati direttamente nella Ricerca Google, in Chrome e nell'applicazione Gemini per consentire a chiunque di tracciare l'origine sintetica dei filmati.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^