Gemini Omni disponibile da oggi: ecco l'IA multimodale per tutto, foto, audio e clip
L'ecosistema Gemini evolve ulteriormente con Omni Flash, modello nativamente multimodale specializzato nella generazione e nell'editing video conversazionale. Già in distribuzione per utenti Pro e Ultra, la tecnologia sbarca anche su YouTube Shorts
di Nino Grasso pubblicata il 20 Maggio 2026, alle 10:01 nel canale WebGoogle DeepMind ha annunciato il debutto di Gemini Omni, una nuova famiglia di modelli nativamente multimodali progettata per unire le capacità di ragionamento logico dell'ecosistema Gemini con la generazione di contenuti visivi e uditivi.
Il primo modello a raggiungere il mercato è Gemini Omni Flash, una versione focalizzata sulla creazione e sulla manipolazione video che promette di scardinare i flussi di lavoro tradizionali legati al montaggio e alla post-produzione. Il modello è in fase di distribuzione globale per gli abbonati ai piani Google AI Pro e Ultra all'interno dell'app Gemini e in Google Flow, ma l'azienda ha pianificato un rilascio esteso: entro la settimana la tecnologia sarà accessibile gratuitamente anche all'interno di YouTube Shorts e nell'applicazione YouTube Create, mentre nelle prossime settimane verrà estesa a sviluppatori e aziende tramite API.
Gemini Omni promette editing video in linguaggio naturale e simulazione della fisica
L'architettura alla base di Omni consente di elaborare contemporaneamente e in modo combinato input testuali, immagini, tracce audio e clip video preesistenti per generare filmati ad alta risoluzione.
Il vero elemento di discontinuità rispetto ai generatori di immagini e video visti finora risiede nella gestione sequenziale delle istruzioni e nella comprensione del contesto logico-fisico. La caratteristica chiave di Gemini Omni Flash è, infatti, la capacità di gestire il montaggio e la modifica dei filmati attraverso una semplice conversazione in linguaggio naturale, dove ogni comando si sovrappone a quelli precedenti senza perdere la memoria della scena originale.
Nei flussi di editing dimostrati da Big G, l'utente può inserire un video registrato dal vivo e chiedere modifiche radicali o parziali: cambiare i materiali di un oggetto (ad esempio trasformare una scultura in bolle di sapone), aggiungere elementi secondari, variare l'inquadratura, lo stile visivo o l'intero background. Il sistema garantisce la coerenza temporale dei personaggi e preserva la memoria delle azioni avvenute nei frame passati, evitando le classiche allucinazioni visive dei modelli generativi standard.
A fare la differenza è l'integrazione del motore di ragionamento tipico dei modelli testuali di Google. Omni Flash applica nozioni di fisica intuitiva per calcolare il comportamento di forze come la gravità, l'energia cinetica e la dinamica dei fluidi.
Questo approccio permette di generare scene complesse, come una biglia che si muove su una pista a reazione a catena o animazioni in claymation (stop-motion con la plastilina) per spiegare il ripiegamento delle proteine, rispettando i vincoli del mondo reale. Il modello attinge inoltre al bagaglio di competenze storiche e culturali di Gemini, permettendo la creazione di video esplicativi basati su prompt testuali articolati, come sequenze alfabetiche a tempo di musica con grafica personalizzata per ogni lettera.
L'evoluzione della piattaforma prevede l'introduzione programmata di ulteriori formati di output, inclusi audio e immagini statiche. Tra le funzioni più avanzate in fase di test figurano gli avatar digitali personalizzati: gli utenti potranno generare repliche virtuali di se stessi in grado di parlare riproducendo fedelmente il proprio aspetto e la propria voce, uno strumento pensato per automatizzare la creazione di contenuti parlati e la gestione del lip-sync. Sul fronte della sicurezza e della trasparenza, Google ha confermato che ogni singolo contenuto generato tramite la suite Omni integrerà in modo nativo e impercettibile la filigrana digitale SynthID, affiancata dalle credenziali sui contenuti conformi allo standard C2PA.
I sistemi di verifica saranno integrati direttamente nella Ricerca Google, in Chrome e nell'applicazione Gemini per consentire a chiunque di tracciare l'origine sintetica dei filmati.









Recensione realme 16 5G: lo smartphone con Selfie Mirror ha una batteria da 6550mAh
Come rispettare tutte le nuove regole per i monopattini elettrici? La guida per non rischiare sanzioni
DLSS 4.5: con Dynamic Frame Generation e MFG 6X NVIDIA alza la posta
Tricia Wang: "Il rischio più grande degli LLM è perdere contatto con la realtà"
Italian Video Game Awards: ecco la lista dei vincitori delle singole categorie
Edits: l'app di Meta per i Reels diventa più potente con AI assistant, desktop e A/B test in un solo aggiornamento
Oggi su Amazon il misuratore di pressione arteriosa OMRON X2 Essential costa 24,99€, praticamente regalato
Con iOS 27 l'app Passwords diventa agentica: cambia le password compromesse senza intervento manuale
Apple AirPods Pro 3 arrivano a 199€: il modello di punta con cancellazione del rumore al top e rilevamento della frequenza cardiaca
NVIDIA è ancora imbattibile: 9 schede video su 10 vendute portano il suo marchio
La nuova Dodge Charger arriva in Italia: elettrica o termica, sempre con potenza da vendere
Anthropic propone regole per bloccare i modelli AI pericolosi e ammette l'errore su Fable 5
Basta imitazioni: Secretlab adotta la linea dura contro chi copia le sue iconiche sedie da gaming
Il calcio non ha più segreti: l'IA di Google prevede l'azione 8 secondi prima che accada
Coinbase for Agents: ChatGPT e Claude possono ora fare trading di criptovalute
Reddit lancia i video nei commenti: ecco come funzionano e chi può usarli davvero
Google 'Icefish': le TPU di prossima generazione guardano al processo a 2 nanometri di Samsung?









0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".