La rete neurale di Google, Deep Mind, ha dato dimostrazione della possibilità di realizzare brevi spezzoni video a partire da un singolo fotogramma o una singola fotografia. E' la stessa Google tramite il profilo Twitter ufficiale di DeepMind a mostrare cosa l'AI è riuscita a fare partendo da una sola immagine.

Il modello di intelligenza artificiale dedicato a questo compito è chiamato "Transframer", un gioco di parole tra "transformer" e "frame" e che si basa concettualmente sullo stesso principio di altri strumenti di intelligenza artificiale quali ad esempio proprio i "Transformer" che partendo da alcune parole possono generare dei testi più o meno completi di senso compiuto.

Transframer realizza i suoi video riuscendo a prevedere l'ambiente circostante e "indovinando" l'aspetto degli elementi e la loro rappresentazione prospettica grazie ad un set di dati di addestramento che gli permettono di immaginare come un oggetto reale debba apparire se visto da un'angolazione differente.

Transframer is a general-purpose generative framework that can handle many image and video tasks in a probabilistic setting. New work shows it excels in video prediction and view synthesis, and can generate 30s videos from a single image: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg — DeepMind (@DeepMind) August 15, 2022

Per quanto i video mostrati siano a bassissima risoluzione, si tratta comunque di un modello di AI particolarmente interessante poiché mostra una qualche capacità di applicazione della percezione della profondità e della prospettiva per realizzare un'immagine verosimile, simile a quanto vediamo spostandoci in un ambiente reale. Se, ovviamente, la prima applicazione possibile che viene in mente per una tecnologia di questo tipo è quella della generazione di ambienti virtuali per videogiochi o esperienze VR, i campi d'impiego possono essere vari e, con essi, anche i risvolti discutibili con la possibilità di sconfinare in maniera ancora più complessa nell'ambito dei deepfake.

Nella conversazione su Twitter un utente ha espresso la volontà di usare Transframer in sinergia con DALL-E di OpenAI, l'algoritmo di generazione di immagini artificiale (come Imagen, della stessa Google) allo scopo di esplorare le possibilità creative per realizzare un video realistico a partire da un'immagine inventata dall'AI: si tratta di un esempio molto interessante delle interazioni tra diversi modelli AI, un filone che si preannuncia come ricco di sorprese negli anni a venire.