La Gioconda che rappa grazie a Microsoft. Con VASA-1 il deepfake è servito

Bastano una foto e una clip audio per creare un avatar digitale parlante iperrealistico che può essere usato anche in diretta. Tutto questo è VASA-1, il nuovo modello messo a punto da Microsoft Research.

di Manolo De Agostini pubblicata il 19 Aprile 2024, alle 14:01 nel canale Web
Microsoft

Microsoft ha presentato VASA-1, un nuovo modello di intelligenza artificiale (basato sul framework VASA) capace, partendo da una singola immagine e una clip audio, di creare un avatar realistico sotto forma di video.

VASA-1 può essere utilizzato anche per applicazioni in tempo reale, tanto che un video con un avatar generato dal modello potrebbe essere utilizzato, ad esempio, per una conversazione in videochiamata con Teams, FaceTime o altre tecnologie di live streaming. Secondo Microsoft, il lag è di soli 170 millisecondi.

VASA-1 richiede che l'utente scatti una foto, paragonabile a una foto tessera, e registri una traccia audio per creare un video animato in modo realistico che viene riprodotto in sincronia labiale con il file audio fornito.

I ricercatori di Microsoft spiegano che i precedenti modelli di intelligenza artificiale si sono specializzati principalmente sulla sincronizzazione del labiale, mentre le espressioni facciali, le emozioni, i movimenti della testa e altri dettagli sono stati trascurati.

VASA-1 dovrebbe offrire tutto questo e quindi essere in grado di creare volti animati realistici. I ricercatori lo dimostrano con una selezione di brevi video sul sito web del progetto.

Rapping Mona Lisa. Not sure I wanted to see this... pic.twitter.com/1B8sgm5qQ9
— Martin Hodás (@Hody_MH11) April 18, 2024

Secondo Microsoft, VASA-1 può produrre video con una risoluzione di 512 x 512 pixel e 45 FPS in elaborazione offline o in modalità online a 40 FPS quasi in tempo reale con un ritardo iniziale di soli 170 ms. I ricercatori hanno utilizzato un PC desktop con una NVIDIA GeForce RTX 4090 per le loro dimostrazioni.

La durata del video generato dipende dalla traccia audio inserita, ma grazie alla bassa latenza può anche essere importato in tempo reale per un live streaming. Al posto del proprio volto, i partecipanti vedono quindi un avatar generato da VASA-1.

VASA-1 offre all'utente una serie di controlli per stabilire, ad esempio, la direzione degli occhi, l'orientamento della testa, l'umore dell'avatar creato o la distanza della testa dalla telecamera virtuale. VASA-1 può anche creare personaggi animati o dare vita a personaggi come la Gioconda, sebbene il modello non sia stato addestrato con dati appropriati. Anche lingue diverse dall'inglese possono essere animate con la sincronizzazione del labiale.

I ricercatori di Microsoft sottolineano che, sebbene il modello AI non sia stato creato per ingannare altre persone, potrebbe sicuramente essere utilizzato a tale scopo, ad esempio imitando un'altra persona usando una foto. Ad eccezione della Gioconda, i video dimostrativi di Microsoft hanno usato solo immagini generate dall'intelligenza artificiale utilizzando StyleGAN2 e DALL·E 3.

Attualmente VASA-1 presenta limitazioni nella generazione di video poiché è necessario animare parti del busto a partire dal collo. Potrebbero verificarsi, inoltre, problemi con i capelli o i vestiti e talvolta le texture potrebbero essere generate in modo errato.

I migliori sconti su Amazon oggi

-42%

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

76.90 44.90€ Compra ora

-13%

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

239.00 209.00€ Compra ora

-13%

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

Compra ora

Kingdom Come Deliverance II: il seguito dell'acclamato RPG ad ambientazione medievale arriva nel 2024

Netflix aumenta ancora i suoi abbonati e in futuro più pubblicità e eventi live

TorettoMilano19 Aprile 2024, 14:02 #1

mi pare tiktok pure abbia un tool per animare immagini, assurdo il livello di oggi. c'è pure adobe ad aver mandato dei video dimostrativi dei propri tool IA per modificare video

DjLode19 Aprile 2024, 14:07 #2

Sembra Gerry Scotti coi capelli

appleroof19 Aprile 2024, 14:56 #3

"Not sure I wanted to see this..."

nosio20 Aprile 2024, 17:40 #4

serve a questo l'AI?
preferivo quando non c'era e ammiravi la gioconda nella sua posa...

danylo20 Aprile 2024, 19:22 #5

Originariamente inviato da: nosio

serve a questo l'AI?

No.
Sono solo video dimostrativi, per farne capire le potenzialita'.

randorama22 Aprile 2024, 15:17 #6

carino.
ma se volete rimanere a bocca DAVVERO aperta, guardatevi lo versione originale, rappata dalla hathaway...

gsorrentino02 Maggio 2024, 12:58 #7

Sarei curioso di chiedere a Leonardo da Vinci cosa ne pensa...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Fujifilm GFX100RF: la 'compatta' medio formato

GTA 6: ecco tutte le immagini dei personaggi

Lumix S9: alla prova in terra natale

Sony FE 50-150mm F2 G Master. il bokeh monster ora è zoom

Mazda 6e è l'elettrica della svolta

Star Wars: Bruno

I nuovi notebook Acer al debutto al Computex 2025 Al Computex 2025 di Taipei Acer mostra una completa gamma di soluzioni notebook delle famiglie Swift, Aspire, Predator e Nitro pensati per gli utenti consumer oltre...

HUAWEI WATCH FIT 4 Pro: lo smartwatch che non ha rivali a questo prezzo! HUAWEI è capace di sorprendere ancora e quest’anno lo fa con questo nuovo smartwatch WATCH FIT 4 Pro che coniuga un design elegante e moderno con funzionalità di...

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Nutanix .NEXT: così l'azienda vuole aiutare i clienti a limitare la dipendenza da Broadcom All'evento globale di Nutanix l'azienda ha presentato una serie di novità mirate a ridurre la dipendenza dalle soluzioni di VMware/Broadcom. Arriva Cloud Native...

Test NIU RQi Sport, vi spieghiamo perché una moto così è perfetta Abbiamo potuto provare la moto elettrica di NIU per diversi giorni, ed abbiamo capito davvero il senso di queste moto moderne e semplici da utilizzare

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

La Gioconda che rappa grazie a Microsoft. Con VASA-1 il deepfake è servito

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

7 Commenti