La Gioconda che rappa grazie a Microsoft. Con VASA-1 il deepfake è servito
Bastano una foto e una clip audio per creare un avatar digitale parlante iperrealistico che può essere usato anche in diretta. Tutto questo è VASA-1, il nuovo modello messo a punto da Microsoft Research.
di Manolo De Agostini pubblicata il 19 Aprile 2024, alle 14:01 nel canale WebMicrosoft
Microsoft ha presentato VASA-1, un nuovo modello di intelligenza artificiale (basato sul framework VASA) capace, partendo da una singola immagine e una clip audio, di creare un avatar realistico sotto forma di video.
VASA-1 può essere utilizzato anche per applicazioni in tempo reale, tanto che un video con un avatar generato dal modello potrebbe essere utilizzato, ad esempio, per una conversazione in videochiamata con Teams, FaceTime o altre tecnologie di live streaming. Secondo Microsoft, il lag è di soli 170 millisecondi.

VASA-1 richiede che l'utente scatti una foto, paragonabile a una foto tessera, e registri una traccia audio per creare un video animato in modo realistico che viene riprodotto in sincronia labiale con il file audio fornito.
I ricercatori di Microsoft spiegano che i precedenti modelli di intelligenza artificiale si sono specializzati principalmente sulla sincronizzazione del labiale, mentre le espressioni facciali, le emozioni, i movimenti della testa e altri dettagli sono stati trascurati.
VASA-1 dovrebbe offrire tutto questo e quindi essere in grado di creare volti animati realistici. I ricercatori lo dimostrano con una selezione di brevi video sul sito web del progetto.
Rapping Mona Lisa. Not sure I wanted to see this... pic.twitter.com/1B8sgm5qQ9
— Martin Hodás (@Hody_MH11) April 18, 2024
Secondo Microsoft, VASA-1 può produrre video con una risoluzione di 512 x 512 pixel e 45 FPS in elaborazione offline o in modalità online a 40 FPS quasi in tempo reale con un ritardo iniziale di soli 170 ms. I ricercatori hanno utilizzato un PC desktop con una NVIDIA GeForce RTX 4090 per le loro dimostrazioni.
La durata del video generato dipende dalla traccia audio inserita, ma grazie alla bassa latenza può anche essere importato in tempo reale per un live streaming. Al posto del proprio volto, i partecipanti vedono quindi un avatar generato da VASA-1.
VASA-1 offre all'utente una serie di controlli per stabilire, ad esempio, la direzione degli occhi, l'orientamento della testa, l'umore dell'avatar creato o la distanza della testa dalla telecamera virtuale. VASA-1 può anche creare personaggi animati o dare vita a personaggi come la Gioconda, sebbene il modello non sia stato addestrato con dati appropriati. Anche lingue diverse dall'inglese possono essere animate con la sincronizzazione del labiale.
I ricercatori di Microsoft sottolineano che, sebbene il modello AI non sia stato creato per ingannare altre persone, potrebbe sicuramente essere utilizzato a tale scopo, ad esempio imitando un'altra persona usando una foto. Ad eccezione della Gioconda, i video dimostrativi di Microsoft hanno usato solo immagini generate dall'intelligenza artificiale utilizzando StyleGAN2 e DALL·E 3.
Attualmente VASA-1 presenta limitazioni nella generazione di video poiché è necessario animare parti del busto a partire dal collo. Potrebbero verificarsi, inoltre, problemi con i capelli o i vestiti e talvolta le texture potrebbero essere generate in modo errato.










HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
Samsung conferma l'arrivo di tre varianti della serie S26: la versione Edge non ci sarà
Sottile, veloce e con un'ottima autonomia: ecco come sarà il nuovo HONOR Magic 8 Pro Air
Il top di gamma compatto di OnePlus è vicino: svelato il periodo di lancio
Perché le GeForce RTX con più VRAM rischiano di sparire dagli scaffali
Più tempo online non equivale a più disagio negli adolescenti: cosa dice uno studio triennale
Amazon Weekend: iPhone 17 Pro, robot aspirapolvere, TV e smartphone top ai prezzi più bassi
TV OLED 65'' top di gamma al 50%: 144Hz, HDMI 2.1 e soundbar inclusa a 999€
Londra si prepara al terremoto 'intelligenza artificiale': l'allarme del sindaco Khan
Scope elettriche in offerta su Amazon: fino a 48.000Pa di potenza a partire da 90€
iPhone 17 Pro a un nuovo minimo storico su Amazon: il modello da 512 GB scende a 1.399€ ed è il vero affare
DJI Mini 4 Pro Fly More Combo a 859€ su Amazon: il mini drone più completo ora conviene davvero
Roborock in offerta su Amazon: QV 35A e Q10 X5+ guidano i ribassi sui robot aspirapolvere con prezzi molto bassi
Crisi della RAM: Intel rassicura sul mercato notebook, prezzi stabili almeno nel breve periodo









7 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infopreferivo quando non c'era e ammiravi la gioconda nella sua posa...
No.
Sono solo video dimostrativi, per farne capire le potenzialita'.
ma se volete rimanere a bocca DAVVERO aperta, guardatevi lo versione originale, rappata dalla hathaway...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".