Generare immagini a 360° da un testo, il nuovo modello di AI diffusion degli Intel Labs

Generare immagini a 360° da un testo, il nuovo modello di AI diffusion degli Intel Labs

LDM3D è il primo modello di AI generativa in grado di generare una mappatura di profondità. Ha il potenziale di rivoluzionare la creazione di contenuti, il metaverso e le esperienze d'uso digitali.

di pubblicata il , alle 09:11 nel canale Web
Intel
 

Gli Intel Labs, in collaborazione con Blockade Labs, hanno annunciato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione che utilizza l'intelligenza artificiale generativa per creare contenuti visivi 3D realistici.

LMD3D genera una mappatura di profondità usando il processo di diffusione per creare immagini 3D a 360 gradi partendo da informazioni testuali. LDM3D ha il potenziale per rivoluzionare la creazione di contenuti, le applicazioni del metaverso e le esperienze digitali, trasformando molteplici settori, dall'intrattenimento e dai giochi all'architettura e al design.

"L'AI generativa mira ad aumentare e migliorare la creatività umana e a risparmiare tempo. Tuttavia, la maggior parte dei modelli di AI generativa oggi disponibili si limita a generare immagini 2D; solo pochissimi sono in grado di generare immagini 3D da istruzioni testuali. A differenza dei modelli esistenti di latent stable diffusion, LDM3D consente di generare un'immagine e una mappa di profondità da un dato messaggio di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nella creazione delle scene", ha dichiarato Vasudev Lal, AI/ML research scientist di Intel Labs.

Questa ricerca, sottolinea Intel, "potrebbe rivoluzionare il modo in cui interagiamo con i contenuti digitali, consentendo agli utenti di sperimentare le proprie indicazioni testuali in modi precedentemente inconcepibili. Le immagini e le mappe di profondità generate da LDM3D consentono agli utenti di trasformare la descrizione testuale di una serena spiaggia tropicale, di un moderno grattacielo o di un universo fantascientifico in un panorama dettagliato a 360 gradi".

LDM3D è stato istruito su un dataset basato su un sottoinsieme di 10.000 campioni del database LAION-400M, che contiene oltre 400 milioni di coppie immagine-didascalia. Il team ha utilizzato il modello di stima a grande profondità Dense Prediction Transformer (DPT) (sviluppato in precedenza presso Intel Labs) per annotare il corpus di addestramento. Il modello DPT-large fornisce una profondità relativa estremamente accurata per ogni pixel in un'immagine. Il dataset LAION-400M è stato creato per scopi di ricerca con l'obiettivo di formare modelli di test su scala più ampia per i ricercatori e altre comunità interessate.

Il modello LDM3D viene addestrato su un supercomputer Intel AI alimentato da processori Intel Xeon e acceleratori AI Intel Habana Gaudi. Il modello e la pipeline risultanti combinano l'immagine RGB generata e la mappa di profondità per generare viste a 360 gradi per esperienze immersive.

Per dimostrare il potenziale di LDM3D, i ricercatori Intel e Blockade hanno sviluppato DepthFusion, un'applicazione che sfrutta immagini standard RGB in 2D e mappe di profondità per creare esperienze di visualizzazione a 360 gradi interattive. DepthFusion utilizza TouchDesigner, un linguaggio di programmazione visiva basato su nodi per contenuti multimediali interattivi in tempo reale, per trasformare le indicazioni testuali in esperienze digitali interattive e coinvolgenti. LDM3D è un singolo modello per creare sia un'immagine RGB sia la sua mappa di profondità, portando a risparmi sull'uso della memoria e a miglioramenti della latenza.

La presentazione di LDM3D e DepthFusion apre la strada a ulteriori progressi nell'AI generativa multi-vista e nella visione artificiale. Intel continuerà a esplorare l'uso dell'intelligenza artificiale generativa per costruire un solido ecosistema di ricerca e sviluppo open source volto a rendere più accessibile questa tecnologia: LDM3D è disponibile in forma open source tramite HuggingFace. In questo modo i ricercatori e gli sviluppatori nel campo dell'AI potranno migliorare ulteriormente questo sistema e adattarlo ad applicazioni personalizzate.

1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
UtenteHD22 Giugno 2023, 10:23 #1
Eh oramai l'IA non la si ferma piu', migliorera' in maniera esponenziale col passare del tempo, presto o molto tardi ci superera'.
Per questo articolo il tutto e' molto interessante, ora il prossimo passo sara' creare un mondo 3D completo ed animato oltre che vasto per poi usarlo come base nei giochi e moltissimo altro, magari anche per lavoro per ricreare il 3D che Ti serve e poi aggiungerci il render 3D di come sara' in futuro, per progettazione ed altro e vai cosi', ovvio che pure ora si puoì, ma se lo fa un'IA in pochi secondi, magari partende dalla base di una foto e poi tu al 3D aggiungi il tuo modello e via in pochi minuti fai il lavoro di giorni, beh anche qui... grande IA.
Gia' ChatGPT sostituisce una Segretaria, continuiamo cosi' che (forse) anche al lavoro andra' sempre meglio, speriamo.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^