Intel Labs, nuovi modelli AI per la computer vision con VI-Depth 1.0 e MiDaS 3.1

VI-Depth 1.0 e MiDaS 3.1 sono i due nuovi modelli AI open source messi a punto dagli Intel Labs per migliorare la "depth estimation" nel settore della computer vision. Entrambi sono disponibili su Github.

di Manolo De Agostini pubblicata il 23 Marzo 2023, alle 17:11 nel canale Web
Intel

Gli Intel Labs hanno messo a punto due nuovi modelli AI per la computer vision chiamati VI-Depth 1.0 e MiDaS 3.1. I due nuovi modelli, open source con licenza MIT, sono disponibili su GitHub (qui e qui) e puntano a migliorare la "depth estimation", cioè la stima della profondità.

Che si tratti di robotica, realtà aumentata o virtuale, la stima della profondità è un compito di computer vision complesso ma essenziale in un'ampia gamma di applicazioni. Le attuali soluzioni spesso faticano a stimare correttamente le distanze, un elemento cruciale per qualsiasi tecnologia robotica che deve muoversi in uno spazio ed evitare ostacoli basandosi sulla navigazione visiva.

In soccorso della comunità degli sviluppatori arrivano i ricercatori degli Intel Labs con due modelli AI dedicati alla stima di profondità: una dedicato alla "visual-inertial depth estimation" e uno alla "robust relative depth estimation" (RDE).

L'ultimo modello RDE, MiDaS 3.1, usa una sola immagine come input. Grazie alla sua formazione su un set di dati ampio e diversificato, può adattarsi in modo efficiente a una gamma più ampia di attività e ambienti. L'ultima versione di MiDaS migliora la precisione del modello per RDE di circa il 30%.

MiDaS è stato incorporato in molti progetti, in particolare Stable Diffusion 2.0, dove abilita la funzione depth-to-image che deduce la profondità di un'immagine di input e quindi genera nuove immagini usando sia il testo che le informazioni sulla profondità.

Ad esempio, il creator Scottie Fox ha usato una combinazione di Stable Diffusion e MiDaS per creare un ambiente VR a 360 gradi. Questa tecnologia potrebbe portare a nuove applicazioni virtuali, tra cui la ricostruzione della scena del crimine per casi giudiziari, ambienti terapeutici per l'assistenza sanitaria ed esperienze di gioco immersive.

Quanto a RDE, sebbene abbia una buona generalizzabilità, la mancanza di scala ne riduce l'utilità in quelle attività che richiedono profondità metrica, come la mappatura, la pianificazione, la navigazione, il riconoscimento di oggetti, la ricostruzione 3D e l'editing di immagini. I ricercatori degli Intel Labs stanno affrontando questo problema con VI-Depth, un altro modello di intelligenza artificiale che fornisce una stima accurata della profondità.

VI-Depth è una pipeline visiva-inerziale per la stima della profondità che integra la stima della profondità monoculare e l'odometria visivo-inerziale (VIO) per produrre stime della profondità densa con una scala metrica. Questo approccio fornisce una stima accurata della profondità, che può aiutare nella ricostruzione della scena, nella mappatura e nella manipolazione degli oggetti.

L'integrazione di dati inerziali può aiutare a risolvere le ambiguità nella scala. La maggior parte dei dispositivi mobili contiene già unità di misura inerziale (IMU). L'allineamento globale determina la scala globale appropriata, mentre l'allineamento della scala densa (SML) opera localmente e spinge o trascina le regioni verso la profondità metrica corretta.

La rete SML sfrutta MiDaS come spina dorsale del codificatore. Nella pipeline modulare, VI-Depth combina la stima della profondità basata sui dati con il modello di previsione della profondità relativa di MiDaS, insieme all'unità di misurazione del sensore IMU. La combinazione di fonti di dati consente a VI-Depth di generare una profondità metrica densa più affidabile per ogni pixel in un'immagine.

I migliori sconti su Amazon oggi

-42%

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

76.90 44.90€ Compra ora

-42%

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

Compra ora

-21%

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

239.00 189.00€ Compra ora

Huawei Mate X3 è ufficiale! Il pieghevole più sottile e leggero di tutti. Prezzo e dettagli

Il modello di IA dell'università di Stanford è come ChatGPT ma open-source e con training da 600 dollari

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

GTA 6: ecco tutte le immagini dei personaggi

Lumix S9: alla prova in terra natale

Sony FE 50-150mm F2 G Master. il bokeh monster ora è zoom

Mazda 6e è l'elettrica della svolta

Star Wars: Bruno

114

World Press Photo: i vincitori del Contest 2025

ASUS ROG Astral RTX 5090 overclock: spremere il massimo da Blackwell e GDDR7 GeForce RTX 5090 è la scheda video più veloce di questa generazione, un mostro di potenza che però nasconde un certo margine, accessibile anche a chi non si diletta...

Recensione OPPO Reno13 FS vs OPPO A5 Pro 5G: chi è il migliore e perché? OPPO Reno13 FS punta su display AMOLED FHD+, fotocamera versatile e prestazioni elevate, mentre OPPO A5 Pro 5G offre resistenza militare, batteria da 5800mAh e funzioni...

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Appian World 2025: AI agent e processi, un connubio perfetto Dalla visione del CEO Matt Calkins alla concretezza della piattaforma: ad Appian World 2025 prende forma un modello di intelligenza artificiale agentica, governata...

Renault Emblème: la familiare del futuro elettrica, sostenibile e riciclabile Con il progetto Emblème Renault propone una vettura familiare importante nelle dimensiooni, che abbina batteria elettrica ad un'alimentazione alternativa a idrogeno...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Intel Labs, nuovi modelli AI per la computer vision con VI-Depth 1.0 e MiDaS 3.1

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

0 Commenti