Meta annuncia CM3leon: la 'più efficiente' IA generativa per la creazione di immagini

Meta annuncia CM3leon: la 'più efficiente' IA generativa per la creazione di immagini

Diversamente dai modelli attuali usati nelle tecnologie text-to-image basati su IA generativa, CM3leon utilizza un modello autoregressivo basato su token

di pubblicata il , alle 10:01 nel canale Web
Meta
 

Meta, l'azienda di Mark Zuckerberg, ha annunciato CM3leon (si legge come la parola inglese "chameleon", camaleonte). Si tratta di una IA generativa pensata per la creazione di immagini partendo da un prompt testuale, che può anche fare il viceversa: raccontare in testo un'immagine. Quest'ultima funzione può essere utile per generare didascalie delle immagini, con le finalità più disparate.

CM3leon

Se una tecnologia del genere poteva sbalordire alla fine dello scorso anno, oggi siamo molto più preparati a una notizia del genere. Un'IA capace di generare immagini non è più una novità sorprendente e fino ad oggi abbiamo visto diverse interpretazioni, tutte molto interessanti, della tecnologia con Stable Diffusion, DALL-E, Midjourney, Bing Image Creator, ormai ampiamente disponibili al pubblico. Meta, però, definisce la sua tecnologia come la più efficiente di tutte.

CM3leon, un nuovo approccio per le tecnolgoie text-to-image basate su IA

Le tecnologie text-to-image oggi si basano in gran parte sull'uso di modelli di diffusione, che vengono sfruttati per creare l'immagine finale. CM3leon di Meta adotta invece un approccio diverso, cioè un modello autoregressivo basato su token: "I modelli di diffusione hanno recentemente dominato le attività di generazione di immagini a causa delle loro prestazioni e dei costi computazionali relativamente modesti", spiega Meta in questo documento di ricerca. "Al contrario, i modelli autoregressivi basati su token sono noti per produrre risultati con ottime prestazioni, ma in particolare possono offrire una coerenza dell'immagine globale ancora migliore".

CM3leon

Questo tipo di modello, ammette l'azienda, è "molto più costoso da addestrare e utilizzare per l'inferenza". Con CM3leon, però, i ricercatori di Meta sono stati in grado di dimostrare come il loro modello possa essere di fatto più efficiente rispetto ai più convenzionali modelli di diffusione. Stando al post di annuncio ufficiale, infatti, "CM3leon raggiunge prestazioni all'avanguardia per la generazione text-to-image, nonostante sia addestrato con cinque volte meno calcolo rispetto ai metodi precedenti".

Lo schema di base del funzionamento di CM3leon non è comunque molto diverso rispetto alle tecniche già diffuse sul mercato: i ricercatori hanno iniziato a pre-addestrare il modello, ma piuttosto che farlo attraverso lo scraping di immagini disponibili online (metodo che ha causato parecchi dubbi legali), si è limitata ad utilizzare solo quelle disponibili con licenza di Shutterstock. In questo modo ha evitato qualsiasi preoccupazione legata alla proprietà delle immagini "senza sacrificare le prestazioni" del modello grazie all'adozione della nuova tecnica.

CM3leon

Nello studio, dopo il pre-addestramento i ricercatori di Meta hanno sottoposto CM3leon a una fase di messa a punto supervisionata che, secondo i ricercatori, ha permesso di ottenere risultati altamente ottimizzati, sia in termini di utilizzo delle risorse che di qualità dell'immagine. Si tratta di un approccio anche in questo caso non troppo diverso da quanto effettuato da OpenAI con il suo ChatGPT, con questa fase che è necessaria per allenare il modello a capire prompt testuali complessi e rispondere in maniera coerente in base alla richiesta dell'utente.

Allo stadio attuale CM3leon è il risultato di una ricerca interna da parte di Meta e non è chiaro quando o se l'azienda lo renderà disponibile pubblicamente. I risultati mostrati nel post sul blog ufficiale sono certamente molto promettenti e, se venisse confermata l'efficienza e la versatilità del modello, sarà molto probabile che l'approccio di Meta con CM3leon vada oltre la fase di ricerca e venga utilizzato in maniera più ampia anche da altre realtà del settore.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Hiei360017 Luglio 2023, 12:28 #1
Tutto bello in teoria ma fino a quando non fanno provare questa tecnologia per me è solo fuffa il cui unico scopo è di attrarre investitori.
mrk-cj9423 Luglio 2023, 19:56 #3
CM3leon di Meta adotta invece un approccio diverso, cioè un modello autoregressivo basato su token: "I modelli di diffusione hanno recentemente dominato le attività di generazione di immagini a causa delle loro prestazioni e dei costi computazionali relativamente modesti", spiega Meta in questo documento di ricerca. "Al contrario, i modelli autoregressivi basati su token sono noti per produrre risultati con ottime prestazioni, ma in particolare possono offrire una coerenza dell'immagine globale ancora migliore".


ottimo

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^