Meta annuncia CM3leon: la 'più efficiente' IA generativa per la creazione di immagini
Diversamente dai modelli attuali usati nelle tecnologie text-to-image basati su IA generativa, CM3leon utilizza un modello autoregressivo basato su token
di Nino Grasso pubblicata il 17 Luglio 2023, alle 10:01 nel canale WebMeta
Meta, l'azienda di Mark Zuckerberg, ha annunciato CM3leon (si legge come la parola inglese "chameleon", camaleonte). Si tratta di una IA generativa pensata per la creazione di immagini partendo da un prompt testuale, che può anche fare il viceversa: raccontare in testo un'immagine. Quest'ultima funzione può essere utile per generare didascalie delle immagini, con le finalità più disparate.

Se una tecnologia del genere poteva sbalordire alla fine dello scorso anno, oggi siamo molto più preparati a una notizia del genere. Un'IA capace di generare immagini non è più una novità sorprendente e fino ad oggi abbiamo visto diverse interpretazioni, tutte molto interessanti, della tecnologia con Stable Diffusion, DALL-E, Midjourney, Bing Image Creator, ormai ampiamente disponibili al pubblico. Meta, però, definisce la sua tecnologia come la più efficiente di tutte.
CM3leon, un nuovo approccio per le tecnolgoie text-to-image basate su IA
Le tecnologie text-to-image oggi si basano in gran parte sull'uso di modelli di diffusione, che vengono sfruttati per creare l'immagine finale. CM3leon di Meta adotta invece un approccio diverso, cioè un modello autoregressivo basato su token: "I modelli di diffusione hanno recentemente dominato le attività di generazione di immagini a causa delle loro prestazioni e dei costi computazionali relativamente modesti", spiega Meta in questo documento di ricerca. "Al contrario, i modelli autoregressivi basati su token sono noti per produrre risultati con ottime prestazioni, ma in particolare possono offrire una coerenza dell'immagine globale ancora migliore".

Questo tipo di modello, ammette l'azienda, è "molto più costoso da addestrare e utilizzare per l'inferenza". Con CM3leon, però, i ricercatori di Meta sono stati in grado di dimostrare come il loro modello possa essere di fatto più efficiente rispetto ai più convenzionali modelli di diffusione. Stando al post di annuncio ufficiale, infatti, "CM3leon raggiunge prestazioni all'avanguardia per la generazione text-to-image, nonostante sia addestrato con cinque volte meno calcolo rispetto ai metodi precedenti".
Lo schema di base del funzionamento di CM3leon non è comunque molto diverso rispetto alle tecniche già diffuse sul mercato: i ricercatori hanno iniziato a pre-addestrare il modello, ma piuttosto che farlo attraverso lo scraping di immagini disponibili online (metodo che ha causato parecchi dubbi legali), si è limitata ad utilizzare solo quelle disponibili con licenza di Shutterstock. In questo modo ha evitato qualsiasi preoccupazione legata alla proprietà delle immagini "senza sacrificare le prestazioni" del modello grazie all'adozione della nuova tecnica.

Nello studio, dopo il pre-addestramento i ricercatori di Meta hanno sottoposto CM3leon a una fase di messa a punto supervisionata che, secondo i ricercatori, ha permesso di ottenere risultati altamente ottimizzati, sia in termini di utilizzo delle risorse che di qualità dell'immagine. Si tratta di un approccio anche in questo caso non troppo diverso da quanto effettuato da OpenAI con il suo ChatGPT, con questa fase che è necessaria per allenare il modello a capire prompt testuali complessi e rispondere in maniera coerente in base alla richiesta dell'utente.
Allo stadio attuale CM3leon è il risultato di una ricerca interna da parte di Meta e non è chiaro quando o se l'azienda lo renderà disponibile pubblicamente. I risultati mostrati nel post sul blog ufficiale sono certamente molto promettenti e, se venisse confermata l'efficienza e la versatilità del modello, sarà molto probabile che l'approccio di Meta con CM3leon vada oltre la fase di ricerca e venga utilizzato in maniera più ampia anche da altre realtà del settore.










DLSS 4.5: con Dynamic Frame Generation e MFG 6X NVIDIA alza la posta
Plaud NotePin S, il registratore IA si fa indossabile (ma è facile da perdere)
Redmi Watch 6 in prova: lo smartwatch con ampio display da 2000 nit a meno di 100 euro
WWDC 26: Il Digital Markets Act dell'Unione Europea frena l'arrivo del nuovo Siri AI su iOS 27 e iPadOS 27
WWDC 26: Apple Intelligence rivoluziona Image Playground con immagini fotorealistiche e cloud privato
Siri AI arriva alla WWDC 2026: nuove capacità conversazionali su tutti i dispositivi, visual intelligence, scrittura assistita
Alla WWDC 2026 arriva la nuova architettura per Apple Intelligence: modelli co-sviluppati con Google
Tra schede madri, schede video e IA le novità Sapphire al Computex 2026
Nintendo,multa da 35 milioni di euro in Francia per via dei Joy-Con difettosi
L'amministrazione Trump valuta una partecipazione in OpenAI: l'obiettivo è rafforzare il controllo sull'IA
WWDC 26: Apple rinnova il controllo parentale con Ask to Browse, nuovi limiti di tempo e Screen Time ridisegnato
Apple al WWDC 26 presenta iOS 27: Liquid Glass personalizzabile con slider, AirDrop all'80% più rapido e iCloud condiviso con Android
Xbox, alla fine, dà ragione a PlayStation: si ritorna alle esclusive, solo i live-service multipiattaforma
Minecraft Dungeons 2: Microsoft ha annunciato la data dell'action RPG accessibile a tutti
Synology al Computex 2026: nuova generazione DSM con IA agentica e cloud privato Bee Series
Quobly raccoglie 115 milioni di euro per finanziare lo sviluppo dei computer quantistici
BYD batte sul tempo Tesla Roadster: avvistata la Denza Z, lancio tra poche settimane









3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoottimo
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".