OpenAI lancia la generazione di immagini con GPT-4o: e adesso può riprodurre testi corretti

OpenAI lancia la generazione di immagini con GPT-4o: e adesso può riprodurre testi corretti

La nuova funzionalità integrata in GPT-4o consente di generare immagini realistiche con testi corretti, elaborazioni contestuali e modifiche interattive. Un nuovo tassello importante per la generazione di contenuti visivi, anche per gli utenti free.

di pubblicata il , alle 10:21 nel canale Web
OpenAIChatGPT
 

OpenAI ha lanciato ufficialmente una nuova funzionalità di generazione immagini integrata direttamente nel modello GPT-4o, avviando un cambiamento radicale rispetto all'uso del precedente DALL-E 3. La nuova soluzione consente agli utenti di creare e modificare immagini attraverso un'interfaccia conversazionale, superando molte delle limitazioni che caratterizzavano i precedenti sistemi di IA generativa.

La caratteristica che salta subito all'occhio rispetto al preceente modello è la capacità di renderizzare testo leggibile all'interno delle immagini, un problema che ha afflitto per anni i modelli di IA generativa. GPT-4o può ora produrre immagini con testo perfettamente leggibile, aprendo possibilità per la creazione di menu, poster, infografiche e altri contenuti visivi che richiedono elementi testuali attraverso una semplice richiesta in linguaggio naturale. Inoltre, anziché dover riscrivere completamente i prompt per modificare un'immagine, gli utenti possono semplicemente conversare con il modello, chiedendo modifiche specifiche che vengono applicate mantenendo lo stile e la coerenza dell'immagine originale.

OpenAI rilascia un nuovo modello per la generazione di immagini

Le capacità tecniche del nuovo sistema sono state migliorate notevolmente: GPT-4o può manipolare simultaneamente fino a 20 oggetti diversi in una scena (mentre altri modelli di AI si fermano a 5-8 oggetti, secondo OpenAI), può trasformare immagini esistenti, incluse quelle con persone, e può integrare elementi da più immagini di riferimento in un unico risultato finale. La funzionalità è già in distribuzione per gli abbonati al piano Pro e verrà presto estesa agli utenti Plus e gratuiti di ChatGPT. Gli utenti gratuiti saranno limitati a 3 immagini al giorno, mentre gli abbonati Plus e di livello superiore potranno generare un numero illimitato di immagini. L'accesso API per gli sviluppatori è previsto nelle prossime settimane.

Una differenza fondamentale rispetto ai modelli precedenti è che GPT-4o non è un modello di diffusione come DALL-E, ma un modello autoregressivo integrato nativamente in ChatGPT, un'architettura che gli consente di sfruttare tutta la conoscenza e il contesto della conversazione per creare immagini più pertinenti e precise. Sam Altman, CEO di OpenAI, ha sottolineato come il sistema "pensi" più a lungo rispetto a DALL-E 3 per produrre immagini più accurate e dettagliate. La capacità di modificare immagini esistenti,, inoltre, rappresenta un'evoluzione significativa che amplia notevolmente le possibilità creative.

Tra le limitazioni note ci sono problemi occasionali di ritaglio delle immagini nella parte inferiore, allucinazioni, difficoltà nel lavorare con più di 10-20 oggetti contemporaneamente e sfide nel rendering di testo con caratteri non latini. La nuova funzionalità di generazione immagini di GPT-4o rappresenta anche nuove sfide in termini di sicurezza: la capacità di creare output fotorealistici, trasformare immagini esistenti e seguire istruzioni dettagliate introduce rischi che OpenAI afferma di aver affrontato basandosi sull'infrastruttura di sicurezza esistente e sulle lezioni apprese con il deployment di DALL-E e Sora.

Per gli utenti che preferiscono le capacità specifiche di DALL-E, OpenAI ha mantenuto questo modello come opzione separata, accessibile attraverso un GPT dedicato. È da sottolineare che nelle scorse ore, OpenAI ha posticipato il lancio del generatore di immagini integrato di ChatGPT per gli utenti gratuiti, come annunciato dal CEO Sam Altman in un post su X. Altman ha spiegato che lo strumento si è rivelato "molto più popolare di quanto ci aspettassimo", causando il ritardo nel rilascio per il livello gratuito.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Unrue27 Marzo 2025, 10:42 #1
Impressionante. Prima si capiva facilmente se un'immagine era generata dall'AI guardando le dita delle mani o i testi, solitamente sballati. Ora manco più quello.

Tra un pò ci vorrà un microscopio per capire se un'immagine è fake o meno.
The_Hypersonic27 Marzo 2025, 17:54 #2
devo dire che funziona in maniera eccezionale
aqua8427 Marzo 2025, 20:08 #3
Originariamente inviato da: The_Hypersonic
devo dire che funziona in maniera eccezionale



EDIT:
chiedo scusa ho sbagliato io
solo ora mi sono accorto che sta usando ancora la vecchia versione

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^