OpenAI lancia la generazione di immagini con GPT-4o: e adesso può riprodurre testi corretti

OpenAI lancia la generazione di immagini con GPT-4o: e adesso può riprodurre testi corretti

La nuova funzionalità integrata in GPT-4o consente di generare immagini realistiche con testi corretti, elaborazioni contestuali e modifiche interattive. Un nuovo tassello importante per la generazione di contenuti visivi, anche per gli utenti free.

di pubblicata il , alle 10:21 nel canale Web
OpenAIChatGPT
 

OpenAI ha lanciato ufficialmente una nuova funzionalità di generazione immagini integrata direttamente nel modello GPT-4o, avviando un cambiamento radicale rispetto all'uso del precedente DALL-E 3. La nuova soluzione consente agli utenti di creare e modificare immagini attraverso un'interfaccia conversazionale, superando molte delle limitazioni che caratterizzavano i precedenti sistemi di IA generativa.

La caratteristica che salta subito all'occhio rispetto al preceente modello è la capacità di renderizzare testo leggibile all'interno delle immagini, un problema che ha afflitto per anni i modelli di IA generativa. GPT-4o può ora produrre immagini con testo perfettamente leggibile, aprendo possibilità per la creazione di menu, poster, infografiche e altri contenuti visivi che richiedono elementi testuali attraverso una semplice richiesta in linguaggio naturale. Inoltre, anziché dover riscrivere completamente i prompt per modificare un'immagine, gli utenti possono semplicemente conversare con il modello, chiedendo modifiche specifiche che vengono applicate mantenendo lo stile e la coerenza dell'immagine originale.

OpenAI rilascia un nuovo modello per la generazione di immagini

Le capacità tecniche del nuovo sistema sono state migliorate notevolmente: GPT-4o può manipolare simultaneamente fino a 20 oggetti diversi in una scena (mentre altri modelli di AI si fermano a 5-8 oggetti, secondo OpenAI), può trasformare immagini esistenti, incluse quelle con persone, e può integrare elementi da più immagini di riferimento in un unico risultato finale. La funzionalità è già in distribuzione per gli abbonati al piano Pro e verrà presto estesa agli utenti Plus e gratuiti di ChatGPT. Gli utenti gratuiti saranno limitati a 3 immagini al giorno, mentre gli abbonati Plus e di livello superiore potranno generare un numero illimitato di immagini. L'accesso API per gli sviluppatori è previsto nelle prossime settimane.

Una differenza fondamentale rispetto ai modelli precedenti è che GPT-4o non è un modello di diffusione come DALL-E, ma un modello autoregressivo integrato nativamente in ChatGPT, un'architettura che gli consente di sfruttare tutta la conoscenza e il contesto della conversazione per creare immagini più pertinenti e precise. Sam Altman, CEO di OpenAI, ha sottolineato come il sistema "pensi" più a lungo rispetto a DALL-E 3 per produrre immagini più accurate e dettagliate. La capacità di modificare immagini esistenti,, inoltre, rappresenta un'evoluzione significativa che amplia notevolmente le possibilità creative.

Tra le limitazioni note ci sono problemi occasionali di ritaglio delle immagini nella parte inferiore, allucinazioni, difficoltà nel lavorare con più di 10-20 oggetti contemporaneamente e sfide nel rendering di testo con caratteri non latini. La nuova funzionalità di generazione immagini di GPT-4o rappresenta anche nuove sfide in termini di sicurezza: la capacità di creare output fotorealistici, trasformare immagini esistenti e seguire istruzioni dettagliate introduce rischi che OpenAI afferma di aver affrontato basandosi sull'infrastruttura di sicurezza esistente e sulle lezioni apprese con il deployment di DALL-E e Sora.

Per gli utenti che preferiscono le capacità specifiche di DALL-E, OpenAI ha mantenuto questo modello come opzione separata, accessibile attraverso un GPT dedicato. È da sottolineare che nelle scorse ore, OpenAI ha posticipato il lancio del generatore di immagini integrato di ChatGPT per gli utenti gratuiti, come annunciato dal CEO Sam Altman in un post su X. Altman ha spiegato che lo strumento si è rivelato "molto più popolare di quanto ci aspettassimo", causando il ritardo nel rilascio per il livello gratuito.

21 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Unrue27 Marzo 2025, 10:42 #1
Impressionante. Prima si capiva facilmente se un'immagine era generata dall'AI guardando le dita delle mani o i testi, solitamente sballati. Ora manco più quello.

Tra un pò ci vorrà un microscopio per capire se un'immagine è fake o meno.
The_Hypersonic27 Marzo 2025, 17:54 #2
devo dire che funziona in maniera eccezionale
aqua8427 Marzo 2025, 20:08 #3
Originariamente inviato da: The_Hypersonic
devo dire che funziona in maniera eccezionale



EDIT:
chiedo scusa ho sbagliato io
solo ora mi sono accorto che sta usando ancora la vecchia versione
mrk-cj9402 Giugno 2025, 20:22 #4
Originariamente inviato da: The_Hypersonic
devo dire che funziona in maniera eccezionale


eccezionale non ancora* però i salti in avanti sono enormi

*ho chiesto di generare una bottiglia di estathè e il logo era sbagliato... idem una maglietta di guess in cui la parola del brand era giusta ma le altre scritte in obliquo erano incomprensibili
roccia123403 Giugno 2025, 08:17 #5
Originariamente inviato da: mrk-cj94
eccezionale non ancora* però i salti in avanti sono enormi

*ho chiesto di generare una bottiglia di estathè e il logo era sbagliato... idem una maglietta di guess in cui la parola del brand era giusta ma le altre scritte in obliquo erano incomprensibili


Ma ti pagano per riesumare ogni tot. una raffica di news vecchie di mesi?
mrk-cj9405 Giugno 2025, 10:45 #6
Originariamente inviato da: roccia1234
Ma ti pagano per riesumare ogni tot. una raffica di news vecchie di mesi?


1) già spiegato più volte quindi se vuoi una risposta cerca nella cronologia dei messaggi
2) non è contro il regolamento...

semmai mi chiedo perchè voi vi mettiate a riaprire topic vecchi visto che vi dà fastidio
Alodesign05 Giugno 2025, 12:28 #7
Originariamente inviato da: mrk-cj94
1) già spiegato più volte quindi se vuoi una risposta cerca nella cronologia dei messaggi
2) non è contro il regolamento...

semmai mi chiedo perchè voi vi mettiate a riaprire topic vecchi visto che vi dà fastidio


Perché "da fuori" non si capisce la data di pubblicazione, ma si vede solo la data del tuo post.
Ora ho capito che quando vedo il tuo nick non apro.
roccia123405 Giugno 2025, 12:51 #8
Originariamente inviato da: mrk-cj94
1) già spiegato più volte quindi se vuoi una risposta cerca nella cronologia dei messaggi
2) non è contro il regolamento...

semmai mi chiedo perchè voi vi mettiate a riaprire topic vecchi visto che vi dà fastidio


Perchè non si capisce che sono ""news"" di 2-3 mesi fa fino anche non si entra e si controlla la data degli altri post.
Unrue05 Giugno 2025, 13:30 #9
Originariamente inviato da: roccia1234
Perchè non si capisce che sono ""news"" di 2-3 mesi fa fino anche non si entra e si controlla la data degli altri post.


Ogni articolo ha la data di pubblicazione sotto al titolo.
Unrue05 Giugno 2025, 13:31 #10
Originariamente inviato da: mrk-cj94
1) già spiegato più volte quindi se vuoi una risposta cerca nella cronologia dei messaggi
2) non è contro il regolamento...

semmai mi chiedo perchè voi vi mettiate a riaprire topic vecchi visto che vi dà fastidio


Sono curioso anche io dai. Facci sapere.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^