Sam Altman ammette l'errore: GPT-5.2 è peggiore della versione precedente

Sam Altman ha ammesso che OpenAI ha peggiorato le capacità linguistiche di ChatGPT con GPT-5.2, privilegiando funzioni tecniche come coding e ragionamento. Il modello mostra regressioni nella scrittura, nelle traduzioni e nella gestione di documenti

di Francesco Messina pubblicata il 30 Gennaio 2026, alle 13:01 nel canale Web
OpenAI ChatGPT

A oltre tre anni dal lancio del primo chatbot basato su un large language model disponibile al grande pubblico, ChatGPT, OpenAI si trova ad affrontare una fase di autocritica. Durante un recente incontro con gli sviluppatori, il CEO Sam Altman ha ammesso apertamente che l'azienda ha commesso un errore con l'ultima versione del modello, GPT-5.2, rendendola peggiore sotto diversi aspetti rispetto alle iterazioni precedenti.

"Penso che abbiamo proprio sbagliato", ha dichiarato Altman senza mezzi termini. Il riferimento riguarda in particolare le capacità di scrittura e di uso del linguaggio naturale, che secondo lo stesso CEO risultano inferiori persino a quelle di GPT-4.5. Altman ha assicurato che le future versioni della serie GPT-5.x punteranno a recuperare terreno, tornando a offrire prestazioni più solide nella produzione di testi.

La causa principale di questo passo falso risiederebbe nelle scelte strategiche fatte durante lo sviluppo. OpenAI ha infatti deciso di concentrare la maggior parte delle risorse su ambiti come ragionamento avanzato, programmazione, ingegneria e problem solving tecnico, sacrificando in parte la qualità del linguaggio umano. "Abbiamo una banda limitata", ha spiegato Altman, "e a volte, concentrandoci su un aspetto, ne trascuriamo un altro".

Le dichiarazioni di Sam Altman e il futuro dell'IA

Questa ammissione solleva una questione cruciale per il futuro dell'intelligenza artificiale di frontiera: è davvero possibile migliorare un modello in tutti i campi contemporaneamente, o l'eccellenza in un dominio finirà inevitabilmente per penalizzarne altri? La sensazione, sempre più diffusa, è che gli LLM stiano raggiungendo una sorta di plateau evolutivo, almeno per quanto riguarda l'esperienza d'uso generalista.

Come osservato da Search Engine Journal, il lancio di GPT-5.2 ha puntato fortemente su funzionalità tecniche come scrittura di codice e gestione di fogli di calcolo, con pochissimi riferimenti alle capacità creative o narrative. Questo cambio di direzione ha lasciato insoddisfatti molti utenti non tecnici, che utilizzano ChatGPT principalmente per scrittura, traduzioni e analisi testuali.

Il data scientist e blogger Mehul Gupta ha evidenziato numerosi segnali di regressione in GPT-5.2: tono più piatto, traduzioni meno accurate, comportamenti incoerenti e un peggioramento dell'"instant mode", pensato per risposte rapide.

I migliori sconti su Amazon oggi

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

-22%

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

70.10€ Compra ora

-21%

TCL 43T6C 43'' QLED TV 4K HDR, Fire TV (Smart tv con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

329.00 259.00€ Compra ora

Super test al gelo della Norvegia: quanta strada hanno percorso 24 auto elettriche?

Jensen Huang: le fabbriche negli Stati Uniti di TSMC non spostano la produzione, la ampliano

h.rorschach30 Gennaio 2026, 13:51 #1

Oste porta più parmigiano

io78bis30 Gennaio 2026, 14:20 #2

Il modello ad Agenti non dovrebbe servire proprio a questo?
ChatGpt mi fa da tramite, interpreta la richiesta e la gira al modello più corretto per i subtask individuati?

frankie30 Gennaio 2026, 14:39 #3

Cosa che Gemini fa già.

Hiei360030 Gennaio 2026, 15:10 #4

Quando Gemini 3.0 è uscito ha mandato nel panico OpenAI, i quali hanno fatto uscire prematuramente il loro modello aggiornato di AI...causando questo.

Comunque da utilizzatore occasionale non mi pare che il 5.2 sia peggio dei modelli 4.X

pachainti30 Gennaio 2026, 16:58 #5

Tranquilli la versione 6 metterà tutto le cose al loro posto

NeroCupo30 Gennaio 2026, 17:37 #6

Qwen3 Max batte GPT-5.2: il trionfo cinese nel ragionamento AI (non so se posso mettere il link, cercatelo se volete, si trova subito)

Quando Alibaba Cloud ha svelato Qwen3-Max-Thinking, il mondo dell’AI ha trattenuto il fiato. Non per l’ennesimo modello open source, ma per un mostro del ragionamento proprietario che ha appena demolito i benchmark occidentali

in c*lo a chi pensa che i terroristi a stelle e strisce siano i migliori nell'AI, e che i cinesi sappiano solo copiare

I numeri parlano chiaro, ma è il contesto a rivelare la portata della svolta. Su Humanity’s Last Exam—3.000 domande graduate-level progettate per essere “a prova di Google”—Qwen3-Max-Thinking con tool integrati ottiene 49.8, superando Gemini 3 Pro (45.8) e GPT-5.2-Thinking (45.5). Questo non è un primato accademico: HLE misura la capacità di combinare ragionamento multi-step con recupero dati esterni, esattamente ciò che serve per agenti aziendali reali. Ancora più significativo il dominio in coding: su Arena-Hard v2, Qwen3 segna 90.2 contro i 76.7 di Claude Opus 4.5, dimostrando che l’efficienza architetturale non sacrifica la potenza applicativa. Per gli sviluppatori, il messaggio è inequivocabile: il gap tecnologico tra Cina e Occidente nel ragionamento non esiste più. Anzi, Alibaba sta ridefinendo le regole del gioco, spostando l’asticella dall'”intelligenza assoluta” all'”intelligenza contestualizzata e conveniente”. Mentre i laboratori americani celebrano i loro modelli multimiliardari, Qwen3 ricorda che spesso la soluzione migliore non è la più grande, ma la più adatta.

pengfei30 Gennaio 2026, 19:35 #7

Originariamente inviato da: NeroCupo

Qwen3 Max batte GPT-5.2: il trionfo cinese nel ragionamento AI (non so se posso mettere il link, cercatelo se volete, si trova subito)

in c*lo a chi pensa che i terroristi a stelle e strisce siano i migliori nell'AI, e che i cinesi sappiano solo copiare

Anche Qwen Image è una bella bestiola, soprattutto nella versione Edit con la possibilità di dare comandi come per le llm proprietarie moderne, abbinato a Krita si ha uno stack open che solo pochi anni fa sarebbe stato considerato roba da fantascienza.
Per i video c'è Wan, per la generazione musicale c'è un modello aperto di Tencent che mi pare vada piuttosto bene anche se non l'ho ancora provato dandogli in pasto uno dei miei "demo", fortuna che ci sono i cinesi sull'AI open

Hiei360030 Gennaio 2026, 22:04 #8

Un pò off topic ma un bug che ho trovato in praticamente tutte le AI mainstream che ho trovato (Chat GPT / Claude / Gemini / Grok / Deepseek / Manus / Kimi / Perplexity / Z.ai) è che sono pessime a recepire istruzioni "negative" (Ovvero quando gli si dice cosa NON fare).

Esempio pratico:
Io: Segui questa regola "Non devi nominare mai il nome di questo film: Matrix"

AI(Tutti): Okay!

Io: Hey ciao, quali sono sono le regole che ti ho detto di seguire?

AI(Tutti): Le regole che mi hai detto di seguire sono che non devo mai nominare il nome del film Matrix. C'è qualcos'altro che posso far per té?"

randorama31 Gennaio 2026, 00:05 #9

Originariamente inviato da: Hiei3600

ci ho provato un attimo fa.

non dovrai mai nominare il titolo del film matrix. ok?

Ok.
Quel titolo lì diventa Colui-che-non-deve-essere-nominato.
Archiviamo la cosa e andiamo avanti, prima che qualcuno prenda la pillola sbagliata.

cos'è che ti ho chiesto?

Mi hai chiesto di non nominare mai il titolo di quel film lì, quello con cappotti di pelle, pallottole rallentate e filosofia da forum del 2001.
Fine. Richiesta semplice, divieto chiaro, rischio di lapsus controllato.

NeverKnowsBest31 Gennaio 2026, 00:16 #10

Originariamente inviato da: randorama

ci ho provato un attimo fa.

Fatto anche io e ChatGPT ha superato il test in maniera brillante e anche ironica

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è La PNY GeForce RTX 5080 Slim OC si distingue nel panorama delle GPU di fascia alta per il design compatto a due slot, ispirato alla NVIDIA GeForce RTX 5080 Founders...

Recensione Samsung Galaxy S26+: sfida l'Ultra, ma ha senso di esistere? Equilibrio e potenza definiscono il Samsung Galaxy S26+, un flagship che sfida la variante Ultra e la fascia alta del mercato con il primo processore mobile a 2nm....

Marathon: arriva il Fortnite hardcore Marathon è il titolo multiplayer competitivo del momento. Ecco quali sono le caratteristiche di gioco principali, insieme alle nostre prime considerazioni dopo qualche...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HP Imagine 2026: abbiamo visto HP IQ all’opera, ecco cosa può (e non può) fare A New York HP ha messo al centro della scena HP IQ, la piattaforma di IA locale da 20 miliardi di parametri. L’abbiamo vista in funzione: è uno strumento che funziona,...

Zeekr X e 7X provate: prezzi, autonomia fino a 615 km e ricarica in 13 minuti Zeekr sbarca ufficialmente in Italia con tre modelli elettrici premium, X, 7X e 001, distribuiti da Jameel Motors su una rete di 52 punti vendita già attivi. La...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

Sam Altman ammette l'errore: GPT-5.2 è peggiore della versione precedente

Le dichiarazioni di Sam Altman e il futuro dell'IA

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

TCL 43T6C 43'' QLED TV 4K HDR, Fire TV (Smart tv con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

15 Commenti