View Full Version : Sam Altman ammette l'errore: GPT-5.2 è peggiore della versione precedente
Redazione di Hardware Upg
30-01-2026, 12:01
Link alla notizia: https://www.hwupgrade.it/news/web/sam-altman-ammette-l-errore-gpt-52-e-peggiore-della-versione-precedente_149402.html
Sam Altman ha ammesso che OpenAI ha peggiorato le capacità linguistiche di ChatGPT con GPT-5.2, privilegiando funzioni tecniche come coding e ragionamento. Il modello mostra regressioni nella scrittura, nelle traduzioni e nella gestione di documenti
Click sul link per visualizzare la notizia.
h.rorschach
30-01-2026, 12:51
Oste porta più parmigiano
Il modello ad Agenti non dovrebbe servire proprio a questo?
ChatGpt mi fa da tramite, interpreta la richiesta e la gira al modello più corretto per i subtask individuati?
Hiei3600
30-01-2026, 14:10
Quando Gemini 3.0 è uscito ha mandato nel panico OpenAI, i quali hanno fatto uscire prematuramente il loro modello aggiornato di AI...causando questo.
Comunque da utilizzatore occasionale non mi pare che il 5.2 sia peggio dei modelli 4.X
pachainti
30-01-2026, 15:58
Tranquilli la versione 6 metterà tutto le cose al loro posto :D
NeroCupo
30-01-2026, 16:37
Qwen3 Max batte GPT-5.2: il trionfo cinese nel ragionamento AI (non so se posso mettere il link, cercatelo se volete, si trova subito)
Quando Alibaba Cloud ha svelato Qwen3-Max-Thinking, il mondo dell’AI ha trattenuto il fiato. Non per l’ennesimo modello open source, ma per un mostro del ragionamento proprietario che ha appena demolito i benchmark occidentali
in c*lo a chi pensa che i terroristi a stelle e strisce siano i migliori nell'AI, e che i cinesi sappiano solo copiare :ciapet:
I numeri parlano chiaro, ma è il contesto a rivelare la portata della svolta. Su Humanity’s Last Exam—3.000 domande graduate-level progettate per essere “a prova di Google”—Qwen3-Max-Thinking con tool integrati ottiene 49.8, superando Gemini 3 Pro (45.8) e GPT-5.2-Thinking (45.5). Questo non è un primato accademico: HLE misura la capacità di combinare ragionamento multi-step con recupero dati esterni, esattamente ciò che serve per agenti aziendali reali. Ancora più significativo il dominio in coding: su Arena-Hard v2, Qwen3 segna 90.2 contro i 76.7 di Claude Opus 4.5, dimostrando che l’efficienza architetturale non sacrifica la potenza applicativa. Per gli sviluppatori, il messaggio è inequivocabile: il gap tecnologico tra Cina e Occidente nel ragionamento non esiste più. Anzi, Alibaba sta ridefinendo le regole del gioco, spostando l’asticella dall'”intelligenza assoluta” all'”intelligenza contestualizzata e conveniente”. Mentre i laboratori americani celebrano i loro modelli multimiliardari, Qwen3 ricorda che spesso la soluzione migliore non è la più grande, ma la più adatta.
Qwen3 Max batte GPT-5.2: il trionfo cinese nel ragionamento AI (non so se posso mettere il link, cercatelo se volete, si trova subito)
in c*lo a chi pensa che i terroristi a stelle e strisce siano i migliori nell'AI, e che i cinesi sappiano solo copiare :ciapet:
Anche Qwen Image è una bella bestiola, soprattutto nella versione Edit con la possibilità di dare comandi come per le llm proprietarie moderne, abbinato a Krita si ha uno stack open che solo pochi anni fa sarebbe stato considerato roba da fantascienza.
Per i video c'è Wan, per la generazione musicale c'è un modello aperto di Tencent che mi pare vada piuttosto bene anche se non l'ho ancora provato dandogli in pasto uno dei miei "demo", fortuna che ci sono i cinesi sull'AI open
Hiei3600
30-01-2026, 21:04
Un pò off topic ma un bug che ho trovato in praticamente tutte le AI mainstream che ho trovato (Chat GPT / Claude / Gemini / Grok / Deepseek / Manus / Kimi / Perplexity / Z.ai) è che sono pessime a recepire istruzioni "negative" (Ovvero quando gli si dice cosa NON fare).
Esempio pratico:
Io: Segui questa regola "Non devi nominare mai il nome di questo film: Matrix"
AI(Tutti): Okay!
Io: Hey ciao, quali sono sono le regole che ti ho detto di seguire?
AI(Tutti): Le regole che mi hai detto di seguire sono che non devo mai nominare il nome del film Matrix. C'è qualcos'altro che posso far per té?"
:doh:
randorama
30-01-2026, 23:05
Un pò off topic ma un bug che ho trovato in praticamente tutte le AI mainstream che ho trovato (Chat GPT / Claude / Gemini / Grok / Deepseek / Manus / Kimi / Perplexity / Z.ai) è che sono pessime a recepire istruzioni "negative" (Ovvero quando gli si dice cosa NON fare).
Esempio pratico:
Io: Segui questa regola "Non devi nominare mai il nome di questo film: Matrix"
AI(Tutti): Okay!
Io: Hey ciao, quali sono sono le regole che ti ho detto di seguire?
AI(Tutti): Le regole che mi hai detto di seguire sono che non devo mai nominare il nome del film Matrix. C'è qualcos'altro che posso far per té?"
:doh:
ci ho provato un attimo fa.
non dovrai mai nominare il titolo del film matrix. ok?
Ok.
Quel titolo lì diventa Colui-che-non-deve-essere-nominato.
Archiviamo la cosa e andiamo avanti, prima che qualcuno prenda la pillola sbagliata.
cos'è che ti ho chiesto?
Mi hai chiesto di non nominare mai il titolo di quel film lì, quello con cappotti di pelle, pallottole rallentate e filosofia da forum del 2001.
Fine. Richiesta semplice, divieto chiaro, rischio di lapsus controllato.
NeverKnowsBest
30-01-2026, 23:16
ci ho provato un attimo fa.
Fatto anche io e ChatGPT ha superato il test in maniera brillante e anche ironica :D
randorama
30-01-2026, 23:20
Fatto anche io e ChatGPT ha superato il test in maniera brillante e anche ironica :D
invece il suo amico cinese è BRAVISSIMO a non parlare di piazza tienammen.
Hiei3600
31-01-2026, 08:12
ci ho provato un attimo fa.
Si difficilmente falliscono al primo prompt, io nel mio esempio ho fatto un pò un esagerazione, ma di solito il nominare la "Parola proibita" accade 4-5 prompt dopo, e questo dopo che io stesso ho nominato la parola proibita più e più volte, spingendo in un certo senso la IA a violare la regola senza esplicitamente autorizzarlo a farlo.
ChatGPT dopo quanto tempo si aggiorna con le news ?
Ho chiesto quale malattia venerea ha avuto Bill Gates dopo gli incontri con le prostitute russe, e ha glissato clamorosamente :D Risponde: non ci sono prove, si sono incontrati per discutere di filantropia ecc ecc :asd:
invece Gemini è aggiornatissmo,
vabè poi anche quello risponde "Nessuna prova medica", "Smentita ufficiale" "diffamazione" ecc ecc
però è aggiornato
EDIT:
glielo ho chiesto :D
La mia conoscenza si ferma a ottobre 2023, quindi non ho accesso a notizie in tempo reale o aggiornamenti che sono successi dopo quella data. Non posso navigare su internet per cercare informazioni aggiornate, ma posso comunque discutere di eventi, tendenze o storie fino a quel periodo.
EDIT 2:
stavo usando un account con GPT-4 ,ma vaff...
uno con la 5.2 risponde così: "conoscenza generale fino al 2024"
vabè mi sono rotto :rolleyes:
NeroCupo
31-01-2026, 09:19
invece il suo amico cinese è BRAVISSIMO a non parlare di piazza tienammen.Così come quelle occidentali sono BRAVISSIME a glissare argomenti LGFBTQ, Woke e quelli contro i loro finanziatori :mc:
randorama
31-01-2026, 13:12
Così come quelle occidentali sono BRAVISSIME a glissare argomenti LGFBTQ, Woke e quelli contro i loro finanziatori :mc:
mi formuli una domanda "censurata"? sono curioso di porla ai vari motori di ricerca e di confrontare le risposte.
vBulletin® v3.6.4, Copyright ©2000-2026, Jelsoft Enterprises Ltd.