Gli LLM riescono a risolvere problemi matematici complessi: cosa significa e perché è importante
Con GPT-5.2 si sta assistendo ad un salto in avanti significativo nella capacità di risolvere problemi matematici complessi. E' sintomo di un avanzamento dei modelli linguistici, che passano dal riconoscere semplici schemi testuali a esplorare territori nuovi
di Andrea Bai pubblicata il 16 Gennaio 2026, alle 18:21 nel canale Scienza e tecnologiaNonostante le capacità linguistiche e di ragionamento dei modelli di intelligenza artificiale, non è affatto scontato che un LLM riesca a risolvere un problema matematico complesso: la matematica di alto livello richiede coerenza logica, controllo preciso delle variabili, capacità di sostenere lunghe catene di ragionamento e attenzione ai casi particolari. Anche un piccolo errore in un passaggio intermedio può compromettere l'intera dimostrazione, e molti modelli finora si sono dimostrati più abili a riconoscere schemi e pattern nei testi che a comprendere realmente le regole della logica o della matematica astratta.
È proprio in questo contesto che il lavoro di Neel Somani assume un significato di particolare importanza. Lo scorso fine settimana, Somani, ingegnere informatico, ex ricercatore quantitativo e fondatore di una startup nell'ambito blockchain, stava mettendo alla prova le capacità matematiche del nuovo modello di OpenAI quando si è imbattuto in qualcosa di inatteso: "Volevo capire quale fosse una base di riferimento, cioè il punto a partire dal quale gli LLM riescono davvero ad affrontare problemi matematici aperti, e dove invece iniziano ad avere difficoltà», ha spiegato Somani. «La sorpresa è stata scoprire che, con il modello più recente, quella frontiera si è spostata un po' più in avanti".
Weekend win: The proof I submitted for Erdos Problem #397 was accepted by Terence Tao.
— Neel Somani (@neelsomani) January 11, 2026
The proof was generated by GPT 5.2 Pro and formalized with Harmonic.
Many open problems are sitting there, waiting for someone to prompt ChatGPT to solve them: pic.twitter.com/hnUBQ7YCBp
Somani ha sottoposto un problema matematico a ChatGPT che, dopo aver lavorato per circa 15 minuti, ha prodotto una soluzione completa. La dimostrazione è stata esaminata e successivamente formalizzata utilizzando Harmonic, uno strumento di verifica formale che permette di controllare con rigore la correttezza delle dimostrazioni traducendole in un linguaggio logico comprensibile a un computer. Il processo si è concluso senza errori.
A rendere l'episodio ancora più notevole è stato il modo in cui ChatGPT ha costruito il ragionamento, richiamando strumenti classici della matematica come la formula di Legendre, il postulato di Bertrand e il teorema della Stella di David. Lungo il percorso, il modello ha individuato un post del 2013 su Math Overflow, in cui il matematico di Harvard Noam Elkies proponeva una soluzione elegante a un problema affine.
Il risultato finale di ChatGPT, però, non è stato una semplice riebolazione della soluzione di Elkies. La dimostrazione data dal modello di OpenAI si discostava in alcuni punti chiave e arrivava a una soluzione più completa di una variante del problema. Problema, tra l'altro, formulato da Paul Erdős, uno dei matematici più influenti del Novecento. I cosiddetti "problemi di Erdős" costituiscono una vasta collezione di quesiti aperti, spesso semplici da enunciare ma estremamente difficili da risolvere, che Erdős ha lasciato in eredità alla comunità matematica e che oggi rappresentano un banco di prova ideale per misurare il progresso, umano e artificiale, nella comprensione matematica.
I progressi dell'IA nell'affrontare problemi matematici complessi
La matematica, con i suoi problemi aperti e le dimostrazioni rigorose, è uno dei terreni più esigenti per testare un modello linguistico. Se un LLM riesce a muoversi con successo in questo spazio, non si limita a rielaborare soluzioni note, ma diventa uno strumento capace di esplorare territori nuovi, spingendo più in là i confini della conoscenza matematica e dimostrando la capacità di elaborare un vero ragionamento.
Somani ha concentrato l'attenzione sulla raccolta di oltre 1.000 congetture di Erdős. Il primo gruppo di soluzioni autonome era emerso a novembre grazie a un modello basato su Gemini chiamato AlphaEvolve, ma più recentemente anche GPT-5.2 ha mostrato una padronanza sorprendente della matematica di alto livello. Da Natale, 15 problemi sono stati aggiornati da “aperti” a “risolti” sul sito di Erdős, e in 11 casi le soluzioni riconoscono esplicitamente il contributo dei modelli di intelligenza artificiale.
Somani non è il solo ad aver usato GPT-5.2 per risolvere un problema di Erdős. Più o meno contemporaneamente anche il ricercatore Nat Sothanaphan ha pubblicato la soluzione di un altro problema di Erdős utilizzando l'LLM di OpenAI e gli strumenti di Harmonic.
A confermare l'impatto crescente dell'IA nella matematica interviene Terence Tao, matematico australiano di origini sino-irlandesi e vincitore della Medaglia Fields. Sulla sua pagina GitHub elenca otto problemi di Erdős in cui i modelli di IA hanno compiuto progressi autonomi significativi e altri sei casi ottenuti combinando l'analisi dei modelli con ricerche precedenti. Rimane molta strada da percorrere prima che i sistemi di IA possano fare matematica completamente da soli, ma diventa chiaro che i modelli di grandi dimensioni non sono più strumenti passivi: stanno assumendo un ruolo attivo nel plasmare il modo in cui si esplorano e si risolvono problemi complessi.
Tao ha inoltre sottolineato che la natura scalabile dei sistemi di IA li rende "particolarmente adatti ad affrontare in modo sistematico la 'coda lunga' di oscuri problemi di Erdős, molti dei quali possiedono in realtà soluzioni relativamente semplici". "Di conseguenza molti di questi problemi più accessibili hanno oggi maggiori probabilità di essere risolti con metodi basati interamente sull'IA, piuttosto che attraverso approcci umani o ibridi".
Il salto osservato con GPT-5.2 diventa ancora più significativo se
confrontato con i modelli precedenti, che erano molto meno efficaci nel
risolvere problemi complessi. Prima, gli LLM funzionavano bene per
generare testi coerenti, ma mostravano limiti evidenti nel ragionare passo
passo su concetti astratti o costruire dimostrazioni rigorose. I
problemi matematici di alto livello richiedono lunghe catene di
ragionamento, con controllo preciso di variabili e condizioni. I
modelli precedenti tendevano a perdere coerenza, commettendo errori
logici o saltando passaggi cruciali. Senza strumenti di formalizzazione in
grado di tradurre il ragionamento in un linguaggio logico verificabile, le
risposte potevano sembrare plausibili ma risultare sostanzialmente errate.
Grazie a progressi nell'architettura dei modelli, a una maggiore capacità
di memoria contestuale e all'integrazione con strumenti come Harmonic,
gli LLM più recenti hanno superato questi limiti, affrontando problemi di
matematica aperta con rigore e profondità prima impensabili.
Tutto va quindi inteso come il segnale di un cambiamento più ampio e non come la dimostrazione di capacità isolate. Risultati di questo tipo sono difficili da liquidare come mere curiosità, perché si inseriscono in un contesto in cui l'intelligenza artificiale è già parte integrante del lavoro matematico quotidiano: dai modelli orientati alla formalizzazione delle dimostrazioni, come Aristotele di Harmonic, fino agli strumenti di analisi e revisione della letteratura scientifica, come la ricerca approfondita di OpenAI. Con il rilascio di GPT-5.2, che Somani descrive come "aneddoticamente più abile nel ragionamento matematico rispetto alle versioni precedenti", il volume e la qualità dei problemi affrontati con successo iniziano a tracciare una linea di continuità con quanto osservato nei singoli casi.
La formalizzazione automatizzata
Un elemento che accelera ulteriormente i progressi è il passaggio alla formalizzazione delle dimostrazioni, un compito tradizionalmente laborioso ma che rende il ragionamento più facile da verificare e da estendere. La formalizzazione non richiede necessariamente l'uso di IA o computer, ma strumenti automatizzati hanno semplificato enormemente il processo.
In particolare, il proof assistant open source Lean, sviluppato da Microsoft Research nel 2013, è diventato uno standard per tradurre le dimostrazioni in linguaggio logico rigoroso. Strumenti di IA come il già citato Aristotele di Harmonic promettono di automatizzare gran parte del lavoro, collegando la potenza dei modelli linguistici alla precisione formale richiesta dalla matematica di alto livello.
Today marks a momentous milestone for AI and mathematics.
— Harmonic (@HarmonicMath) January 7, 2026
While Aristotle and other tools have made tremendous progress in solving Erdos problems in recent months, there have always been some annoying caveats.
Today, the first autonomously AI generated / formalized Erdos… pic.twitter.com/suuPUK3Du2
Tudor Achim, fondatore di Harmonic, osserva che l'aumento dei problemi di Erdős risolti è meno significativo del segnale culturale che esso rappresenta: i più grandi matematici del mondo stanno iniziando a prendere sul serio questi strumenti: "Ciò che mi interessa di più è vedere professori di matematica e informatica usare concretamente l'intelligenza artificiale. Queste sono persone con una reputazione consolidata, quindi quando dichiarano di impiegare Aristotele o ChatGPT, diventa una prova tangibile del valore reale di questi strumenti" ha spiegato Achim. In questo senso, l'adozione accademica si lega direttamente ai progressi osservati sui problemi di Erdős e alla crescente integrazione della formalizzazione automatizzata nel lavoro matematico di alto livello.










Sony WF-1000X M6: le cuffie in-ear di riferimento migliorano ancora
Snowflake porta l'IA dove sono i dati, anche grazie a un accordo con OpenAI
Sistema Mesh Roamii BE Pro: il Wi-Fi 7 secondo MSI
Meta lavora a un sistema di riconoscimento facciale per i suoi occhiali smart
Il mercato smartphone potrebbe registrare un netto calo nel 2026 e la colpa è delle memorie
Apple punterà sull'architettura chiplet: Qualcomm seguirà la stessa strada?
NASA Curiosity: i processi non biologici non spiegano la presenza delle molecole organiche su Marte
Sega conferma l'arrivo di tanti nuovi giochi entro marzo 2027
La serie POCO X8 è pronta al debutto: il nuovo X8 Pro Max punta a stupire
Apple conferma che l'arrivo della 'nuova' Siri ma non dice quando
Le vendite di Square Enix sono in netto calo, ma gli utili crescono
iPhone 17e si mostra in un video 'first look': ecco come potrebbe essere e quale sarà il prezzo
Il nuovo Xiaomi Watch 5 è pronto per l'Europa: il prezzo sarà alto
Steam Deck è out of stock in diversi Paesi e potrebbe essere colpa delle memorie
Le migliori offerte Amazon del weekend, aggiornate con 4 articoli freschi di sconto: con tutte si risparmia molto
PC più potente, meno spesa: su Amazon tagli di prezzo su GPU, CPU e monitor gaming da non perdere
Amazon Haul: come fare acquisti 'pazzi' su Amazon con prodotti per la casa a meno di 5€









29 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info- Scoperto una cura per il cancro
- Inventato le batterie a stato solido con 1000x la capacità di quelle odierne che si ricaricano in 2 secondi
- Inventato la medicina per l'eterna giovinezza
... quindi la IA è stupida e fa schifo!!11!!11! "
Questo mi tocca leggere in giro da certa gente... va bene sottovalutare la IA odierna e futura, ma non esageriamo eh, è già da un pezzo che è molto più intelligente rispetto all''utonto medio di internet....
E' una tecnologia matura? no
E' piena di difetti? si
Spara un sacco di stupidaggini? si
Ma non stiamo a prenderci in giro dicendoci che questa "roba" non si stia evolvendo a velocità pazzesca (anche grazie alle vagonate di miliardi che ci stanno buttando addosso le aziende di mezzo mondo)
Aristotele è tutt’altra tecnologia intanto. Un LLM sotto che lancia idee nel mucchio, nemmeno bisogno che sia lo stato dell’arte, e sopra una IA simbolica rigorosa vecchio stile anni 70/80. L’approccio, l’iterazione e infine l’output finale è molto rigoroso, è senz’altro un design più “intelligente” della pura rete neurale.
Il problema semmai è che sono sempre stati di nicchia, come lo sono tuttora. Specializzati in qualcosa per la quale è stata formalizzata la logica, e basta, letteralmente.
Si sta andando verso “basi LLM” cui agganciare di volta in volta pezzi di IA simbolica e neurosimbolica alla bisogna. Ma questi “plugin” costano, dubito vedremo a breve qualcosa nei tier gratuiti oltre ad un po di computer vision con annessi e connessi.
esatto
l'IA NON RAGIONA
e guarda caso quello su cui riesce bene sono MATEMATICA, SCIENZA e tutti i settori dove c'è bisogno di calcoli complessi, che ovviamente anche un Uomo riuscirebbe a fare ma mettendoci 100 volte il tempo necessario ad un computer.
ma davvero bisogna spiegarvi queste cose BANALI ???
si inventa 9/10 procedimenti astrusi da ufficio complicazione affari semplici
si sta dicendo che un modello basato sulle probabilita' inizia a dare una parvenza di ragionamento, e' un salto abissale, ed ovvio non ragionano ma calcoli del genere sono molto importanti, e' incredibile il miglioramento in cosi' poco tempo, questo fa capire quanto miglioreranno sempre di piu' e sempre piu' direttamente proporzionale al brevissimo tempo.
Chiaro che molti poi ne abbiano paura, ma questo bah altro discorso, si parla di lontano futuro.
MI sbagliero' ma mi sembra di aver capito cosi'
Extra:
In questi teoremi possono semplificare la soluzione delle cifrature complesse senza un PC quantico, se si, quando avremo IA + quantica avremo qualcosa di irraggiungibile per Noi.
Io dico che ragiona,
dove per ragionare si intende che dato un certo tipo di input ottengo un certo tipo di output.
Quando hai un test, una misura che dimostri che l'IA non ragiona fammi sapere...
dove per ragionare si intende che dato un certo tipo di input ottengo un certo tipo di output.
Quando hai un test, una misura che dimostri che l'IA non ragiona fammi sapere...
Non ha alcun senso quello che dici, nè ha senso quello che chiedi.
Semmai sei TU che devi dimostrare a tutti noi che la IA ragiona portando qualche input-output che non siano le solite cose già viste fino ad ora, e le risposte non siano prese dall'intero Internet.
Dovresti ritenerti anche molto fortunato che continuiamo a risponderti nonostante tutto.
E' un onore che dovresti provare tu.
Sei d'accordo o no che l'IA sia indistinguibile da chi dici che ragiona?
Se mi dici di no, trovami il modo di distinguere.
Quindi ho ragione io, non è difficile. E' banale.
dove per ragionare si intende che dato un certo tipo di input ottengo un certo tipo di output.
Quando hai un test, una misura che dimostri che l'IA non ragiona fammi sapere...
Tu lo dici ma i creatori delle ai attuali dicono che non lo fa, quindi o tu hai un modello tutto tuo o dici cazzate
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".