OpenAI e il caso FrontierMath: valutazione del modello o3 falsata?
Il coinvolgimento non dichiarato di OpenAI, l'azienda responsabile di ChatGPT, nella creazione del dataset FrontierMath ha sollevato dubbi sull'affidabilità dei punteggi ottenuti dal modello di intelligenza artificiale o3, concepito per eccellere nel ragionamento matematico e logico
di Rosario Grasso pubblicata il 20 Gennaio 2025, alle 12:01 nel canale WebOpenAIChatGPT
La recente scoperta del coinvolgimento di OpenAI nella creazione del dataset FrontierMath sta generando discussioni nel mondo dell’intelligenza artificiale. Secondo quanto emerso, OpenAI non solo ha finanziato lo sviluppo del dataset, ma ha anche avuto accesso a una parte dei dati, e questo solleva interrogativi sulla validità dei risultati ottenuti dal modello di ragionamento o3 .
Il modello o3 è una versione avanzata dei modelli di linguaggio sviluppati da OpenAI, concepita per eccellere nel ragionamento matematico e logico. È stato descritto come un'intelligenza artificiale di "ragionamento", progettata per affrontare problemi complessi che richiedono non solo capacità di comprensione del linguaggio naturale ma anche abilità avanzate di calcolo, analisi logica e problem-solving.
FrontierMath, un benchmark progettato per valutare le capacità dei modelli AI in ambito matematico, era stato presentato come strumento indipendente e di riferimento. Tuttavia, i documenti pubblicati da Epoch AI, il team responsabile, rivelano che il finanziamento e l'accesso ai dati da parte di OpenAI sono stati inizialmente omessi. Solo nella versione finale del paper di presentazione, pubblicata su Arxiv.org, è stata esplicitata la connessione con OpenAI.
Le reazioni non si sono fatte attendere. Alcuni esperti e collaboratori del progetto hanno espresso delusione, perché si sospetta che l'accesso ai dati possa compromettere l'imparzialità del benchmark. Per affrontare il problema, Epoch AI ha annunciato l'introduzione di un dataset completamente nuovo, che non è stato condiviso con OpenAI e che sarà utilizzato per una valutazione indipendente delle performance del modello o3.
Tamay Besiroglu, direttore associato di Epoch AI, ha riconosciuto pubblicamente l'errore, spiegando che vincoli contrattuali hanno impedito una comunicazione tempestiva con i matematici coinvolti. Ha inoltre dichiarato che OpenAI non ha utilizzato i dati per l'addestramento del modello e che si è limitata a impiegarli per scopi di validazione.
Elliot Glazer, matematico principale di Epoch AI, ha confermato che i punteggi ottenuti da o3 sembrano legittimi, pur riconoscendo la necessità di ulteriori verifiche. Secondo Glazer, la futura valutazione basata sul nuovo dataset sarà "a prova di errore" e assicurerà un giudizio completamente imparziale.
o3 ha ottenuto una valutazione di 25% in FrontierMath, mentre i precedenti modelli IA non sono andati oltre il 2%, il che evidenzia la precisione e le prestazioni nettamente al di sopra della norma di questo modello.
La comunità scientifica rimane in attesa dei risultati di queste verifiche indipendenti, che chiariranno se il modello o3 abbia beneficiato di un vantaggio inappropriato o se i punteggi siano effettivamente rappresentativi delle sue capacità. Questa vicenda evidenzia comunque l’importanza della trasparenza nella ricerca sull’intelligenza artificiale, soprattutto quando i risultati possono influenzare l'intero settore.









PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è
Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
L'AI agentica potrebbe trasformare Internet: il settore della pubblicità online è a rischio?
Qualcomm lancerà due chip per smartphone Android a 2 nm nel 2026: ecco le possibili differenze
Xiaomi dà i numeri: ecco come è andato il 2025 dell'azienda tra smartphone, tablet, accessori e auto elettriche
AMD annuncia Ryzen 9 9950X3D2 Dual Edition: primo Zen 5 con doppio 3D V-Cache e TDP a 200W
CyrusOne avvia la costruzione del suo primo data center in Italia, a Milano
Cloud in crescita, ma l’adozione dell’IA resta lenta. L’identikit delle PMI italiane secondo Wolters Kluwer Italia
OpenAI cancella l'adult mode di ChatGPT: il riassetto strategico miete un'altra vittima
Google Search Live arriva in Italia: la ricerca ora ci vede e ci parla
MacBook Air 15'' con chip M4 (2025) crolla su Amazon: il prezzo che stavamo cercando è finalmente realtà
Ora è possibile trasferire file tra Samsung e Apple con AirDrop e Quick Share. Ecco come fare
Apple domina con il MacBook Neo: i laptop Windows faticano a tenere il passo
Arriva la nuova gamma di PC Dell Pro per utenti aziendali: nuovi notebook, desktop e workstation portatili
DJI Avata 360: la recensione del primo drone FPV 8K con sensori da 1 pollice
Il browser di Samsung arriva su Windows, ma in Italia non c'è l'IA agentica









1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".