OpenAI e il caso FrontierMath: valutazione del modello o3 falsata?

Il coinvolgimento non dichiarato di OpenAI, l'azienda responsabile di ChatGPT, nella creazione del dataset FrontierMath ha sollevato dubbi sull'affidabilità dei punteggi ottenuti dal modello di intelligenza artificiale o3, concepito per eccellere nel ragionamento matematico e logico

di Rosario Grasso pubblicata il 20 Gennaio 2025, alle 12:01 nel canale Web
OpenAI ChatGPT

La recente scoperta del coinvolgimento di OpenAI nella creazione del dataset FrontierMath sta generando discussioni nel mondo dell’intelligenza artificiale. Secondo quanto emerso, OpenAI non solo ha finanziato lo sviluppo del dataset, ma ha anche avuto accesso a una parte dei dati, e questo solleva interrogativi sulla validità dei risultati ottenuti dal modello di ragionamento o3 .

Il modello o3 è una versione avanzata dei modelli di linguaggio sviluppati da OpenAI, concepita per eccellere nel ragionamento matematico e logico. È stato descritto come un'intelligenza artificiale di "ragionamento", progettata per affrontare problemi complessi che richiedono non solo capacità di comprensione del linguaggio naturale ma anche abilità avanzate di calcolo, analisi logica e problem-solving.

OpenAI ChatGPT

FrontierMath, un benchmark progettato per valutare le capacità dei modelli AI in ambito matematico, era stato presentato come strumento indipendente e di riferimento. Tuttavia, i documenti pubblicati da Epoch AI, il team responsabile, rivelano che il finanziamento e l'accesso ai dati da parte di OpenAI sono stati inizialmente omessi. Solo nella versione finale del paper di presentazione, pubblicata su Arxiv.org, è stata esplicitata la connessione con OpenAI.

Le reazioni non si sono fatte attendere. Alcuni esperti e collaboratori del progetto hanno espresso delusione, perché si sospetta che l'accesso ai dati possa compromettere l'imparzialità del benchmark. Per affrontare il problema, Epoch AI ha annunciato l'introduzione di un dataset completamente nuovo, che non è stato condiviso con OpenAI e che sarà utilizzato per una valutazione indipendente delle performance del modello o3.

Tamay Besiroglu, direttore associato di Epoch AI, ha riconosciuto pubblicamente l'errore, spiegando che vincoli contrattuali hanno impedito una comunicazione tempestiva con i matematici coinvolti. Ha inoltre dichiarato che OpenAI non ha utilizzato i dati per l'addestramento del modello e che si è limitata a impiegarli per scopi di validazione.

Elliot Glazer, matematico principale di Epoch AI, ha confermato che i punteggi ottenuti da o3 sembrano legittimi, pur riconoscendo la necessità di ulteriori verifiche. Secondo Glazer, la futura valutazione basata sul nuovo dataset sarà "a prova di errore" e assicurerà un giudizio completamente imparziale.

o3 ha ottenuto una valutazione di 25% in FrontierMath, mentre i precedenti modelli IA non sono andati oltre il 2%, il che evidenzia la precisione e le prestazioni nettamente al di sopra della norma di questo modello.

La comunità scientifica rimane in attesa dei risultati di queste verifiche indipendenti, che chiariranno se il modello o3 abbia beneficiato di un vantaggio inappropriato o se i punteggi siano effettivamente rappresentativi delle sue capacità. Questa vicenda evidenzia comunque l’importanza della trasparenza nella ricerca sull’intelligenza artificiale, soprattutto quando i risultati possono influenzare l'intero settore.

I migliori sconti su Amazon oggi

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

29.49€ Compra ora

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

140.84€ Compra ora

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

RAM cancella il lancio del pick elettrico da 800 km. Al suo posto una versione plug-in con batteria enorme

Cresce la flotta di navi BYD per esportare le sue auto. Ora ha anche la più grande al mondo

pengfei20 Gennaio 2025, 12:51 #1

Fino a qui tutto bene...Fino a qui tutto bene...Fino a qui tutto bene...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è La PNY GeForce RTX 5080 Slim OC si distingue nel panorama delle GPU di fascia alta per il design compatto a due slot, ispirato alla NVIDIA GeForce RTX 5080 Founders...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

OpenAI e il caso FrontierMath: valutazione del modello o3 falsata?

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

1 Commenti