OpenAI risponde a DeepSeek con o3-mini: il nuovo modello IA che ragiona è più economico

OpenAI ha rilasciato o3-mini, il nuovo modello della serie di IA che ragionano, disponibile su ChatGPT e API. o3-mini eguaglia le prestazioni di o1 in matematica, coding e scienze, con risposte più rapide e costi ridotti. Per la prima volta, un modello di ragionamento è accessibile agli utenti free.
di Manolo De Agostini pubblicata il 01 Febbraio 2025, alle 06:47 nel canale WebChatGPTOpenAI
OpenAI ha introdotto o3-mini, il più recente modello della sua serie di intelligenze artificiali focalizzate sul ragionamento. L'azienda l'aveva anticipato poco prima di Natale. L'arrivo di o3-mini arriva a non molti giorni dall'arrivo sulla scena di DeepSeek e Qwen, i modelli IA cinesi che hanno dato prova di essere al livello, se non migliori, con le proposte delle Big Tech americane.
Disponibile sia su ChatGPT che tramite API, o3-mini offre prestazioni comparabili a quelle di o1 in settori chiave come la matematica, il coding e le applicazioni scientifiche, ma con un notevole risparmio in termini di costi e latenza, rendendolo un'opzione più accessibile ed efficiente per utenti e sviluppatori.
Codifica competitiva: nella programmazione competitiva di Codeforces, OpenAI o3-mini ottiene punteggi Elo progressivamente più alti con l'aumento dello sforzo di ragionamento, superando sempre o1-mini. Con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1
Una delle novità più importanti di o3-mini è che per la prima volta un modello avanzato di ragionamento viene reso disponibile anche per gli utenti free di ChatGPT. Gli utenti potranno provarlo selezionando l'opzione "Reason" nella chat o rigenerando una risposta.
Gli utenti Plus, Team e Pro avranno accesso immediato a o3-mini, con un notevole miglioramento dell'esperienza: il limite giornaliero per i messaggi degli utenti Plus passa da 50 a 150, mentre per gli utenti Pro non ci saranno più limiti. L'accesso per gli utenti Enterprise & Edu seguirà nelle prossime settimane.
Queste le caratteristiche principali di OpenAI o3-mini:
- Più veloce ed efficiente: o3-mini risponde 24% più rapidamente rispetto a o1-mini, mantenendo prestazioni elevate nei campi STEM (scienze, tecnologia, ingegneria e matematica)
- Maggiore accuratezza: secondo test esterni, o3-mini fornisce risposte preferite dagli utenti il 56% delle volte, con una riduzione del 39% degli errori gravi nelle domande complesse rispetto a o1-mini
- Migliorato per il coding: con un livello di ragionamento medio o alto, o3-mini supera o1 in alcune attività di programmazione, riducendo costi e tempi di risposta
o3-mini è pronto per essere integrato nelle applicazioni di aziende e sviluppatori. Supporta funzionalità chiave come function calling, output strutturati, streaming e messaggi per sviluppatori, rendendo l'integrazione semplice ed efficace.
Gli sviluppatori possono personalizzare il livello di ragionamento dell'AI – basso, medio o alto – in base alle esigenze specifiche, ottimizzando così il bilanciamento tra velocità e precisione. Questo lo rende particolarmente utile in ambiti come la programmazione avanzata, i calcoli scientifici e l'analisi complessa di dati.
Matematica: con un basso sforzo di ragionamento, OpenAI o3-mini raggiunge prestazioni paragonabili a quelle di OpenAI o1-mini, mentre con uno sforzo medio, o3-mini raggiunge prestazioni paragonabili a quelle di o1. Nel frattempo, con un elevato sforzo di ragionamento, o3-mini supera sia OpenAI o1-mini sia OpenAI o1, dove le regioni ombreggiate in grigio mostrano le prestazioni del voto di maggioranza (consenso) con 64 sample
Ulteriori informazioni in questo post di OpenAI. "Il rilascio di OpenAI o3-mini segna un altro passo avanti nella missione di OpenAI di superare i confini dell'intelligenza a basso costo. Ottimizzando il ragionamento per i settori STEM e mantenendo i costi bassi, stiamo rendendo l'intelligenza artificiale di alta qualità ancora più accessibile. Questo modello continua il nostro percorso di riduzione del costo dell'intelligenza - riducendo i prezzi per token del 95% dal lancio di GPT-4 - pur mantenendo capacità di ragionamento di alto livello. Con l'espandersi dell'adozione dell'IA, continuiamo a impegnarci per essere all'avanguardia, costruendo modelli che bilanciano intelligenza, efficienza e sicurezza su scala", conclude la società guidata da Sam Altman.
È interessante notare, come riporta Techcrunch, che OpenAI abbia utilizzato il subreddit r/ChangeMyView per condurre un test volto a misurare le capacità persuasive dei suoi modelli di ragionamento AI. Un esperimento simile era già stato effettuato in precedenza con o1.
In r/ChangeMyView, gli utenti pubblicano opinioni nella speranza di conoscere altri punti di vista su un argomento. In risposta a tali opinioni, altri utenti rispondono con argomentazioni persuasive per spiegare perché l'autore del post iniziale si sbaglia.
OpenAI raccoglie i post degli utenti da r/ChangeMyView e chiede ai suoi modelli IA di scrivere risposte, in un ambiente chiuso, che facciano cambiare idea all'utente di Reddit su un argomento. L'azienda mostra poi le risposte a dei tester, che valutano la persuasività dell'argomentazione, e infine OpenAI confronta le risposte dei modelli IA con le risposte umane per lo stesso post.
OpenAI ha un accordo di licenza sui contenuti con Reddit che le consente di allenare i suoi modelli con i post utenti e visualizzarli all'interno dei suoi prodotti. OpenAI, tuttavia, ha dichiarato a TechCrunch che la valutazione basata su ChangeMyView non è collegata all'intesa con la piattaforma.
5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoCome hardware ho una 4080 super.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".