OpenAI risponde a DeepSeek con o3-mini: il nuovo modello IA che ragiona è più economico
OpenAI ha rilasciato o3-mini, il nuovo modello della serie di IA che ragionano, disponibile su ChatGPT e API. o3-mini eguaglia le prestazioni di o1 in matematica, coding e scienze, con risposte più rapide e costi ridotti. Per la prima volta, un modello di ragionamento è accessibile agli utenti free.
di Manolo De Agostini pubblicata il 01 Febbraio 2025, alle 06:47 nel canale WebChatGPTOpenAI
OpenAI ha introdotto o3-mini, il più recente modello della sua serie di intelligenze artificiali focalizzate sul ragionamento. L'azienda l'aveva anticipato poco prima di Natale. L'arrivo di o3-mini arriva a non molti giorni dall'arrivo sulla scena di DeepSeek e Qwen, i modelli IA cinesi che hanno dato prova di essere al livello, se non migliori, con le proposte delle Big Tech americane.
Disponibile sia su ChatGPT che tramite API, o3-mini offre prestazioni comparabili a quelle di o1 in settori chiave come la matematica, il coding e le applicazioni scientifiche, ma con un notevole risparmio in termini di costi e latenza, rendendolo un'opzione più accessibile ed efficiente per utenti e sviluppatori.
Codifica competitiva: nella programmazione competitiva di Codeforces, OpenAI o3-mini ottiene punteggi Elo progressivamente più alti con l'aumento dello sforzo di ragionamento, superando sempre o1-mini. Con uno sforzo di ragionamento medio, eguaglia le prestazioni di o1
Una delle novità più importanti di o3-mini è che per la prima volta un modello avanzato di ragionamento viene reso disponibile anche per gli utenti free di ChatGPT. Gli utenti potranno provarlo selezionando l'opzione "Reason" nella chat o rigenerando una risposta.
Gli utenti Plus, Team e Pro avranno accesso immediato a o3-mini, con un notevole miglioramento dell'esperienza: il limite giornaliero per i messaggi degli utenti Plus passa da 50 a 150, mentre per gli utenti Pro non ci saranno più limiti. L'accesso per gli utenti Enterprise & Edu seguirà nelle prossime settimane.
Queste le caratteristiche principali di OpenAI o3-mini:
- Più veloce ed efficiente: o3-mini risponde 24% più rapidamente rispetto a o1-mini, mantenendo prestazioni elevate nei campi STEM (scienze, tecnologia, ingegneria e matematica)
- Maggiore accuratezza: secondo test esterni, o3-mini fornisce risposte preferite dagli utenti il 56% delle volte, con una riduzione del 39% degli errori gravi nelle domande complesse rispetto a o1-mini
- Migliorato per il coding: con un livello di ragionamento medio o alto, o3-mini supera o1 in alcune attività di programmazione, riducendo costi e tempi di risposta
o3-mini è pronto per essere integrato nelle applicazioni di aziende e sviluppatori. Supporta funzionalità chiave come function calling, output strutturati, streaming e messaggi per sviluppatori, rendendo l'integrazione semplice ed efficace.
Gli sviluppatori possono personalizzare il livello di ragionamento dell'AI – basso, medio o alto – in base alle esigenze specifiche, ottimizzando così il bilanciamento tra velocità e precisione. Questo lo rende particolarmente utile in ambiti come la programmazione avanzata, i calcoli scientifici e l'analisi complessa di dati.
Matematica: con un basso sforzo di ragionamento, OpenAI o3-mini raggiunge prestazioni paragonabili a quelle di OpenAI o1-mini, mentre con uno sforzo medio, o3-mini raggiunge prestazioni paragonabili a quelle di o1. Nel frattempo, con un elevato sforzo di ragionamento, o3-mini supera sia OpenAI o1-mini sia OpenAI o1, dove le regioni ombreggiate in grigio mostrano le prestazioni del voto di maggioranza (consenso) con 64 sample
Ulteriori informazioni in questo post di OpenAI. "Il rilascio di OpenAI o3-mini segna un altro passo avanti nella missione di OpenAI di superare i confini dell'intelligenza a basso costo. Ottimizzando il ragionamento per i settori STEM e mantenendo i costi bassi, stiamo rendendo l'intelligenza artificiale di alta qualità ancora più accessibile. Questo modello continua il nostro percorso di riduzione del costo dell'intelligenza - riducendo i prezzi per token del 95% dal lancio di GPT-4 - pur mantenendo capacità di ragionamento di alto livello. Con l'espandersi dell'adozione dell'IA, continuiamo a impegnarci per essere all'avanguardia, costruendo modelli che bilanciano intelligenza, efficienza e sicurezza su scala", conclude la società guidata da Sam Altman.
È interessante notare, come riporta Techcrunch, che OpenAI abbia utilizzato il subreddit r/ChangeMyView per condurre un test volto a misurare le capacità persuasive dei suoi modelli di ragionamento AI. Un esperimento simile era già stato effettuato in precedenza con o1.
In r/ChangeMyView, gli utenti pubblicano opinioni nella speranza di conoscere altri punti di vista su un argomento. In risposta a tali opinioni, altri utenti rispondono con argomentazioni persuasive per spiegare perché l'autore del post iniziale si sbaglia.
OpenAI raccoglie i post degli utenti da r/ChangeMyView e chiede ai suoi modelli IA di scrivere risposte, in un ambiente chiuso, che facciano cambiare idea all'utente di Reddit su un argomento. L'azienda mostra poi le risposte a dei tester, che valutano la persuasività dell'argomentazione, e infine OpenAI confronta le risposte dei modelli IA con le risposte umane per lo stesso post.
OpenAI ha un accordo di licenza sui contenuti con Reddit che le consente di allenare i suoi modelli con i post utenti e visualizzarli all'interno dei suoi prodotti. OpenAI, tuttavia, ha dichiarato a TechCrunch che la valutazione basata su ChangeMyView non è collegata all'intesa con la piattaforma.










HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
StackWarp: una nuova vulnerabilità prende di mira la virtualizzazione sicura dei processori AMD
Il telescopio spaziale James Webb ha catturato un'immagine del buco nero al centro della Galassia del Compasso
Il razzo spaziale europeo Ariane 6 lancerà i primi satelliti Amazon Leo il 12 febbraio
Il lander lunare Blue Origin Blue Moon MK1 ha superato la prova da 138 dB, ora si passerà ad altri test
Gli LLM riescono a risolvere problemi matematici complessi: cosa significa e perché è importante
Smettila con quei cioccolatini. Per San Valentino regala un mouse di Steelseries
Il secondo lancio del razzo spaziale europeo Spectrum di Isar Aerospace potrebbe avvenire il 21 gennaio
MaiaSpace ed Eutelsat stringono un accordo per lanciare satelliti OneWeb a partire dal 2027
Motorola edge 60 neo sorprende: compatto, costa il giusto e la batteria dura tantissimo
Zeekr 007 e 007GT si aggiornano: piattaforma a 900 volt e nuovo chip NVIDIA Thor-U da 700 TOPS
ASUS ROG Swift OLED PG27AQWP-W: 720 Hz e 0,02 ms bastano per il gaming competitivo?
È super il prezzo del robot rasaerba Bosch Indego S+ 500: ora è al minimo storico su Amazon
MediaTek aggiorna la gamma di Dimensity: tra le novità c'è il 9500s a 3 nm
Foto intime sottratte dai telefoni in riparazione e finite su Telegram: a Rovigo nuovo caso dopo 'Mia Moglie'









5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoCome hardware ho una 4080 super.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".