L'IA adesso può anche 'ragionare': OpenAI o1 è il primo modello per risolvere problemi complessi

OpenAI, la società madre di ChatGPT, ha presentato i suoi nuovi modelli di intelligenza artificiale o1-preview e o1-mini, progettati per migliorare le capacità di ragionamento e problem-solving. Promettono prestazioni superiori in ambiti come la programmazione competitiva e il ragionamento scientifico.

di Nino Grasso pubblicata il 13 Settembre 2024, alle 08:41 nel canale Web
OpenAI

OpenAI ha svelato la sua ultima creazione nel campo dell'intelligenza artificiale: i modelli o1-preview e o1-mini. Collettivamente noti come famiglia "OpenAI o1", rappresentano un notevole progresso nelle capacità di "ragionamento" e risoluzione dei problemi dei sistemi AI.

L'azienda afferma che o1-preview supera il suo predecessore, GPT-4o, in diversi benchmark cruciali come programmazione competitiva, matematica e il cosiddetto "ragionamento scientifico". Tuttavia, chi ha già avuto accesso al modello ha segnalato che il nuovo modello non eccelle uniformemente in tutte le metriche rispetto a GPT-4o, evidenziando come ci siano ritardi nelle risposte a causa dell'elaborazione in più fasi compiuta per i "ragionamenti".

OpenAI presenta il suo primo LLM in grado di risolvere problemi complessi

Un aspetto distintivo di o1-preview è infatti la sua capacità di affrontare compiti complessi in modo iterativo. OpenAI ha implementato un nuovo approccio di addestramento basato sul rinforzo, che insegna al modello a dedicare più tempo alla riflessione sui problemi prima di fornire una risposta. Questa metodologia permette a o1 di sperimentare diverse strategie per ogni query e di riconoscere i propri errori, mimando in qualche modo il processo di elaborazione dei problemi tipico del pensiero umano.

Secondo quanto dichiara OpenAI, le prestazioni di o1-preview sono state particolarmente impressionanti in alcuni ambiti specifici. Il modello si è classificato all'89° percentile nelle domande di programmazione competitiva di Codeforces e ha ottenuto l'83% in un esame di qualificazione per le Olimpiadi internazionali di matematica, un netto miglioramento rispetto al 13% raggiunto da GPT-4o. Nonostante i risultati promettenti, la stessa OpenAI invita a mantenere aspettative realistiche: Joanne Jang, product manager dell'azienda, ha sottolineato su X che o1 non è ancora un "modello miracoloso" in grado di superare i suoi predecessori in ogni aspetto.

Si tratta, invece, del "primo modello di ragionamento che brilla in compiti davvero difficili", e i suoi risultati non potranno che migliorare secondo la dirigente. Le attese sui modelli della serie o1 sono comunque elevate, con il nuovo LLM che è già stato dato in pasto ai primi utenti con accesso anticipato: il professor Ethan Mollick di Wharton, ad esempio, lo ha definito "affascinante", notando che, sebbene non eccella in tutti i compiti, riesce a risolvere alcuni problemi in precedenza particolarmente complessi per gli LLM modelli linguistici di grandi dimenioni. In questa pagina trovate i risultati dei suoi esperimenti.

L'introduzione di o1 ha anche riacceso il dibattito sulla terminologia utilizzata per descrivere le capacità dell'IA. Esemplare il commento di Clement Delangue, CEO di Hugging Face, in tal senso, che ha messo in guardia contro l'uso di termini antropomorfici come "pensiero" o "ragionamento" per descrivere le operazioni di questi sistemi. Gli LLM, infatti, si limitano ad "elaborare" o "eseguire previsioni", di certo non possono né pensare o ragionare.

È da notare, comunque, che o1-preview presenta diverse limitazioni rispetto ai modelli precedenti. Mancano funzionalità come la navigazione web, la generazione di immagini e il caricamento di file, che OpenAI prevede di aggiungere in futuri aggiornamenti. L'arrivo di o1 segue mesi di speculazioni e anticipazioni, alimentate da report che suggerivano potenziali rischi legati a un nuovo modello di OpenAI. Tuttavia, le prime impressioni suggeriscono che, sebbene o1 rappresenti un progresso significativo in termini di problem-solving, non costituisce la minaccia immediata all'umanità paventata da alcuni.

o1-preview e o1-mini, un modello di dimensioni minori e sensibilmente più economico progettato specificamente per attività di coding, sono adesso in distribuzione graduale agli utenti di ChatGPT Plus e ad alcuni sviluppatori di API.

I migliori sconti su Amazon oggi

-45%

LG OLED evo 48'', Serie C4 2024, OLED48C46LA, Smart TV 4K, Processore

1499.00 824.00€ Compra ora

-5%

Samsung TV QE55S94DAEXZT OLED 4K, Smart TV 55" Processore NQ4 AI GEN2, Infinity One, DVBT-2, Q-Symphony & Dolby Atmos, compatibile con Bixby, Alexa e Google Assistant, Carbon Silver 2024

949.00 899.00€ Compra ora

-11%

Apple iPhone 16e 128 GB: progettato per Apple Intelligence, con chip A18, un’autonomia grandiosa, fotocamera Fusion da 48MP e display Super Retina XDR 6,1''; Bianco

729.00 649.00€ Compra ora

Until Dawn Remake: Unreal Engine 5 e ray tracing avanzato su PC, ecco i requisiti

Unity fa marcia indietro: dopo un anno dice addio alla 'tassa sulle installazioni' per gli sviluppatori di giochi

OUTATIME13 Settembre 2024, 09:44 #1

Skynet è iniziato così.
Speriamo che a nessun genio umano venga mai in mente di collegarlo ai computer militari

pachainti13 Settembre 2024, 12:56 #2

ChatGPT is bullshit

TorettoMilano13 Settembre 2024, 13:05 #3

vengono perfezionate sempre più, c'è da sbrigarsi ad adeguare la società e ad aggiornare il concetto di "lavoro"

Alodesign13 Settembre 2024, 13:47 #4

Originariamente inviato da: TorettoMilano

vengono perfezionate sempre più, c'è da sbrigarsi ad adeguare la società e ad aggiornare il concetto di "lavoro"

Se il governo mi elargisce aggratis un pezzo di terreno, sono pronto a coltivarlo!

zbear13 Settembre 2024, 18:05 #5

Le pseudo IA attuali NON ragionano. Al limite possono calcolare con più precisione. Sono algoritmi STUPIDI, non vera intelligenza artificiale.....

zancle13 Settembre 2024, 21:03 #6

Originariamente inviato da: zbear

Le pseudo IA attuali NON ragionano. Al limite possono calcolare con più precisione. Sono algoritmi STUPIDI, non vera intelligenza artificiale.....

concordo con te, ma 90% del lavoro di un programmatore, di un impiegato, di un medico ecc... non è che preveda chi sa che di elaborazioni mentali e lampi di genio.

Fantapollo13 Settembre 2024, 21:11 #7

Originariamente inviato da: zbear

Le pseudo IA attuali NON ragionano. Al limite possono calcolare con più precisione. Sono algoritmi STUPIDI, non vera intelligenza artificiale.....

Purtroppo o per fortuna ti sbagli, le IA attuali non sono pseudo, ragionano proprio.
Il tuo commento è quello che scrivevo io prima di averle provate...

Manu197614 Settembre 2024, 09:52 #8

è impressionante la % di risposta nella gara matematica...ci sarà sicuramente nel prossimo futuro un miglioramento tale per chiedergli di dimostrare teoremi ancora indimostrati, oppure "hei, dimostra il teorema di fermat con la matematica del 17° secolo".

OUTATIME14 Settembre 2024, 10:42 #9

Originariamente inviato da: zbear

Le pseudo IA attuali NON ragionano. Al limite possono calcolare con più precisione. Sono algoritmi STUPIDI, non vera intelligenza artificiale.....

Il ragionamento inizia quando l'algoritmo fa calcolare una soluzione differente e mai sperimentata.

randorama14 Settembre 2024, 11:46 #10

Originariamente inviato da: OUTATIME

Il ragionamento inizia quando l'algoritmo fa calcolare una soluzione differente e mai sperimentata.

beh, a questo punto possiamo dire che il 99 e rotti % della popolazione umana non ragiona.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

Recensione Samsung Galaxy Z Fold7: un grande salto generazionale Abbiamo provato per molti giorni il nuovo Z Fold7 di Samsung, un prodotto davvero interessante e costruito nei minimi dettagli. Rispetto al predecessore, cambiano...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

L'IA adesso può anche 'ragionare': OpenAI o1 è il primo modello per risolvere problemi complessi

OpenAI presenta il suo primo LLM in grado di risolvere problemi complessi

LG OLED evo 48'', Serie C4 2024, OLED48C46LA, Smart TV 4K, Processore

Samsung TV QE55S94DAEXZT OLED 4K, Smart TV 55" Processore NQ4 AI GEN2, Infinity One, DVBT-2, Q-Symphony & Dolby Atmos, compatibile con Bixby, Alexa e Google Assistant, Carbon Silver 2024

Apple iPhone 16e 128 GB: progettato per Apple Intelligence, con chip A18, un’autonomia grandiosa, fotocamera Fusion da 48MP e display Super Retina XDR 6,1''; Bianco

20 Commenti