Google Gemini 2.5 batte quasi tutti gli umani all'ICPC: risolve un problema impossibile per 139 squadre

Redazione di Hardware Upg · 19-09-2025, 16:01

Link alla notizia: https://www.hwupgrade.it/news/scienz...re_143712.html

Gemini 2.5 di Google ha risolto 10 dei 12 complessi problemi matematici e algoritmici, tra cui uno che ha messo in difficoltà quasi tutti i partecipanti. Un risultato che secondo l’azienda rappresenta un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale

Click sul link per visualizzare la notizia.

AlPaBo · 19-09-2025, 16:48

L'interpretazione data da Google è (volutamente) ingannevole. L'intelligenza logico deduttiva è solo uno dei vari tipi di intelligenza (per esempio in I 12 tipi d’intelligenza, quale possiedi? se ne citano appunto dodici.

La sola intelligenza logico deduttiva (peraltro quella più facile da implementare in un sistema automatico) è solo una piccola parte dell'intelligenza generale, per cui l'affermazione di Google è tutto meno che corretta.

Come al solito si fa della propaganda per sembrare miglio di quello che si è.

Fantapollo · 19-09-2025, 17:08

Gemini è nettamente piu' avanti di Chatgpt e Grok,
è l'IA che spiega meglio.

Provare per credere...

Google è stata abilissima a recuperare lo svantaggio.

sbaffo · 19-09-2025, 18:48

Quote:

Originariamente inviato da Redazione di Hardware Upgrade

Link alla notizia: https://www.hwupgrade.it/news/scienz...re_143712.html

L'aspetto più rilevante della prestazione di Gemini riguarda però un esercizio in particolare della competizione, che nessuna delle 139 squadre di partecipanti umani è riuscito a risolvere

in compenso Gemini non ne ha risolti 2, non mi pare un gran vanto...

sarebbe utile sapere quanto ha consumato durante la competizione, le avranno dato accesso alla piena potenza dei datacenter per "gestire ininterrottamente un elevato numero di “thinking tokens” per le cinque ore di gara, così da mantenere una catena di ragionamento estesa."
Se ha usato potenze ed energia fuori scala, probabilmente quanto una città

, per (non) battere degli studenti...
vorrei vedere contro i professori come va...

mi sembra un po quegli esperimenti di laboratorio sugli animali, tipo prendi un polipo e gli metti daventi un barattolo chiuso con un' esca dentro, a forza di tentativi imparerà a svitare il tappo per mangiare la preda. Oppure prendi mille topi/una bacinella di formiche, li metti in un labirinto, uno ce la fa ad uscire... allora è un genio dell'escapologia come houdini?

Miccia · 19-09-2025, 19:38

Quote:

Originariamente inviato da AlPaBo

L'interpretazione data da Google è (volutamente) ingannevole.

Non capisco cosa ci sia di ingannevole nel dire "un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale"

LMCH · 19-09-2025, 20:42

Quote:

Originariamente inviato da Miccia

Non capisco cosa ci sia di ingannevole nel dire "un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale"

È ingannevole perchè crolla, si autoincendia ed esplode se si pone il problema in termini leggermente diversi da quelli con cui è stato addestrato.

Tipo se si decora il testo del problema con frasi tipo "44 gattini in fila per 6 con resto di 2 danzano vestiti con tutu multicolore di misura adeguata attorno ai serbatoi esercitando un attrazione gravitazionale non nulla".

Darkon · 20-09-2025, 08:09

Quote:

Originariamente inviato da Fantapollo

Gemini è nettamente piu' avanti di Chatgpt e Grok,
è l'IA che spiega meglio.

Provare per credere...

Google è stata abilissima a recuperare lo svantaggio.

Non è vero, dipende dall'ambito in cui la esamini.

Ad esempio per la revisione del codice è spesso migliore chatGPT mentre per la verosimiglianza di una conversazione "umana" Grok.

Gemini è la migliore per la precisione su domande generaliste molto probabilmente perché ha google alle spalle con una mole di dati enorme.

barzokk · 20-09-2025, 08:41

Quote:

Originariamente inviato da AlPaBo

L'interpretazione data da Google è (volutamente) ingannevole. L'intelligenza logico deduttiva è solo uno dei vari tipi di intelligenza (per esempio in I 12 tipi d’intelligenza, quale possiedi? se ne citano appunto dodici.

La sola intelligenza logico deduttiva (peraltro quella più facile da implementare in un sistema automatico) è solo una piccola parte dell'intelligenza generale, per cui l'affermazione di Google è tutto meno che corretta.

Come al solito si fa della propaganda per sembrare miglio di quello che si è.

"Intelligenza naturalistica"

Quote:

L’intelligenza naturalistica è la capacità di percepire le relazioni tra le specie e le persone, riconoscendo possibili differenze o somiglianze tra loro. Queste persone sono in grado di identificare, discernere, osservare e classificare membri di gruppi o specie di flora e fauna con relativa facilità.

ma vai per funghi và

semmai è una capacità, abilità, tarattatà,
e non un tipo di intelligenza.

Credere a questa gente è sintomo di scarsa intelligenza

pachainti · 20-09-2025, 10:53

Gli LLM non sono in grado di capire quello che stanno facendo, sanno "risolvere" problemi solo se hanno già visto istanze simili durante la fase di addestramento. Possono ricombinare soluzioni già viste, ma non capiscono minimamente le richieste di un problema.

2025 Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad
Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities.

2025 Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics
Our study reveals that current LLMs fall significantly short of solving challenging Olympiad-level problems and frequently fail to distinguish correct mathematical reasoning from clearly flawed solutions. Our analyses demonstrate that the occasional correct final answers provided by LLMs often result from pattern recognition or heuristic shortcuts rather than genuine mathematical reasoning. These findings underscore the substantial gap between LLM performance and human expertise in advanced mathematical reasoning and highlight the importance of developing benchmarks that prioritize the soundness of the reasoning used to arrive at an answer rather than the mere correctness of the final answers.

sbaffo · 21-09-2025, 18:38

l'Ia "matematica" è già stata sputtanata da tempo anche da Apple:
https://arstechnica.com/ai/2024/10/l...chers-suggest/
basta cambiare qualche parametro, metterne qualcuno "inatteso", e sbarella. In pratica riesce a risolvere solo problemi già noti o molto simili, replicando soluzioni già trovate.

AlPaBo · 21-09-2025, 21:02

Quote:

Originariamente inviato da barzokk

"Intelligenza naturalistica"

ma vai per funghi và

semmai è una capacità, abilità, tarattatà,
e non un tipo di intelligenza.

Credere a questa gente è sintomo di scarsa intelligenza

Vedo che quado non capisci una definizione sbarelli.

Inoltre, che l'intelligenza non sia solo di tipo logico matematico e che ci sono molti tipi di intelligenza è ormai cosa ben nota. Ma tu prendi una definizione su dodici e credi di poter criticare i principi di base, del tutto condivisi in ambito scientifico. Una eccezionale dimostrazione di presunzione. Studia il problema prima di ciarlare a caso. Magari un po' di filosofia e psicologia.

Ma d'altra parte ho notato che fai sempre così: nei campi in cui non hai adeguate conoscenze usi "la scuola della vita", ovvero ti riferisci ai tuoi pregiudizi basati su una piccola conoscenza del mondo che frequenti.

Mi sa che i funghi li conosci meglio di me.

NiMx · 23-09-2025, 07:45

Quote:

Originariamente inviato da sbaffo

l'Ia "matematica" è già stata sputtanata da tempo anche da Apple:
https://arstechnica.com/ai/2024/10/l...chers-suggest/
basta cambiare qualche parametro, metterne qualcuno "inatteso", e sbarella. In pratica riesce a risolvere solo problemi già noti o molto simili, replicando soluzioni già trovate.

? L'AI matematica, se intenti gli LLMs, non esiste, che stai a di'?
Ma un llm matematico è come dire "le calcolatrici sono ignoranti perché non sanno scrivere un libro!"
Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano (e difatto questi chatbot, I calcoli complessi te li risolvono eh, ma usano python per i calcoli).

NiMx · 23-09-2025, 07:51

Quote:

Originariamente inviato da pachainti

Gli LLM non sono in grado di capire quello che stanno facendo

Uhm ni, non è così banale e semplice la risposta se leggi gli studi scientifici, o meglio, non è corretto nemmeno definirli calcolatori probabilistici e basta, in quanto gli studi stessi ad oggi non si spiegano benissimo come riescano ad attingere solo dal contesto logico e semantico del topic di riferimento, quasi come se in un qualche modo, seppur diverso da quello umano, lo comprendessero.
Il fatto stesso che chi li ha inventati non ne comprenda a fondo I meccanismi e che tale complessità inizia a sfuggire, fa capire che, in maniera tutta loro, non è più una "specie semplice" facilmente spiegabile e controllabile.

pachainti · 23-09-2025, 08:14

Quote:

Originariamente inviato da NiMx

Uhm ni, non è così banale e semplice la risposta se leggi gli studi scientifici, o meglio, non è corretto nemmeno definirli calcolatori probabilistici e basta, in quanto gli studi stessi ad oggi non si spiegano benissimo come riescano ad attingere solo dal contesto logico e semantico del topic di riferimento, quasi come se in un qualche modo, seppur diverso da quello umano, lo comprendessero.
Il fatto stesso che chi li ha inventati non ne comprenda a fondo I meccanismi e che tale complessità inizia a sfuggire, fa capire che, in maniera tutta loro, non è più una "specie semplice" facilmente spiegabile e controllabile.

Se conosci come funziona il machine learning è proprio cosi, sono solo generatori probabilistici. Che nessuno sappia spiegare le motivazioni è un'aggravante, infatti c'è chi lo definisce una pseudo scienza.
Il machine learning, deep learning e gli LLM, sono basati sull'apprendimento dai dati o IA sub simbolica e non hanno alcuna logica e rappresentazione concettuale del mondo come IA simbolica.
Secondo me la migliore definizione di chatGPT e simili è generatore di stronzate ChatGPT is bullshit.

sbaffo · 23-09-2025, 11:30

Quote:

Originariamente inviato da NiMx

? L'AI matematica, se intenti gli LLMs, non esiste, che stai a di'?
Ma un llm matematico è come dire "le calcolatrici sono ignoranti perché non sanno scrivere un libro!"
Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano (e difatto questi chatbot, I calcoli complessi te li risolvono eh, ma usano python per i calcoli).

ho messo "matematica" tra virgolette apposta, sono i soliti llm applicati alla matematica, come quello della news che stiamo commentando. C'era anche il link ma non l'avrai nemmeono aperto, ti metto quello in italiano che è più facile:
Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale
https://www.tomshw.it/hardware/apple...-ia-2024-10-15

aqua84 · 23-09-2025, 23:16

Quote:

Originariamente inviato da NiMx

Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano

Quando, e SE, una IA riuscirà ad elaborare NUOVE teorie, come ad esempio Einstein e la sua Relatività, allora sarà davvero Intelligente.

Fino ad allora niente che nn sia già stato detto o fatto.

Dobbiamo dire che hanno più memoria e velocità di calcolo di un umano??
Mah…

19-09-2025, 16:48	#2
AlPaBo Senior Member Iscritto dal: Mar 2008 Messaggi: 1761	L'interpretazione data da Google è (volutamente) ingannevole. L'intelligenza logico deduttiva è solo uno dei vari tipi di intelligenza (per esempio in I 12 tipi d’intelligenza, quale possiedi? se ne citano appunto dodici. La sola intelligenza logico deduttiva (peraltro quella più facile da implementare in un sistema automatico) è solo una piccola parte dell'intelligenza generale, per cui l'affermazione di Google è tutto meno che corretta. Come al solito si fa della propaganda per sembrare miglio di quello che si è. __________________ -- C --_____AlPaBo __/____x\_________ _/_______*________

20-09-2025, 10:53	#9
pachainti Senior Member Iscritto dal: May 2020 Messaggi: 1435	Gli LLM non sono in grado di capire quello che stanno facendo, sanno "risolvere" problemi solo se hanno già visto istanze simili durante la fase di addestramento. Possono ricombinare soluzioni già viste, ma non capiscono minimamente le richieste di un problema. 2025 Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities. 2025 Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics Our study reveals that current LLMs fall significantly short of solving challenging Olympiad-level problems and frequently fail to distinguish correct mathematical reasoning from clearly flawed solutions. Our analyses demonstrate that the occasional correct final answers provided by LLMs often result from pattern recognition or heuristic shortcuts rather than genuine mathematical reasoning. These findings underscore the substantial gap between LLM performance and human expertise in advanced mathematical reasoning and highlight the importance of developing benchmarks that prioritize the soundness of the reasoning used to arrive at an answer rather than the mere correctness of the final answers. __________________ Nel tempo dell'inganno universale, dire la verità è un atto rivoluzionario. George Orwell Il vero valore di una persona non si misura dai valori in cui sostiene di credere, ma da che cosa è disposto a fare per proteggerli. Se non pratichi i valori in cui credi, probabilmente non ci credi fino in fondo. Edward Snowden Coloro che rinuncerebbero alla libertà essenziale, per acquistare un po' di sicurezza temporanea, non meritano né libertà né sicurezza. Benjamin Franklin Ultima modifica di pachainti : 20-09-2025 alle 10:56.

19-09-2025, 16:01	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75166	Link alla notizia: https://www.hwupgrade.it/news/scienz...re_143712.html Gemini 2.5 di Google ha risolto 10 dei 12 complessi problemi matematici e algoritmici, tra cui uno che ha messo in difficoltà quasi tutti i partecipanti. Un risultato che secondo l’azienda rappresenta un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale Click sul link per visualizzare la notizia.

19-09-2025, 17:08	#3
Fantapollo Senior Member Iscritto dal: Jan 2020 Messaggi: 414	Gemini è nettamente piu' avanti di Chatgpt e Grok, è l'IA che spiega meglio. Provare per credere... Google è stata abilissima a recuperare lo svantaggio.

21-09-2025, 18:38	#10
sbaffo Senior Member Iscritto dal: Feb 2005 Città: MIa Messaggi: 8545	l'Ia "matematica" è già stata sputtanata da tempo anche da Apple: https://arstechnica.com/ai/2024/10/l...chers-suggest/ basta cambiare qualche parametro, metterne qualcuno "inatteso", e sbarella. In pratica riesce a risolvere solo problemi già noti o molto simili, replicando soluzioni già trovate.

Strumenti
Mostra una versione stampabile Invia questa pagina per email