Google Gemini 2.5 batte quasi tutti gli umani all'ICPC: risolve un problema impossibile per 139 squadre [Archivio]

Redazione di Hardware Upg

19-09-2025, 15:01

Link alla notizia: https://www.hwupgrade.it/news/scienza-tecnologia/google-gemini-25-batte-quasi-tutti-gli-umani-all-icpc-risolve-un-problema-impossibile-per-139-squadre_143712.html

Gemini 2.5 di Google ha risolto 10 dei 12 complessi problemi matematici e algoritmici, tra cui uno che ha messo in difficoltà quasi tutti i partecipanti. Un risultato che secondo l’azienda rappresenta un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale

Click sul link per visualizzare la notizia.

AlPaBo

19-09-2025, 15:48

Fantapollo

19-09-2025, 16:08

Gemini è nettamente piu' avanti di Chatgpt e Grok,
è l'IA che spiega meglio.

Provare per credere...

Google è stata abilissima a recuperare lo svantaggio.

sbaffo

19-09-2025, 17:48

Link alla notizia: https://www.hwupgrade.it/news/scienza-tecnologia/google-gemini-25-batte-quasi-tutti-gli-umani-all-icpc-risolve-un-problema-impossibile-per-139-squadre_143712.html

L'aspetto più rilevante della prestazione di Gemini riguarda però un esercizio in particolare della competizione, che nessuna delle 139 squadre di partecipanti umani è riuscito a risolvere in compenso Gemini non ne ha risolti 2, non mi pare un gran vanto...

sarebbe utile sapere quanto ha consumato durante la competizione, le avranno dato accesso alla piena potenza dei datacenter per "gestire ininterrottamente un elevato numero di “thinking tokens” per le cinque ore di gara, così da mantenere una catena di ragionamento estesa."
Se ha usato potenze ed energia fuori scala, probabilmente quanto una città :D , per (non) battere degli studenti...
vorrei vedere contro i professori come va...

mi sembra un po quegli esperimenti di laboratorio sugli animali, tipo prendi un polipo e gli metti daventi un barattolo chiuso con un' esca dentro, a forza di tentativi imparerà a svitare il tappo per mangiare la preda. Oppure prendi mille topi/una bacinella di formiche, li metti in un labirinto, uno ce la fa ad uscire... allora è un genio dell'escapologia come houdini?

Miccia

19-09-2025, 18:38

L'interpretazione data da Google è (volutamente) ingannevole.

Non capisco cosa ci sia di ingannevole nel dire "un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale"

LMCH

19-09-2025, 19:42

Non capisco cosa ci sia di ingannevole nel dire "un segnale concreto dello sviluppo dell'IA verso l'intelligenza generale"

È ingannevole perchè crolla, si autoincendia ed esplode se si pone il problema in termini leggermente diversi da quelli con cui è stato addestrato.

Tipo se si decora il testo del problema con frasi tipo "44 gattini in fila per 6 con resto di 2 danzano vestiti con tutu multicolore di misura adeguata attorno ai serbatoi esercitando un attrazione gravitazionale non nulla". :Prrr:

Darkon

20-09-2025, 07:09

Gemini è nettamente piu' avanti di Chatgpt e Grok,
è l'IA che spiega meglio.

Provare per credere...

Google è stata abilissima a recuperare lo svantaggio.

Non è vero, dipende dall'ambito in cui la esamini.

Ad esempio per la revisione del codice è spesso migliore chatGPT mentre per la verosimiglianza di una conversazione "umana" Grok.

Gemini è la migliore per la precisione su domande generaliste molto probabilmente perché ha google alle spalle con una mole di dati enorme.

barzokk

20-09-2025, 07:41

L'interpretazione data da Google è (volutamente) ingannevole. L'intelligenza logico deduttiva è solo uno dei vari tipi di intelligenza (per esempio in I 12 tipi d’intelligenza, quale possiedi? (https://angolopsicologia.com/tipi-di-intelligenza/) se ne citano appunto dodici.

La sola intelligenza logico deduttiva (peraltro quella più facile da implementare in un sistema automatico) è solo una piccola parte dell'intelligenza generale, per cui l'affermazione di Google è tutto meno che corretta.

Come al solito si fa della propaganda per sembrare miglio di quello che si è.
"Intelligenza naturalistica" :asd:

L’intelligenza naturalistica è la capacità di percepire le relazioni tra le specie e le persone, riconoscendo possibili differenze o somiglianze tra loro. Queste persone sono in grado di identificare, discernere, osservare e classificare membri di gruppi o specie di flora e fauna con relativa facilità.

ma vai per funghi và :asd:
semmai è una capacità, abilità, tarattatà,
e non un tipo di intelligenza.

Credere a questa gente è sintomo di scarsa intelligenza :asd:

pachainti

20-09-2025, 09:53

Gli LLM non sono in grado di capire quello che stanno facendo, sanno "risolvere" problemi solo se hanno già visto istanze simili durante la fase di addestramento. Possono ricombinare soluzioni già viste, ma non capiscono minimamente le richieste di un problema.

2025 Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad (https://arxiv.org/abs/2503.21934)
Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities.

2025 Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics (https://arxiv.org/pdf/2503.21934)
Our study reveals that current LLMs fall significantly short of solving challenging Olympiad-level problems and frequently fail to distinguish correct mathematical reasoning from clearly flawed solutions. Our analyses demonstrate that the occasional correct final answers provided by LLMs often result from pattern recognition or heuristic shortcuts rather than genuine mathematical reasoning. These findings underscore the substantial gap between LLM performance and human expertise in advanced mathematical reasoning and highlight the importance of developing benchmarks that prioritize the soundness of the reasoning used to arrive at an answer rather than the mere correctness of the final answers.

sbaffo

21-09-2025, 17:38

AlPaBo

21-09-2025, 20:02

"Intelligenza naturalistica" :asd:

ma vai per funghi và :asd:
semmai è una capacità, abilità, tarattatà,
e non un tipo di intelligenza.

Credere a questa gente è sintomo di scarsa intelligenza :asd:

Vedo che quado non capisci una definizione sbarelli.

Inoltre, che l'intelligenza non sia solo di tipo logico matematico e che ci sono molti tipi di intelligenza è ormai cosa ben nota. Ma tu prendi una definizione su dodici e credi di poter criticare i principi di base, del tutto condivisi in ambito scientifico. Una eccezionale dimostrazione di presunzione. Studia il problema prima di ciarlare a caso. Magari un po' di filosofia e psicologia.

Ma d'altra parte ho notato che fai sempre così: nei campi in cui non hai adeguate conoscenze usi "la scuola della vita", ovvero ti riferisci ai tuoi pregiudizi basati su una piccola conoscenza del mondo che frequenti.

Mi sa che i funghi li conosci meglio di me.

NiMx

23-09-2025, 06:45

l'Ia "matematica" è già stata sputtanata da tempo anche da Apple:
https://arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/
basta cambiare qualche parametro, metterne qualcuno "inatteso", e sbarella. In pratica riesce a risolvere solo problemi già noti o molto simili, replicando soluzioni già trovate.

? L'AI matematica, se intenti gli LLMs, non esiste, che stai a di'?
Ma un llm matematico è come dire "le calcolatrici sono ignoranti perché non sanno scrivere un libro!"
Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano (e difatto questi chatbot, I calcoli complessi te li risolvono eh, ma usano python per i calcoli).

NiMx

23-09-2025, 06:51

Gli LLM non sono in grado di capire quello che stanno facendo

Uhm ni, non è così banale e semplice la risposta se leggi gli studi scientifici, o meglio, non è corretto nemmeno definirli calcolatori probabilistici e basta, in quanto gli studi stessi ad oggi non si spiegano benissimo come riescano ad attingere solo dal contesto logico e semantico del topic di riferimento, quasi come se in un qualche modo, seppur diverso da quello umano, lo comprendessero.
Il fatto stesso che chi li ha inventati non ne comprenda a fondo I meccanismi e che tale complessità inizia a sfuggire, fa capire che, in maniera tutta loro, non è più una "specie semplice" facilmente spiegabile e controllabile.

pachainti

23-09-2025, 07:14

Uhm ni, non è così banale e semplice la risposta se leggi gli studi scientifici, o meglio, non è corretto nemmeno definirli calcolatori probabilistici e basta, in quanto gli studi stessi ad oggi non si spiegano benissimo come riescano ad attingere solo dal contesto logico e semantico del topic di riferimento, quasi come se in un qualche modo, seppur diverso da quello umano, lo comprendessero.
Il fatto stesso che chi li ha inventati non ne comprenda a fondo I meccanismi e che tale complessità inizia a sfuggire, fa capire che, in maniera tutta loro, non è più una "specie semplice" facilmente spiegabile e controllabile.

Se conosci come funziona il machine learning è proprio cosi, sono solo generatori probabilistici. Che nessuno sappia spiegare le motivazioni è un'aggravante, infatti c'è chi lo definisce una pseudo scienza (https://telegra.ph/Is-machine-learning-a-pseudo-science-12-13).
Il machine learning, deep learning e gli LLM, sono basati sull'apprendimento dai dati o IA sub simbolica e non hanno alcuna logica e rappresentazione concettuale del mondo come IA simbolica.
Secondo me la migliore definizione di chatGPT e simili è generatore di stronzate ChatGPT is bullshit (https://link.springer.com/article/10.1007/s10676-024-09775-5).

sbaffo

23-09-2025, 10:30

? L'AI matematica, se intenti gli LLMs, non esiste, che stai a di'?
Ma un llm matematico è come dire "le calcolatrici sono ignoranti perché non sanno scrivere un libro!"
Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano (e difatto questi chatbot, I calcoli complessi te li risolvono eh, ma usano python per i calcoli).
ho messo "matematica" tra virgolette apposta, sono i soliti llm applicati alla matematica, come quello della news che stiamo commentando. C'era anche il link ma non l'avrai nemmeono aperto, ti metto quello in italiano che è più facile:
Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale
https://www.tomshw.it/hardware/apple-svela-le-falle-nel-ragionamento-delle-ia-2024-10-15

aqua84

23-09-2025, 22:16

Spoiler : se dai ad un llm un tool esterno, diventa allora molto più brava di qualsiasi umano

Quando, e SE, una IA riuscirà ad elaborare NUOVE teorie, come ad esempio Einstein e la sua Relatività, allora sarà davvero Intelligente.

Fino ad allora niente che nn sia già stato detto o fatto.

Dobbiamo dire che hanno più memoria e velocità di calcolo di un umano??
Mah…