L'intelligenza artificiale che riflette prima di dare una risposta: ecco Gemini Deep Think
Google ha rilasciato Gemini 2.5 Deep Think, il suo modello AI più avanzato, ora disponibile per gli abbonati AI Ultra. Basato su un'architettura multi-agente, il modello ha già superato Grok 4 di xAI e o3 di OpenAI
di Vittorio Rienzo pubblicata il 05 Agosto 2025, alle 13:17 nel canale WebGoogleGemini
Google ha annunciato ufficialmente il rilascio del modello Gemini 2.5 Deep Think, il suo sistema di intelligenza artificiale più complesso finora, disponibile per gli abbonati al piano AI Ultra da 250 dollari al mese tramite l'app e l'interfaccia web Gemini.
Svelato per la prima volta durante la conferenza Google I/O 2025, Deep Think è un modello multi-agente, capace di esplorare simultaneamente molteplici ipotesi prima di formulare una risposta definitiva.
Questa modalità di elaborazione parallela consente al sistema di eseguire analisi più complesse e articolate, ma chiaramente con un piccolo prezzo da pagare in termini di tempo, oltre che di risorse. Secondo Google, in media una risposta di Deep Think richiede qualche minuto per essere elaborata a causa del maggiore "tempo di riflessione" che consente di analizzare e perfino ricombinare le soluzioni generate. Il tutto, chiaramente, si traduce in un output di maggiore qualità.

Il nuovo modello ha mostrato prestazioni superiori rispetto ai suoi concorrenti in vari benchmark chiave. In Humanity’s Last Exam (HLE), una prova complessa composta da 2.500 domande multidisciplinari, Deep Think ha ottenuto un punteggio del 34,8%, superiore a quello di Grok 4 di xAI (25,4%) e di o3 di OpenAI (20,3%).
Tuttavia, pare che il modello spicchi nelle prove matematiche, come AIME 2025 e l'IMO. In particolare, Google ha mostrato una versione estesa del modello e specificamente ottimizzata che ha addirittura conquistato una medaglia d’oro all'Olimpiade Internazionale della Matematica (IMO).
Tuttavia, per renderlo accessibile all'utenza generale, la versione pubblica di Deep Think è stata ottimizzata per la velocità. In sintesi, la versione pubblica raggiunge livelli da medaglia di bronzo nei test IMO. La versione di cui sopra, però, è stata comunque resa disponibile a una cerchia ristretta di accademici e ricercatori.
Il modello è accessibile come uno strumento integrato nella modalità Gemini 2.5 Pro, ma non compare come opzione autonoma nel menu dei modelli. Ogni utente ha un limite giornaliero di utilizzi – sì, vale anche per gli abbonati a 250 dollari mensili – anche se Google non ha specificato numeri precisi. Inoltre, l’azienda ha confermato che Deep Think verrà esteso prossimamente tramite API Gemini, inizialmente per sviluppatori selezionati.
Parallelamente, il settore dell’intelligenza artificiale sta assistendo a un’evoluzione condivisa verso l’adozione di sistemi multi-agente. Anche xAI, OpenAI e Anthropic stanno lavorando su modelli che adottano un'architettura simile. Tuttavia, il costo elevato del loro utilizzo sembra confermare che tali strumenti rimarranno, almeno per ora, riservati ai piani di abbonamento più costosi.










Plaud NotePin S, il registratore IA si fa indossabile (ma è facile da perdere)
Redmi Watch 6 in prova: lo smartwatch con ampio display da 2000 nit a meno di 100 euro
Mad Catz M.M.O. 7+: lo stesso DNA del R.A.T. 8+ ADV, ma con molti più pulsanti
Hyundai IONIQ 6 N-Line, prova in anteprima: bella e divertente, ha la maturità definitiva
Sospesi i lavori di riparazione delle perdite del modulo russo PrK della Stazione Spaziale Internazionale
Formula V vi farà cambiare l'airflow del case con un gesto: ecco il curioso Air Power G10
Netflix usa l'IA generativa per battere il sovraccarico di contenuti che ha creato
Quando l'AI costruisce sé stessa: Anthropic lancia l'allarme sul punto di non ritorno
Meno ventole, più raffreddamento: Phanteks stravolge il concetto di case per PC
Adidas Trionda: come funziona la tecnologia dentro al pallone ricaricabile dei Mondiali 2026
Withings BodyFit, la bilancia che va ben oltre il solo peso
QNAP annuncia QuTS hero h6.0: il sistema operativo con ZFS si arricchisce di nuove funzionalità, inclusa l'IA
ColorOS 17 con Android 17: la lista dei dispositivi OPPO compatibili 'quasi' ufficiale
DDR4, il ritorno che nessuno si aspettava: perché l'industria ci sta ripensando
Corsair vuole un singolo cavo per collegare tutto: al Computex l'attenzione è su iCUE LINK
Linux 7.2 si avvierà sui Mac M3, ma solo fino alla console seriale
Xiaomi 17T e 17T Pro a prezzi mai visti: questi smartphone non solo costano ora 100€ in meno ma c'è anche un TV da 32'' in omaggio









12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoInfatti! Non c'era bisogno di "esplorare simultaneamente molteplici ipotesi prima di formulare una risposta definitiva" quando questa è già stata ottenuta.
a quale domanda?
Almeno che non ci salverà la IA locale dei nostri PC
Rodney Brooks’ Three Laws of Artificial Intelligence
Three laws of Artificial Intelligence, about how people perceive AI systems, about how they operate in the world and how difficult it is to make them general purpose in any sense.
1) When an AI system performs a task, human observers immediately estimate its general competence in areas that seem related. Usually that estimate is wildly overinflated.
2) Most successful AI deployments have a human somewhere in the loop (perhaps the person they are helping) and their intelligence smooths the edges.
3) Without carefully boxing in how an AI system is deployed there is always a long tail of special cases that take decades to discover and fix. Paradoxically all those fixes are AI-complete themselves.
Giugno 2025 LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [I]We introduce LiveCodeBench Pro, a benchmark composed of problems from Codeforces, ICPC, and IOI that are continuously updated to reduce the likelihood of data contamination. A team of Olympiad medalists annotates every problem for algorithmic categories and conducts a line-by-line analysis of failed model-generated submissions. Using this new data and benchmark, we find that frontier models still have significant limitations: without external tools, the best model achieves only 53% pass@1 on medium-difficulty problems and 0% on hard problems, domains where expert humans still excel. We also find that LLMs succeed at implementation-heavy problems but struggle with nuanced algorithmic reasoning and complex case analysis, often generating confidently incorrect justifications. High performance appears largely driven by implementation precision and tool augmentation, not superior reasoning.
[/I]
Giugno 2025 https://machinelearning.apple.com/research/illusion-of-thinking"]The Illusion of Thinking: Understanding the Strengths and [I]Limitations of Reasoning Models via the Lens of Problem Complexity[/URL]
Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities.
Moreover, they exhibit a counter- intuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget. By comparing LRMs with their standard LLM counterparts under equivalent inference compute, we identify three performance regimes: (1) low- complexity tasks where standard models surprisingly outperform LRMs, (2) medium-complexity tasks where additional thinking in LRMs demonstrates advantage, and (3) high-complexity tasks where both models experience complete collapse.[/I]
Marzo 2025 Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad
[I]Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities.[/I]
Aprile 2025 Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics
[I]Our study reveals that current LLMs fall significantly short of solving challenging Olympiad-level problems and frequently fail to distinguish correct mathematical reasoning from clearly flawed solutions. Our analyses demonstrate that the occasional correct final answers provided by LLMs often result from pattern recognition or heuristic shortcuts rather than genuine mathematical reasoning. These findings underscore the substantial gap between LLM performance and human expertise in advanced mathematical reasoning and highlight the importance of developing benchmarks that prioritize the soundness of the reasoning used to arrive at an answer rather than the mere correctness of the final answers.[/I]
Magari non come noi, ma se vedi l'intera cosiddetta "chain of thoughts" direi che ci si avvicina parecchio.
che è la differenza tra ragionare e non ragionare
Ma che importa? Ti dà o no quello che chiedi? Non c'è scritto da nessuna parte che debbano "ragionare" come noi, sono macchine. E ti mostra anche come fa.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".