Google AI Overviews sbaglia poco, ma tanto: 57 milioni di risposte false all'ora
Un'indagine del New York Times basata sui benchmark della startup Oumi rivela che le AI Overviews di Google sbagliano circa il 10% delle volte. Su 5 trilioni di ricerche l'anno, significa oltre 57 milioni di risposte errate ogni ora. E più della metà delle risposte "corrette" cita fonti che non supportano le affermazioni
di Andrea Bai pubblicata il 09 Aprile 2026, alle 08:48 nel canale WebUn'analisi del New York Times pubblicata nei giorni scorsi ha messo sotto i riflettori uno degli asset strategici attualmente più importanti per Google: le AI Overviews, i box di risposta generati da Gemini che compaiono in cima ai risultati di ricerca. La conclusione numerica è sembra essre rassicurante, ma uno sguardo più attento permette di cogliere un problema di scala ben più preoccupante: le AI Overviews sono corrette circa il 90-91% delle volte, ma su cinque trilioni di ricerche l'anno elaborate da Google, quel 10% di errori si traduce in oltre 57 milioni di risposte sbagliate ogni ora.
Il benchmark usato nell'indagine è SimpleQA, sviluppato dalla startup di ricerca AI Oumi, che comprende oltre 4.000 domande con risposte fattuali verificabili. I risultati mostrano un miglioramento progressivo: con Gemini 2 (ottobre 2025) le AI Overviews rispondevano correttamente all'85% delle domande; con Gemini 3 (febbraio 2026) il tasso è salito all'91%. Un progresso reale, ma insufficiente a contenere il volume assoluto di errori generato dalla portata globale del motore di ricerca.
Google vs Oumi: due misure, due realtà
La frattura più significativa emersa dall'inchiesta non riguarda i numeri in sé, ma chi li produce e con quali metodiche. Per Oumi, SimpleQA è uno standard riconosciuto nel settore per valutare l'accuratezza fattuale dei modelli AI generativi: oltre 4.000 domande con risposta univoca e verificabile, progettate per misurare quanto un sistema si fidi di sé stesso su affermazioni concrete. Applicato alle AI Overviews con Gemini 3, il risultato è un tasso di errore del 9-10%.

Un quadro che viene contestato da Google per due aspetti. Il primo è metodologico: secondo l'azienda, SimpleQA contiene i propri errori e, soprattutto, non rispecchia la distribuzione reale delle query degli utenti, dato che chi cerca su Google raramente pone domande con risposta binaria e verificabile come quelle del benchmark. Il secondo fronte è ancora più scomodo: i dati interni di Google, emersi dall'indagine giornalistica del NYT e non divulgati spontaneamente dall'azienda, indicano che la sua valutazione proprietaria, basata su un dataset più ristretto chiamato SimpleQA Verified, con risposte validate in modo più stringente, colloca il tasso di errore al 28%. Una cifra tre volte superiore a quella di Oumi, prodotta con uno strumento che Google stesso considera più affidabile del benchmark esterno. Quello che emerge è però una contraddizione che desta più di una perplessità: Mountain View sostiene che SimpleQA sopravvaluti gli errori, mentre i propri dati interni mostrano un quadro ancora peggiore.
Google ha ribadito che le AI Overviews sono affiancate da link alle fonti e da un avviso esplicito in fondo al riquadro: "Le risposte dell'AI potrebbero contenere errori". La posizione ufficiale è che questo avvertimento sia sufficiente per informare l'utente. Pratik Verma di Okahu, citato nell'indagine NYT, ha osservato che la tecnologia di Google "è paragonabile ad altri sistemi AI leader": un'affermazione che suona come una difesa ma che, nei fatti, non fa altro che evidenziare che tutti i modelli linguistici di frontiera allucinano a tassi significativi, e nessuno di loro è stato originariamente progettato per rispondere a cinque trilioni di ricerche l'anno in qualità di editore primario di informazione.
Il fenomeno delle risposte "ungrounded"
Al di là del dibattito sul benchmark, c'è un terzo dato che nessuna delle due parti contesta e che è probabilmente il più insidioso: quello delle risposte cosidderr "ungrounded". Si tratta di risposte che risultano tecnicamente corrette ma le cui fonti citate non supportano effettivamente l'affermazione riportata. In ottobre 2025, il 37% delle risposte corrette era ungrounded. A febbraio 2026, quella percentuale è salita al 56%, nonostante il modello fosse diventato più accurato nel complesso. Per riparametrare questi numeri, significa che più di una risposta su due che Google presenta come corretta non può essere verificata cliccando sulle fonti indicate. Il sistema di citazione, che dovrebbe permettere all'utente di risalire all'informazione originale, è decorativo nella maggior parte dei casi.
Tra le 5.380 fonti analizzate nello studio Oumi, Facebook e Reddit figurano rispettivamente come secondo e quarto dominio più citato nelle AI Overviews. Nelle risposte errate, Facebook viene citato nel 7% dei casi, contro il 5% delle risposte corrette. Il modello non distingue in modo affidabile tra una fonte accademica e un post su un gruppo Facebook, né tra una pagina ufficiale e un thread Reddit.
Errori documentati e il caso delle query mediche
L'indagine del NYT ha documentato errori specifici e verificabili. Le AI Overviews hanno indicato il 1987 come anno di apertura del Bob Marley Museum (la data corretta è 11 maggio 1986), hanno fornito informazioni sulla presunta morte di Hulk Hogan senza segnalare la contraddizione con gli articoli di notizie visibili appena sotto il riquadro AI, e hanno sbagliato il nome del fiume che scorre a ovest di Goldsboro, NC, indicando il Neuse River anziché il Little River.
Il contesto più critico rimane però quello delle query mediche. Un'indagine del Guardian di gennaio 2026, citata nell'articolo del NYT, aveva già documentato che le AI Overviews fornivano consigli sanitari pericolosi nel 44% delle ricerche mediche analizzate, incluse indicazioni errate per pazienti oncologici e interpretazioni fuorvianti dei test di funzionalità epatica. Google ha risposto rimuovendo le AI Overviews da un sottoinsieme di query sanitarie specifiche, senza però rendere pubblico l'elenco delle query escluse né i criteri di selezione adottati.
La questione di scala che a cui nessun metodo risponde
Che si accetti il 10% di Oumi o il 28% di Google, il problema di fondo non cambia: entrambe le cifre, moltiplicate per la scala del motore di ricerca più usato al mondo, producono un volume di disinformazione senza precedenti nella storia dei media. Quando Google ha introdotto le AI Overviews nel 2024, ha trasformato il suo ruolo da aggregatore di link a publisher diretto di contenuti. Quella transizione ha spostato su Google stesso la responsabilità dell'accuratezza delle risposte, una responsabilità che i numeri emersi dall'indagine del NYT, qualunque benchmark si scelga di credere, suggeriscono non sia ancora gestita in modo adeguato alla portata del sistema.










Recensione Xiaomi Pad 8 Pro: potenza bruta e HyperOS 3 per sfidare la fascia alta
NZXT H9 Flow RGB+, Kraken Elite 420 e F140X: abbiamo provato il tris d'assi di NZXT
ASUS ROG Swift OLED PG34WCDN recensione: il primo QD-OLED RGB da 360 Hz
OPPO sta per lanciare il nuovo Pad 5 Pro: un super tablet per conquistare la fascia alta
I computer con Snapdragon X supportano ora 25 nuovi giochi
Unitree H1: il robot umanoide vicino al record mondiale dei 100 metri
GPU esterne: PCI-SIG porta le prestazioni vicine al 100%, ma il collegamento costa più di una RTX 5090
Per Lenovo i giocatori sono ricchi: Legion Go 2 arriva quasi a raddoppiare il prezzo
Polaroid lancia la nuova stampante Hi-Print 3x3 pensata per le stampe quadrate
Da Kyndryl un gemello digitale per il digital workplace
La Cina si prepara a una nuova missione sulla Luna: Chang'e-7 avrà un rover e un hopper oltre a lander e orbiter
Climatizzatore Inverter A++ con Wi-Fi a 289,90€: le specifiche tecniche del COMFEE' TROPICAL 12K in offerta su Amazon
NZXT Flex, lo 'scandalo' del PC gaming a noleggio si chiude con un accordo da 3,45 milioni di dollari
Robot lavavetri in offerta su Amazon: ECOVACS WINBOT W3 OMNI, 16 ugelli e niente stracci da sciacquare
Attenti a questo update fake di Windows 11: bypassa l'antivirus e svuota i conti
NIO chiede la standardizzazione di batterie e chip nelle auto elettriche: risparmi possibili per 12 miliardi di euro
Da 80 mesi-uomo a poche ore: l'AI cambia la progettazione dei chip NVIDIA

31 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoPersonalmente chiedo all ai solo cose che gia so perche vedo che spesso mi da risposte false che sa anche lei di aver detto, questo è l'assurdo se le chiedi "sei sicura" ritratta subito quello che ha detto ribaltando spesso la risposta.
Se usare l'ai spesso è come buttare i dadi mi chiedo per cosa pstata creata, capisco che in certi compiti funziona abbastanza bene ma per la ricerca assolutamente no.
creare foto e video fake di tettone per adescare polli su Facebook
"Elena Conti"
https://www.facebook.com/profile.php?id=61577833226210
morire che ci siano 2 foto della stessa persona...
E nonostante ciò, 13.470 follower, ad ogni foto decine di commenti di morti di f**a
Personalmente chiedo all ai solo cose che gia so perche vedo che spesso mi da risposte false che sa anche lei di aver detto, questo è l'assurdo se le chiedi "sei sicura" ritratta subito quello che ha detto ribaltando spesso la risposta.
Se usare l'ai spesso è come buttare i dadi mi chiedo per cosa pstata creata, capisco che in certi compiti funziona abbastanza bene ma per la ricerca assolutamente no.
Se già sai la risposta qual è il senso di chiederlo all'AI?
Comunque domandare all'AI non è come tirare i dati, esiste la possibilità di errore ma il plus dell'AI è nelle possibili analisi.
Ad esempio sei indeciso tra prodotto A e prodotto B e l'AI potrebbe sbagliare a recuperarne le caratteristiche certo e quindi devi controllare ma una volta controllato che abbia recuperato le caratteristiche corrette ti fa una analisi che ti fa capire se effettivamente nella tua esperienza d'uso è migliore il primo o il secondo dandoti spunti a cui normalmente non avresti nemmeno pensato.
Quindi è ovvio non fidarsi alla cieca ma rimane comunque un valido aiuto nelle scelte quotidiane e nel tirare fuori scenari a cui non penseresti. Un altro aspetto interessante è che ti fa conoscere brand emergenti ad esempio l'altro giorno stavo dando un'occhiata alle novità sugli occhiali smart e con ricerche "standard" uscivano sempre i soliti: rayban, samsung e meta. Invece con l'AI non solo mi ha specificato che esistono vari tipi come AR e VR ma che ci sono marche come xreal che fanno ottimi prodotti ma non sono altrettanto facili da trovare con i canali normali di ricerca.
Poi non ho comprato niente perché ancora penso non si sia al momento giusto e via ma l'AI mi ha permesso di scoprire cose che altrimenti, probabilmente, non avrei mai scoperto.
Quindi ribadisco l'AI ha il suo senso, non va considerata un oracolo o infallibile.
creare foto e video fake di tettone per adescare polli su Facebook
"Elena Conti"
morire che ci siano 2 foto della stessa persona...
E nonostante ciò, 13.470 follower, ad ogni foto decine di commenti di morti di f**a
Questo c'era anche prima dell'AI gnamo... ai tempi di C6, ICQ o MSN erano più i profili fake di quelli reali o poco ci manca.
per ferificare certe informazioni che ho, come uno studioso che torna su un testo per conforntare quello che sa con quello che è scritto.
A maggior ragione non capisco il senso... l'AI non è una fonte è un motore che poi devi verificare e quindi usarlo come verifica mi sembra un paradosso.
Per usare la tua metafoa è come se io fossi uno scienziato e scopro che A+B=C e poi come esperimento di riprova vado su google e provo a cercare A+B=C? Che confermi o smentisca avrebbe un valore nullo e comunque qualunque risposta dia dovrei poi ulteriormente verificarla.
Oh magari sono io che non capisco il tuo approccio eh... ma mi sembra un controsenso.
L'articolo conferma che sono generatori di stronzate anche peggio di quanto credessi. C'era un articolo tempo fa che lo diceva, se lo trovo lo riposto, ma basta googlare e si trova parecchio, anche da fonti autorevoli:
https://www.rivista.ai/2025/07/14/m...care-la-verita/ EDIT: era il paper in fondo a questo articolo
https://www.cst.cam.ac.uk/blog/afb2...omated-bullshit
https://press.princeton.edu/ideas/t...n2UMmGTfkACTxXj
https://thebullshitmachines.com/tab...ents/index.html
Per usare la tua metafoa è come se io fossi uno scienziato e scopro che A+B=C e poi come esperimento di riprova vado su google e provo a cercare A+B=C? Che confermi o smentisca avrebbe un valore nullo e comunque qualunque risposta dia dovrei poi ulteriormente verificarla.
Oh magari sono io che non capisco il tuo approccio eh... ma mi sembra un controsenso.
è solo uno dei livelli di verifica che uso, in base al tuo ragionamento nessuno dovrebbe mai usare l'ai perche essendo i dati spesso contradittori non e non affidabili.
L'ai quando si inventa informazioni (spesso) si comporta esattamente come fonte questo è il problema ti dice cose che solo lei dice e se le chiedi la fonte non sa che rispondere. Poi se le chiedi "sei sicura" ritratta completamente ribaltando la risposta. A me è capitato decine di volte di ottenere dalla stessa ai 2 risposte completamten diverse nello stesso tempo, se vuoi posso farti esempi concreti delle ultime che ricordo.
L'ai quando si inventa informazioni (spesso) si comporta esattamente come fonte questo è il problema ti dice cose che solo lei dice e se le chiedi la fonte non sa che rispondere. Poi se le chiedi "sei sicura" ritratta completamente ribaltando la risposta. A me è capitato decine di volte di ottenere dalla stessa ai 2 risposte completamten diverse nello stesso tempo, se vuoi posso farti esempi concreti delle ultime che ricordo.
Non la dovrebbero usare come motore di ricerca, confermo. L'AI, secondo me, ha più senso nel momento in cui gli fornisci dati e gli chiedi di elaborare un dato problema.
Come motore di ricerca può essere usato ovviamente ma con estrema cautela e considerando che poi prima di procedere alla fase di analisi devi verificare i dati trovati.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".