Google AI Overviews sbaglia poco, ma tanto: 57 milioni di risposte false all'ora

Google AI Overviews sbaglia poco, ma tanto: 57 milioni di risposte false all'ora

Un'indagine del New York Times basata sui benchmark della startup Oumi rivela che le AI Overviews di Google sbagliano circa il 10% delle volte. Su 5 trilioni di ricerche l'anno, significa oltre 57 milioni di risposte errate ogni ora. E più della metà delle risposte "corrette" cita fonti che non supportano le affermazioni

di pubblicata il , alle 08:48 nel canale Web
Google
 

Un'analisi del New York Times pubblicata nei giorni scorsi ha messo sotto i riflettori uno degli asset strategici attualmente più importanti per Google: le AI Overviews, i box di risposta generati da Gemini che compaiono in cima ai risultati di ricerca. La conclusione numerica è sembra essre rassicurante, ma uno sguardo più attento permette di cogliere un problema di scala ben più preoccupante: le AI Overviews sono corrette circa il 90-91% delle volte, ma su cinque trilioni di ricerche l'anno elaborate da Google, quel 10% di errori si traduce in oltre 57 milioni di risposte sbagliate ogni ora.

Il benchmark usato nell'indagine è SimpleQA, sviluppato dalla startup di ricerca AI Oumi, che comprende oltre 4.000 domande con risposte fattuali verificabili. I risultati mostrano un miglioramento progressivo: con Gemini 2 (ottobre 2025) le AI Overviews rispondevano correttamente all'85% delle domande; con Gemini 3 (febbraio 2026) il tasso è salito all'91%. Un progresso reale, ma insufficiente a contenere il volume assoluto di errori generato dalla portata globale del motore di ricerca.

Google vs Oumi: due misure, due realtà

La frattura più significativa emersa dall'inchiesta non riguarda i numeri in sé, ma chi li produce e con quali metodiche. Per Oumi, SimpleQA è uno standard riconosciuto nel settore per valutare l'accuratezza fattuale dei modelli AI generativi: oltre 4.000 domande con risposta univoca e verificabile, progettate per misurare quanto un sistema si fidi di sé stesso su affermazioni concrete. Applicato alle AI Overviews con Gemini 3, il risultato è un tasso di errore del 9-10%.

Un quadro che viene contestato da Google per due aspetti. Il primo è metodologico: secondo l'azienda, SimpleQA contiene i propri errori e, soprattutto, non rispecchia la distribuzione reale delle query degli utenti, dato che chi cerca su Google raramente pone domande con risposta binaria e verificabile come quelle del benchmark. Il secondo fronte è ancora più scomodo: i dati interni di Google, emersi dall'indagine giornalistica del NYT e non divulgati spontaneamente dall'azienda, indicano che la sua valutazione proprietaria, basata su un dataset più ristretto chiamato SimpleQA Verified, con risposte validate in modo più stringente, colloca il tasso di errore al 28%. Una cifra tre volte superiore a quella di Oumi, prodotta con uno strumento che Google stesso considera più affidabile del benchmark esterno. Quello che emerge è però una contraddizione che desta più di una perplessità: Mountain View sostiene che SimpleQA sopravvaluti gli errori, mentre i propri dati interni mostrano un quadro ancora peggiore.

Google ha ribadito che le AI Overviews sono affiancate da link alle fonti e da un avviso esplicito in fondo al riquadro: "Le risposte dell'AI potrebbero contenere errori". La posizione ufficiale è che questo avvertimento sia sufficiente per informare l'utente. Pratik Verma di Okahu, citato nell'indagine NYT, ha osservato che la tecnologia di Google "è paragonabile ad altri sistemi AI leader": un'affermazione che suona come una difesa ma che, nei fatti, non fa altro che evidenziare che tutti i modelli linguistici di frontiera allucinano a tassi significativi, e nessuno di loro è stato originariamente progettato per rispondere a cinque trilioni di ricerche l'anno in qualità di editore primario di informazione.

Il fenomeno delle risposte "ungrounded"

Al di là del dibattito sul benchmark, c'è un terzo dato che nessuna delle due parti contesta e che è probabilmente il più insidioso: quello delle risposte cosidderr "ungrounded". Si tratta di risposte che risultano tecnicamente corrette ma le cui fonti citate non supportano effettivamente l'affermazione riportata. In ottobre 2025, il 37% delle risposte corrette era ungrounded. A febbraio 2026, quella percentuale è salita al 56%, nonostante il modello fosse diventato più accurato nel complesso. Per riparametrare questi numeri, significa che più di una risposta su due che Google presenta come corretta non può essere verificata cliccando sulle fonti indicate. Il sistema di citazione, che dovrebbe permettere all'utente di risalire all'informazione originale, è decorativo nella maggior parte dei casi.

Tra le 5.380 fonti analizzate nello studio Oumi, Facebook e Reddit figurano rispettivamente come secondo e quarto dominio più citato nelle AI Overviews. Nelle risposte errate, Facebook viene citato nel 7% dei casi, contro il 5% delle risposte corrette. Il modello non distingue in modo affidabile tra una fonte accademica e un post su un gruppo Facebook, né tra una pagina ufficiale e un thread Reddit.

Errori documentati e il caso delle query mediche

L'indagine del NYT ha documentato errori specifici e verificabili. Le AI Overviews hanno indicato il 1987 come anno di apertura del Bob Marley Museum (la data corretta è 11 maggio 1986), hanno fornito informazioni sulla presunta morte di Hulk Hogan senza segnalare la contraddizione con gli articoli di notizie visibili appena sotto il riquadro AI, e hanno sbagliato il nome del fiume che scorre a ovest di Goldsboro, NC, indicando il Neuse River anziché il Little River.

Il contesto più critico rimane però quello delle query mediche. Un'indagine del Guardian di gennaio 2026, citata nell'articolo del NYT, aveva già documentato che le AI Overviews fornivano consigli sanitari pericolosi nel 44% delle ricerche mediche analizzate, incluse indicazioni errate per pazienti oncologici e interpretazioni fuorvianti dei test di funzionalità epatica. Google ha risposto rimuovendo le AI Overviews da un sottoinsieme di query sanitarie specifiche, senza però rendere pubblico l'elenco delle query escluse né i criteri di selezione adottati.

La questione di scala che a cui nessun metodo risponde

Che si accetti il 10% di Oumi o il 28% di Google, il problema di fondo non cambia: entrambe le cifre, moltiplicate per la scala del motore di ricerca più usato al mondo, producono un volume di disinformazione senza precedenti nella storia dei media. Quando Google ha introdotto le AI Overviews nel 2024, ha trasformato il suo ruolo da aggregatore di link a publisher diretto di contenuti. Quella transizione ha spostato su Google stesso la responsabilità dell'accuratezza delle risposte, una responsabilità che i numeri emersi dall'indagine del NYT, qualunque benchmark si scelga di credere, suggeriscono non sia ancora gestita in modo adeguato alla portata del sistema.

31 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
coschizza09 Aprile 2026, 08:59 #1
in un mondo dominato dalla fake news google è riuscita nel ingrato comito di rendere inaffidabili le poche cose che lo erano ancra, complimenti.
Personalmente chiedo all ai solo cose che gia so perche vedo che spesso mi da risposte false che sa anche lei di aver detto, questo è l'assurdo se le chiedi "sei sicura" ritratta subito quello che ha detto ribaltando spesso la risposta.

Se usare l'ai spesso è come buttare i dadi mi chiedo per cosa pstata creata, capisco che in certi compiti funziona abbastanza bene ma per la ricerca assolutamente no.
barzokk09 Aprile 2026, 09:08 #2
Bè guardiamo al lato positivo della IA:
creare foto e video fake di tettone per adescare polli su Facebook
"Elena Conti"
https://www.facebook.com/profile.php?id=61577833226210
morire che ci siano 2 foto della stessa persona...
E nonostante ciò, 13.470 follower, ad ogni foto decine di commenti di morti di f**a
Darkon09 Aprile 2026, 09:08 #3
Originariamente inviato da: coschizza
in un mondo dominato dalla fake news google è riuscita nel ingrato comito di rendere inaffidabili le poche cose che lo erano ancra, complimenti.
Personalmente chiedo all ai solo cose che gia so perche vedo che spesso mi da risposte false che sa anche lei di aver detto, questo è l'assurdo se le chiedi "sei sicura" ritratta subito quello che ha detto ribaltando spesso la risposta.

Se usare l'ai spesso è come buttare i dadi mi chiedo per cosa pstata creata, capisco che in certi compiti funziona abbastanza bene ma per la ricerca assolutamente no.


Se già sai la risposta qual è il senso di chiederlo all'AI?

Comunque domandare all'AI non è come tirare i dati, esiste la possibilità di errore ma il plus dell'AI è nelle possibili analisi.

Ad esempio sei indeciso tra prodotto A e prodotto B e l'AI potrebbe sbagliare a recuperarne le caratteristiche certo e quindi devi controllare ma una volta controllato che abbia recuperato le caratteristiche corrette ti fa una analisi che ti fa capire se effettivamente nella tua esperienza d'uso è migliore il primo o il secondo dandoti spunti a cui normalmente non avresti nemmeno pensato.

Quindi è ovvio non fidarsi alla cieca ma rimane comunque un valido aiuto nelle scelte quotidiane e nel tirare fuori scenari a cui non penseresti. Un altro aspetto interessante è che ti fa conoscere brand emergenti ad esempio l'altro giorno stavo dando un'occhiata alle novità sugli occhiali smart e con ricerche "standard" uscivano sempre i soliti: rayban, samsung e meta. Invece con l'AI non solo mi ha specificato che esistono vari tipi come AR e VR ma che ci sono marche come xreal che fanno ottimi prodotti ma non sono altrettanto facili da trovare con i canali normali di ricerca.

Poi non ho comprato niente perché ancora penso non si sia al momento giusto e via ma l'AI mi ha permesso di scoprire cose che altrimenti, probabilmente, non avrei mai scoperto.

Quindi ribadisco l'AI ha il suo senso, non va considerata un oracolo o infallibile.

Originariamente inviato da: barzokk
Bè guardiamo al lato positivo della IA:
creare foto e video fake di tettone per adescare polli su Facebook
"Elena Conti"
morire che ci siano 2 foto della stessa persona...
E nonostante ciò, 13.470 follower, ad ogni foto decine di commenti di morti di f**a


Questo c'era anche prima dell'AI gnamo... ai tempi di C6, ICQ o MSN erano più i profili fake di quelli reali o poco ci manca.
coschizza09 Aprile 2026, 09:10 #4
Originariamente inviato da: Darkon
Se già sai la risposta qual è il senso di chiederlo all'AI?


per ferificare certe informazioni che ho, come uno studioso che torna su un testo per conforntare quello che sa con quello che è scritto.
alexfri09 Aprile 2026, 09:29 #5
Io personalmente lo uso per fare una sgrossatura velocissima. Ad esempio non ho idea di quale sia la cpu supportata da una certa classe di chipset, lui me lo dice, magari sbaglia indicandomi quale sia la piu veloce installabile, ma almeno io ho scoperto che é quella serie, quegli anni ecc. Poi vado io a cercarmi le caratteristiche sul manuale della scheda, il sito intel e un elenco cronologico di cpu. Ma se avessi dovuto fare tutto da zero ci avrei messo molto ma moooolto di più.
Darkon09 Aprile 2026, 09:44 #6
Originariamente inviato da: coschizza
per ferificare certe informazioni che ho, come uno studioso che torna su un testo per conforntare quello che sa con quello che è scritto.


A maggior ragione non capisco il senso... l'AI non è una fonte è un motore che poi devi verificare e quindi usarlo come verifica mi sembra un paradosso.

Per usare la tua metafoa è come se io fossi uno scienziato e scopro che A+B=C e poi come esperimento di riprova vado su google e provo a cercare A+B=C? Che confermi o smentisca avrebbe un valore nullo e comunque qualunque risposta dia dovrei poi ulteriormente verificarla.

Oh magari sono io che non capisco il tuo approccio eh... ma mi sembra un controsenso.
sbaffo09 Aprile 2026, 09:44 #7
il fatto delle fonti conferma la mia sensazione, ne mette poche e che non corrispondono a ciò che dice. La comodità era proprio quella, un riassunto con i link per verificare, e a volte con le frasi già evidenziate, ma se togli le verifiche non ci si puà fidare alla cieca...

L'articolo conferma che sono generatori di stronzate anche peggio di quanto credessi. C'era un articolo tempo fa che lo diceva, se lo trovo lo riposto, ma basta googlare e si trova parecchio, anche da fonti autorevoli:
https://www.rivista.ai/2025/07/14/m...care-la-verita/ EDIT: era il paper in fondo a questo articolo
https://www.cst.cam.ac.uk/blog/afb2...omated-bullshit
https://press.princeton.edu/ideas/t...n2UMmGTfkACTxXj
https://thebullshitmachines.com/tab...ents/index.html
mozzarello09 Aprile 2026, 09:46 #8
Usare LLM per fare ricerche Internet credo sia la cosa più stupida del nostro tempo. Ma d'altronde c'è chi li considera Google on steroids, o generatori di stronzate, che è la frasetta precotta che usa chi no ha idea di come funzionino
coschizza09 Aprile 2026, 09:48 #9
Originariamente inviato da: Darkon
A maggior ragione non capisco il senso... l'AI non è una fonte è un motore che poi devi verificare e quindi usarlo come verifica mi sembra un paradosso.

Per usare la tua metafoa è come se io fossi uno scienziato e scopro che A+B=C e poi come esperimento di riprova vado su google e provo a cercare A+B=C? Che confermi o smentisca avrebbe un valore nullo e comunque qualunque risposta dia dovrei poi ulteriormente verificarla.

Oh magari sono io che non capisco il tuo approccio eh... ma mi sembra un controsenso.

è solo uno dei livelli di verifica che uso, in base al tuo ragionamento nessuno dovrebbe mai usare l'ai perche essendo i dati spesso contradittori non e non affidabili.

L'ai quando si inventa informazioni (spesso) si comporta esattamente come fonte questo è il problema ti dice cose che solo lei dice e se le chiedi la fonte non sa che rispondere. Poi se le chiedi "sei sicura" ritratta completamente ribaltando la risposta. A me è capitato decine di volte di ottenere dalla stessa ai 2 risposte completamten diverse nello stesso tempo, se vuoi posso farti esempi concreti delle ultime che ricordo.
Darkon09 Aprile 2026, 09:53 #10
Originariamente inviato da: coschizza
è solo uno dei livelli di verifica che uso, in base al tuo ragionamento nessuno dovrebbe mai usare l'ai perche essendo i dati spesso contradittori non e non affidabili.

L'ai quando si inventa informazioni (spesso) si comporta esattamente come fonte questo è il problema ti dice cose che solo lei dice e se le chiedi la fonte non sa che rispondere. Poi se le chiedi "sei sicura" ritratta completamente ribaltando la risposta. A me è capitato decine di volte di ottenere dalla stessa ai 2 risposte completamten diverse nello stesso tempo, se vuoi posso farti esempi concreti delle ultime che ricordo.


Non la dovrebbero usare come motore di ricerca, confermo. L'AI, secondo me, ha più senso nel momento in cui gli fornisci dati e gli chiedi di elaborare un dato problema.

Come motore di ricerca può essere usato ovviamente ma con estrema cautela e considerando che poi prima di procedere alla fase di analisi devi verificare i dati trovati.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^