Un errore nella ricerca Google Med-Gemini ha acceso il dibattito sui limiti delle IA in campo sanitario: l'inesistente “basilar ganglia” solleva dubbi sulla sicurezza, la trasparenza e le responsabilità nell’adozione della tecnologia in medicina

Un recente caso legato a Med-Gemini, l’ultima e ambiziosa piattaforma IA dedicata alla sanità sviluppata da Google, ha acceso il dibattito presso la comunità scientifica sui rischi dell’affidarsi all’intelligenza artificiale per diagnosi e referti medici.

Cos'è accaduto? In una pubblicazione scientifica datata 2024, l’algoritmo Med-Gemini ha identificato, leggendo una TAC, un’anomalia denominata (usiamo i termini inglesi per meglio descrivere il problema) “old left basilar ganglia infarct”. Il problema, evidentemente non trascurabile, è che la “basilar ganglia” non esiste: si tratta di una confusione fra due distinti elementi dell’anatomia cerebrale.

La vera struttura cerebrale è il “basal ganglia”, fondamentale per controllo motorio, apprendimento e processi emozionali, mentre la “basilar artery” è un’importante arteria che irrora il tronco encefalico. L'incrocio di termini generato dall’IA ha dato vita ad un’inesistente “basilar ganglia” e benché l’errore possa sembrare di poco conto, in un campo come la medicina simili sviste possono tradursi in conseguenze serie e rischiose per il paziente.

Basilar Ganglia non esiste: Google corregge l'errore "in silenzio"

L’errore è passato inosservato durante le fasi di scrittura e revisione del paper (che tra i firmatari includeva oltre 50 autori, molti dei quali clinici), e non è stato ravvisato nemmeno nel post ufficiale di presentazione sul blog di Google. A segnalare il problema è stato Bryan Moore, neurologo certificato con interesse per l’intelligenza artificiale, che ha raccontato a The Verge di aver allertato l’azienda tramite LinkedIn e contatti diretti con gli autori. Il risultato? Google ha “silenziosamente” corretto l’errore nel blog, passando da “basilar” a “basal”, ma senza alcun avviso pubblico o rettifica nel paper scientifico originale.

Moore ha quindi segnalato pubblicamente l'accaduto, e Google ha successivamente risposto di aver corretto l'errore nel blog, includendo una spiegazione dell'accaduto. La posizione ufficiale dell'azienda è di ritenere l'errore un semplice refuso, e che il sistema aveva comunque rilevato un’anomalia reale ma aveva confuso il termine corretto.

In realtà l'errore assume i connotati di una vera e propria "allucinazione" del modello linguistico e cioè la creazione di un'informazioneplausibile ma falsa. Come dicevamo, nel campo della medicina il rischio di questi errori è tutt’altro che marginale e il timore, condiviso tra i medici, è che la credibilità di questi sistemi, apparentemente affidabili e autorevoli, possa indurre a errori a catena e perdita di controllo. Il fenomeno è noto come automation bias: la tendenza ad accettare una risposta automatica senza ulteriori verifiche, proprio perché la macchina sbaglia poco ma, quando lo fa, risulta difficile accorgersene.

Il caso Med-Gemini non è isolato. Test successivi condotti su sistemi più recenti come MedGemma, nuova evoluzione della piattaforma, hanno dimostrato che minime variazioni nella formulazione della domanda possono produrre risposte incoerenti o passare da una diagnosi corretta a una completamente sbagliata anche davanti ad una stessa situazione, come dimostrato dalle prove della dottoressa Judy Gichoya dell’Emory University raccolte da The Verge.

Google, da parte sua, sostiene di essere impegnata nella trasparenza, nel miglioramento continuo dei propri modelli e nella collaborazione con la comunità clinica per tenere sotto controllo simili limiti, garantendo controlli e “audit” interni. Tuttavia, il fatto che la rettifica sia stata eseguita solo dopo la segnalazione pubblica di Moore, e la mancanza di un’errata corrige nel paper, lascia più di qualche dubbio sul reale grado di vigilanza e responsabilità.

E' d'altra parte vero che al momento ci troviamo in una fase particolare dello sviluppo e uso dell'intelligenza artificiale, in cui le tecnologie stanno arrivando davvero velocemente alla portata di tutti, e abbracciate in maniera forse un po' troppo disinvolta anche in situazioni in cui sarebbe opportuno operare maggior cautela e scetticismo. Il caso della “basilar ganglia” è più di un semplice refuso e, anzi, è un campanello d'allarme per l'urgenza di porre criteri di valutazione adeguati per l'uso dell'intelligenza artificiale in ambito medico e sanitario. Ed è qui che si apre il vero dibattito: quale dovrebbe essere il livello di affidabilità di un'AI utilizzata in medicina? Posto che anche i medici possono sbagliare, possiamo accettare un'IA che sia "brava quanto un umano" o dobbiamo esigere standard più elevati?