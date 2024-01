Uno studio pubblicato su JAMA Pediatrics ad opera dei ricercatori del Cohen Children's Medical Center di New York evidenzia come le capacità elaborative di ChatGPT-4 non siano in grado di stabilire accurate diagnosi pediatriche. Anzi, è vero l'opposto: il tasso di precisione registrato nelle diagnosi di casi medici riguardanti bambini è solamente del 17%.

Il settore medico è stato tra i primi a sperimentare le tecnologie IA come supporto e ausilio alla pratica medica. Sperimentazione che ha portato sia a veri e propri epic fail, in particolare (ma questo è un problema ancor comune a molti modelli IA) con pregiudizi razziali "algoritmici", sia a risultati positivi, come ad esempio l'aiuto nell'interpretazione di lastre toraciche e immagini della retina, con interessanti prospettive di sviluppo nel campo della diagnostica dell'immagine.

Le potenziali capacità dell'IA nella risoluzione di problemi hanno suggerito anche un suo impiego nelle diagnosi di casi complessi, in cui è necessario prendere in considerazione numerosi aspetti, dati e informazioni e riuscire ad individuare correlazioni che potrebbero essere non immediate. I primi tentativi, lo scorso anno, non sono stati particolarmente incoraggianti, con un tasso di precisione del 39%. Ma il nuovo studio evidenzia come spostando l'attenzione sui casi pediatrici il successo sia ancora inferiore.

Questo comportamento si spiega perché, sottolineano i ricercatori, nelle patologie che riguardano i bambini è necessario molta più attenzione all'età del paziente oltre alla difficoltà nel poter individuare chiaramente tutti i sintomi di cui un bambino o un neonato sta avendo esperienza.

Lo studio è stato condotto sottoponendo l'IA a 100 casi pediatrici pubblicati su JAMA Pediatrics e NEJM tra il 2013 e il 2023 in forma di quiz o sfide: i medici che leggono le pubblicazioni possono formulare la diagnosi corretta sulla base delle informazioni rese note e che sono solitamente le stesse che il medico curante aveva a disposizione al momento della gestione del caso.

La porzione di testo rilevante del caso medico è stata copiata nel prompt d ChatGPT e due ricercatori medici si sono poi occupati di classificare il responso dell'IA e stabilire se la risposta fosse corretta, errata o correlata al caso ma troppo generica per poter essere considerata corretta.

Di 100 casi sottoposti, ChatGPT è riuscita a determinare la diagnosi corretta solamente per 17 di essi. 72 diagnosi sono state del tutto errate, mentre 11 sono risultate troppo generiche. Delle 83 diagnosi non corrette, 47 hanno riguardato lo stesso organo.

I ricercatori sono rimasti un po' sorpresi dal fatto che l'IA ha avuto difficoltà a correlare elementi che un medico con esperienza riuscirebbe facilmente a mettere in relazione tra loro, come ad esempio la connessione tra autismo e scorbuto in un caso medico: i soggetti affetti da autismo possono avere diete non equilibrate con carenze vitaminiche, e lo scorbuto è una condizione patologica che insorge in caso di carenza di vitamina C. Nel caso specifico, ChatGPT ha invece diagnosticato una rara condizione autoimmune.

I ricercatori sottolineano quindi come lo studio metta in evidenza il ruolo inestimabile che l'esperienza clinica ricopre, ma allo stesso tempo identifica anche i punti critici che hanno portato all'alto tasso di errore di ChatGPT e i modi per trasformarlo in uno strumento utile nell'assistenza clinica.

Ad esempio un training più specifico e selezionato su letteratura medica accurata ed affidabile potrebbe consentire di migliorare la precisione nella formulazione delle diagnosi, assieme ad un accesso in tempo reale o quasi ai dati medici per affinare sempre di più la capacità di problem solving specifica nel campo medico.