La School of Clinical Medicine dell'Università di Cambridge ha recentemente condotto uno studio sull'uso dei modelli LLM nel campo della medicina, dal quale è emerso come GPT-4 di OpenAI sia stato capace di ottenere risultati quasi comparabili a quelli di specialisti nel campo della valutazione oftalmologica.

Lo studio, condotto a metà dello scorso anno, è stato pubblicato su PLOS Digital Health e mette a confronto tra loro diversi LLM: oltre al già citato GPT-4 c'è anche il diretto predecessore GPT-3.5, assieme a PaLM 2 di Google e LLaMA di Meta. Alle diverse IA sono state sottoposte 87 domande a scelta multipla, e gli stessi quesiti sono stati presentati a cinque oftalmologi esperti, a tre tirocinanti e a due medici junior non specializzati.

Le domande vertevano su vari aspetti dell'oculistica, come lesioni oculari e sensibilità alla luce. I contenuti del test non erano pubblicamente disponibili, e per questo motivo i ricercatori ritengono che gli LLM non fossero stati specificatamente addestrati in precedenza su tali argomenti.

Come dicevamo, GPT-4 è l'LLM che ha ottenuto i migliori risultati tra le IA: con 60 risposte corrette su 87 ha inoltre superato anche i tirocinanti (media di 59,7/87) e i medici junior (37/87). Solo gli oftalmologi hanno superato GPT-4 con un punteggio medio di 66,4 risposte esatte.

PaLM 2 di Google ha segnato un punteggio di 49, GPT-3 ha invece risposto correttamente a 42 domande. Risultato da punizione dietro la lavagna per LLaMa di Meta, con 28 risposte esatte su 87.

I risultati dello studio, più che suggerire la possibilità di utilizzare l'IA come ausilio nella pratica medica (cosa che, presto o tardi, avverrà comunque), evidenziano in realtà come l'evoluzione delle capacità degli LLM proceda a ritmi veramente sostenuti e gli stessi autori evidenziano come l'impostazione del test incoraggi ad approfondire ulteriormente le loro capacità.

Ovviamente la cautela è d'obbligo, specie in un contesto come questo: se da un lato gli LLM possono avere la capacità di cogliere elementi che potrebbero passare inosservati, è anche vero che essi mostrano spesso la tendenza ad inventare informazioni quando non le conoscono o non sono facilmente inferibili, oltre a mancare della capacità "sfumatura" propria dell'essere umano. Quest'ultima è una capacità fondamentale nella pratica medica, che permette di discernere elementi che considerati in maniera asettica potrebbero portare a decisioni del tutto errate.