Un gruppo di ricercatori di Alibaba, in collaborazione con l'università di Xhejiang e del Stevens Institute of Technology, ha elaborato un modo per leggere il labiale all'interno di materiale video sfruttando l'intelligenza artificiale e il machine learning, riuscendo a migliorare significativamente le prestazioni rispetto a metodi già ideati precedentemente da altri ricercatori. Il metodo è stato battezzato LIBS, contrazione di Lip by Speech.

La lettura del labiale da parte di tecnologie basate su AI e machine learning non sono infatti nulla di inedito o fuori dall'ordinario: già nel 2016 un gruppo di ricercatori Google e della University of Oxford hanno illustrato un sistema capace di annotare materiale video con un'accuratezza del 46,8%. Può sembrare poco, ma èdi gran lunga superiore rispetto all'accuratezza del 12,4% che può ottenere un professionista umano nella lettura del labiale. Anche i sistemi allo stato dell'arte però hanno qualche difficoltà a riuscire a gestire quei piccoli movimenti ambigui delle labbra, e questo impedisce loro di poter raggiungere quei livelli di accuratezza, ben più elevati, propri dei sistemi di riconoscimento del parlato.

I ricercatori hanno però basato lo sviluppo di LIBS proprio sfruttando nelle fasi di allenamento le informazioni ricavate dai sistemi di riconoscimento del parlato così da poter raccogliere indizi complementari che possano aiutare a meglio interpretare quei movimenti delle labbra che non sono univocamente riconducibili ad una determinata pronuncia. Un'impresa più semplice a dirsi che a farsi, in quanto i ricercatori hanno dovuto lavorare sul materiale video usato per il training in maniera da riuscire ad allineare perfettamente video e audio (spesso le tracce hanno lunghezze non congrue, per via di differenti sampling rate e/o frame vuoti all'inizio o alla fine di uno spezzone), oltre a sbiluppare una tecnica di filtraggio per poter rifinire i risultati del sistema di riconoscimento del linguaggio parlato. In questo modo la lettura del labiale viene "guidata" dal sistema di riconoscimento del parlato, grazie anche alla sensibilità al contesto, che sia a livello di frame o di sequenza video.

Un lavoro che ha permesso di ottenere miglioramenti del 7,66% e del 2,75% nel margine d'errore rispettivamente sui dataset CMLR (che contiene oltre 45 mila frasi tratte da materiale video della BBC) e LRS2 (comprensivo di oltre 100 mila frasi in contenuti trasmessi dalla China Network Television) rispetto a quanto possibile con metodi precedenti.

Tecnologie basate su sistemi come LIBS possono rappresentare un ausilio importante per coloro i quali sono affetti da una forma di handicap dell'udito e si trovano in diffcoltà nel seguire video che sono privi di sottotitoli. Ad oggi circa 466 milioni di persone nel mondo - il 5% circa della popolazione globale - è affetto da una forma di defici dell'udito. Ed è una situazione destinata a peggiorare: secondo l'OMS il numero è previsto in crescita ad oltre 900 milioni entro il 2050.