L'intelligenza artificiale ora legge anche il labiale: una risorsa per gli ipoudenti?

L'intelligenza artificiale ora legge anche il labiale: una risorsa per gli ipoudenti?

Allenare la lettura del labiale con un aiutino da parte dei sistemi di riconoscimento del parlato: in questo modo si comprendono meglio i movimenti ambigui delle labbra

di pubblicata il , alle 18:41 nel canale Scienza e tecnologia
 

Un gruppo di ricercatori di Alibaba, in collaborazione con l'università di Xhejiang e del Stevens Institute of Technology, ha elaborato un modo per leggere il labiale all'interno di materiale video sfruttando l'intelligenza artificiale e il machine learning, riuscendo a migliorare significativamente le prestazioni rispetto a metodi già ideati precedentemente da altri ricercatori. Il metodo è stato battezzato LIBS, contrazione di Lip by Speech.

La lettura del labiale da parte di tecnologie basate su AI e machine learning non sono infatti nulla di inedito o fuori dall'ordinario: già nel 2016 un gruppo di ricercatori Google e della University of Oxford hanno illustrato un sistema capace di annotare materiale video con un'accuratezza del 46,8%. Può sembrare poco, ma èdi gran lunga superiore rispetto all'accuratezza del 12,4% che può ottenere un professionista umano nella lettura del labiale. Anche i sistemi allo stato dell'arte però hanno qualche difficoltà a riuscire a gestire quei piccoli movimenti ambigui delle labbra, e questo impedisce loro di poter raggiungere quei livelli di accuratezza, ben più elevati, propri dei sistemi di riconoscimento del parlato.

I ricercatori hanno però basato lo sviluppo di LIBS proprio sfruttando nelle fasi di allenamento le informazioni ricavate dai sistemi di riconoscimento del parlato così da poter raccogliere indizi complementari che possano aiutare a meglio interpretare quei movimenti delle labbra che non sono univocamente riconducibili ad una determinata pronuncia. Un'impresa più semplice a dirsi che a farsi, in quanto i ricercatori hanno dovuto lavorare sul materiale video usato per il training in maniera da riuscire ad allineare perfettamente video e audio (spesso le tracce hanno lunghezze non congrue, per via di differenti sampling rate e/o frame vuoti all'inizio o alla fine di uno spezzone), oltre a sbiluppare una tecnica di filtraggio per poter rifinire i risultati del sistema di riconoscimento del linguaggio parlato. In questo modo la lettura del labiale viene "guidata" dal sistema di riconoscimento del parlato, grazie anche alla sensibilità al contesto, che sia a livello di frame o di sequenza video.

Un lavoro che ha permesso di ottenere miglioramenti del 7,66% e del 2,75% nel margine d'errore rispettivamente sui dataset CMLR (che contiene oltre 45 mila frasi tratte da materiale video della BBC) e LRS2 (comprensivo di oltre 100 mila frasi in contenuti trasmessi dalla China Network Television) rispetto a quanto possibile con metodi precedenti.

Tecnologie basate su sistemi come LIBS possono rappresentare un ausilio importante per coloro i quali sono affetti da una forma di handicap dell'udito e si trovano in diffcoltà nel seguire video che sono privi di sottotitoli. Ad oggi circa 466 milioni di persone nel mondo - il 5% circa della popolazione globale - è affetto da una forma di defici dell'udito. Ed è una situazione destinata a peggiorare: secondo l'OMS il numero è previsto in crescita ad oltre 900 milioni entro il 2050.

Resta aggiornato sulle ultime offerte

Ricevi comodamente via email le segnalazioni della redazione di Hardware Upgrade sui prodotti tecnologici in offerta più interessanti per te

Quando invii il modulo, controlla la tua inbox per confermare l'iscrizione.
Leggi la Privacy Policy per maggiori informazioni sulla gestione dei dati personali

5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
mtk05 Dicembre 2019, 18:55 #1
hal 9000 lo faceva gia nel 2001....
Marko_00105 Dicembre 2019, 19:11 #2
una risorsa per gli impiccioni
legali e non
non per niente i politici si riparano la bocca
quando se ne ricordano
Fede05 Dicembre 2019, 22:15 #3
Originariamente inviato da: mtk
hal 9000 lo faceva gia nel 2001....


mi hai letto nel pensiero!
icoborg05 Dicembre 2019, 23:15 #4
Originariamente inviato da: Marko_001
una risorsa per gli impiccioni
legali e non
non per niente i politici si riparano la bocca
quando se ne ricordano


se ne son dimenticati a londra
Eress06 Dicembre 2019, 05:25 #5
Originariamente inviato da: mtk
hal 9000 lo faceva gia nel 2001....

Nel 1968 invero esattamente ciò che ho pensato appena letto il titolo.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^