Gli occhiali sonar della Cornell University: ecco come funzionano i comandi vocali "silenziosi"

Con microfoni ed altoparlanti, gli occhiali sviluppati da un ricercatore della Cornell University riescono a rilevare i movimenti delle labbra senza che sia necessario pronunciare comandi ad alta voce
di Andrea Bai pubblicata il 07 Aprile 2023, alle 14:11 nel canale Scienza e tecnologiaUn ricercatore della Cornell University ha sviluppato un particolare tipo di "occhiali sonar" che sono capaci di ascoltare l'utente senza che questo effettivamente debba pronunciare parole ad alta voce, e in questo modo recepire comandi per controllare dispositivi elettronici.
Il particolare dispositivo, chiamato EchoSpeech, si basa su microfoni e altoparlanti al contrario di altre tecnologie di riconoscimento vocale "silenzioso" che fanno uso di fotocamere. Il sistema richiederebbe, secondo gli sviluppatori, pochi minuti di semplice addestramento per l'apprendimento dei modelli vocali di un utente.
A questo punto il sistema è in grado di inviare e ricevere onde sonore tramite il viso dell'utente, e di rilevare i movimenti della bocca che vengono interpretati da un algoritmo di deep learning che analizza in tempo reale i profili di eco. I ricercatori sostengono di aver raggiunto una precisione del 95% nel riconoscere fino a 31 comandi non vocali interpretando i movimenti delle labbra e della bocca.
L'elaborazione dei dati viene demandata allo smartphone, così che il dispositivo possa restare di piccole dimensioni e assicurare un'autonomia operativa relativamente estesa. Il prototipo fin qui realizzato è dotato di una batteria che offre un'autonomia di circa 10 ore.
Per quanto vi possano essere delle ovvie possibilità di impiego nella vita di tutti i giorni, quale sistema per impartire comandi ad un telefono o ad un computer mantenendo libere le mani e senza dover pronunciare frasi ad alta voce, questo dispositivo potrebbe in realtà rappresentare una base di sviluppo per realizzare un ausilio per coloro i quali sono affetti da qualche genere di diasbilità del linguaggio: il rilevamento dei movimenti della bocca potrebbe essere sfruttato per innescare il funzionamento di un sintetizzatore vocale.
A questo punto si potrebbe immaginare che anche questo progetto di ricerca, come molti altri, vada dimenticato o resti intrappolato all'interno di un laboratorio universitario. Forse, per questo progetto, il futuro potrebbe riservare qualche fortuna maggiore: il team dello Smart Computer Interfaces for Future Interactions (SciFi) Lab della Cornell University ha infatti già dato il via a sondare il terreno per una possibile commercializzazione della tecnologia sfruttando un programma di finanziamento dell'università.
I ricercatori intanto stanno esplorando la possibilità di impiegare lo stesso principio per rilevare i movimenti del viso, degli occhi e della parte superiore del corpo, immaginando come gli occhiali potranno in futuro rappresentare un'importante piattaforma di personal computing.
1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".