Google può adesso riconoscere le singole voci nella folla

Google può adesso riconoscere le singole voci nella folla

Big G ha sviluppato una tecnologia che consente di individuare la voce di un unico interlocutore in una folla, ed effettuare qualsiasi operazione con essa

di pubblicata il , alle 09:01 nel canale Telefonia
Google
 

Per un uomo non è difficile isolare la singola voce di un interlocutore in mezzo alla folla, ma per un computer il compito può essere molto più arduo. La prova può essere fatta con uno smartphone, uno speaker o con un qualsiasi assistente digitale: se si parla in due o in tre il computer cattura il comando da ogni mittente, registrando richieste che probabilmente non hanno molto senso. I limiti attuali della tecnologia, tuttavia, possono essere superati e Google sta sviluppando un metodo.

I ricercatori di Big G sono al lavoro su un sistema di machine learning che può recuperare le singole specifiche voci analizzando i movimenti facciali degli interlocutori durante la conversazione. Il team ha "allenato" le proprie reti neurali per riconoscere gli individui che parlano in un contesto visivo, e ha poi ricreato alcuni modelli relativi ai rumori di sottofondo in modo da insegnare all'intelligenza artificiale come isolare le voci, e suddividerle in diverse tracce audio totalmente separate.

La compagnia ha mostrato alcuni esempi all'interno di alcuni video "processati" con la nuova tecnologia, capace di generare singole tracce audio pulite anche quando due o più interlocutori cercano di sovrastare la voce degli altri. Il tutto semplicemente osservando il movimento delle singole persone e alcune azioni che compiono durante le riprese, in un modo non troppo diverso dal modo in cui opera il cervello umano.

Google sta attualmente "esplorando" delle modalità d'uso per la nuova tecnologia, ma ce ne sono alcune particolarmente logiche. Un metodo di riconoscimento così valido può essere di grande impatto su servizi di video-chat, come Hangouts e Duo, soprattutto quando l'interlocutore sta parlando in mezzo ad una folla o in una stanza sovraffollata. Inoltre, la tecnologia può essere usata ad esempio per il miglioramento della voce in una registrazione.

L'IA potrebbe inoltre essere d'aiuto per chi soffre di disabilità uditive, enfatizzando esclusivamente la traccia audio di chi parla sulla base delle scelte dell'utente. Ci sono, ovviamente, anche alcune implicazioni sulla privacy, con utenti malintenzionati che potrebbero utilizzare la tecnologia per intercettazioni di dialoghi che avvengono a distanza.

4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
benderchetioffender14 Aprile 2018, 16:42 #1
quand'è che la smettiamo di sviluppare skynet?
Notturnia14 Aprile 2018, 22:04 #2
Temo solo dopo che ci avrà ucciso..
Auto automatiche, intelligenza artificiale.. etc..
Non farà fatica “skynet” a farci secchi.. gli stiamo preparando il vassoio
Eress15 Aprile 2018, 06:51 #3
L'immaginazione è sempre oltre la realtà, basta dare un'occhiata indietro per rendersene conto. Il progetto prosegue senza ostacoli, che ci faranno tutti secchi è ormai facile prevederlo e non è nemmeno il male peggiore a questo punto della storia.
gianluca.f17 Aprile 2018, 08:19 #4
bello ma non si potrebbe cominciare a migliorare il riconoscimento dell'assistente di google? se sono in macchina e non urlo non mi caga.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^