Google può adesso riconoscere le singole voci nella folla

Big G ha sviluppato una tecnologia che consente di individuare la voce di un unico interlocutore in una folla, ed effettuare qualsiasi operazione con essa

di Nino Grasso pubblicata il 14 Aprile 2018, alle 09:01 nel canale Telefonia
Google

Per un uomo non è difficile isolare la singola voce di un interlocutore in mezzo alla folla, ma per un computer il compito può essere molto più arduo. La prova può essere fatta con uno smartphone, uno speaker o con un qualsiasi assistente digitale: se si parla in due o in tre il computer cattura il comando da ogni mittente, registrando richieste che probabilmente non hanno molto senso. I limiti attuali della tecnologia, tuttavia, possono essere superati e Google sta sviluppando un metodo.

I ricercatori di Big G sono al lavoro su un sistema di machine learning che può recuperare le singole specifiche voci analizzando i movimenti facciali degli interlocutori durante la conversazione. Il team ha "allenato" le proprie reti neurali per riconoscere gli individui che parlano in un contesto visivo, e ha poi ricreato alcuni modelli relativi ai rumori di sottofondo in modo da insegnare all'intelligenza artificiale come isolare le voci, e suddividerle in diverse tracce audio totalmente separate.

La compagnia ha mostrato alcuni esempi all'interno di alcuni video "processati" con la nuova tecnologia, capace di generare singole tracce audio pulite anche quando due o più interlocutori cercano di sovrastare la voce degli altri. Il tutto semplicemente osservando il movimento delle singole persone e alcune azioni che compiono durante le riprese, in un modo non troppo diverso dal modo in cui opera il cervello umano.

Google sta attualmente "esplorando" delle modalità d'uso per la nuova tecnologia, ma ce ne sono alcune particolarmente logiche. Un metodo di riconoscimento così valido può essere di grande impatto su servizi di video-chat, come Hangouts e Duo, soprattutto quando l'interlocutore sta parlando in mezzo ad una folla o in una stanza sovraffollata. Inoltre, la tecnologia può essere usata ad esempio per il miglioramento della voce in una registrazione.

L'IA potrebbe inoltre essere d'aiuto per chi soffre di disabilità uditive, enfatizzando esclusivamente la traccia audio di chi parla sulla base delle scelte dell'utente. Ci sono, ovviamente, anche alcune implicazioni sulla privacy, con utenti malintenzionati che potrebbero utilizzare la tecnologia per intercettazioni di dialoghi che avvengono a distanza.

I migliori sconti su Amazon oggi

-3%

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

429.90 419.00€ Compra ora

-14%

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

699.00 599.00€ Compra ora

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

Google Material Design 2: ecco le possibili tracce sull'app Google. Vi piace?

Alcuni produttori Android mentono sugli aggiornamenti di sicurezza

benderchetioffender14 Aprile 2018, 16:42 #1

quand'è che la smettiamo di sviluppare skynet?

Notturnia14 Aprile 2018, 22:04 #2

Temo solo dopo che ci avrà ucciso..
Auto automatiche, intelligenza artificiale.. etc..
Non farà fatica “skynet” a farci secchi.. gli stiamo preparando il vassoio

Eress15 Aprile 2018, 06:51 #3

L'immaginazione è sempre oltre la realtà, basta dare un'occhiata indietro per rendersene conto. Il progetto prosegue senza ostacoli, che ci faranno tutti secchi è ormai facile prevederlo e non è nemmeno il male peggiore a questo punto della storia.

gianluca.f17 Aprile 2018, 08:19 #4

bello ma non si potrebbe cominciare a migliorare il riconoscimento dell'assistente di google? se sono in macchina e non urlo non mi caga.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Google può adesso riconoscere le singole voci nella folla

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

4 Commenti