Ecco Tacotron 2, la nuova voce di Google Assistant indistinguibile da quella umana

Ecco Tacotron 2, la nuova voce di Google Assistant indistinguibile da quella umana

Nella pagina riportiamo due sample, uno registrato da un operatore umano, l'altro dal nuovo sistema di text-to-speech di Google. Impossibile indovinare qual è quello del prossimo Google Assistant

di pubblicata il , alle 14:21 nel canale Web
Google
 

Google ha svelato di essere al lavoro su Tacotron 2, il sistema text-to-speech di seconda generazione su cui è al lavoro da anni. Un nuovo documento pubblicato da scienziati e ingegneri al lavoro per la compagnia è stato corredato da parecchi esempi che ne mostrano le potenzialità in lingua inglese. Il risultato è davvero molto interessante, con la voce generata dal computer che è indistinguibile da quella umana. Qui di seguito vi proponiamo due sample, uno registrato da un operatore umano, l'altro dal PC. Provate a indovinare qual è quello "artificiale".

È interessante notare che Google è riuscita a raggiungere questi risultati sfruttando gli stessi principi su cui si basa Tacotron, quindi principalmente due reti neurali che lavorano simultaneamente. La prima rete trasforma il testo in uno spettrogramma, cioè una rappresentazione visiva delle frequenze audio associate alle singole parti del discorso. Il risultato viene poi trasferito alla seconda rete neurale, WaveNet, sviluppata dalla sussiadiaria britannica DeepMind, che è già alla base delle versioni inglese e giapponese di Google Assistant e che arriverà presto in altri mercati.

Il principale vantaggio di WaveNet sulle alternative commerciali è che funziona come servizio stand-alone e non ha bisogno di accedere a un database di suoni pre-registrati. La tecnologia genera in maniera autonoma i suoni sulla base dello spettrogramma registrato dalla prima rete neurale, con il risultato finale che dovrebbe essere molto difficile da riconoscere rispetto ad una voce umana. Tacotron 2 considera punteggiatura e le maiuscole, ponendo maggiore enfasi sulle varie parti basandosi quindi anche su questi due aspetti, e non solo sulle singole parole.

Ci sono alcuni svantaggi con un approccio così scientifico: Tacotron 2 può al momento offrire i propri servizi solo con una singola voce femminile, e l'aggiunta di voci nuove può essere particolarmente difficoltosa. In base a quanto si deduce dal documento infatti è necessario un nuovo "training" quasi completo di WaveNet per istruire una nuova voce a sfruttarne i propri servizi. Per sentire altri sample del nuovo sistema di text-to-speech di Google potete indirizzare il browser a questa pagina.

E per inciso, la voce generata artificialmente è quella del Sample 2!

Resta aggiornato sulle ultime offerte

Ricevi comodamente via email le segnalazioni della redazione di Hardware Upgrade sui prodotti tecnologici in offerta più interessanti per te

Quando invii il modulo, controlla la tua inbox per confermare l'iscrizione.
Leggi la Privacy Policy per maggiori informazioni sulla gestione dei dati personali

10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
insane7428 Dicembre 2017, 14:23 #1
direi che il primo è quello artificiale, anche se molto buono.
Ibanez8928 Dicembre 2017, 14:43 #2
Per me è il secondo quello creato al sintetizzatore
SiMcarD28 Dicembre 2017, 14:48 #3
Per me il primo è umano. Il secondo mi pare abbia un accento più piatto.
Sandro kensan28 Dicembre 2017, 16:26 #4
Per me è il secondo, poi andando sul sito del progetto in cui si mostrano tanti altri sample non mi è più chiaro chi sia la macchina e chi sia l'umana.
le_mie_parole28 Dicembre 2017, 17:48 #5
le rete neurali necessitano di addestramento ogni qualvolta si vuole cambiare il "soggetto" in essere, sia esso una voce, una forma geometrica, un colore e sue sfumature... è indifferente
non a caso si parla di auto-apprendimento qualora si riesca ad automatizzare questo processo, similmente a come avviene nel cervello umano, che usa tutti i sensi che ha a disposizione per classificare le cose, dargli una utilità, un nome, etc etc ^_^

blackshard28 Dicembre 2017, 18:53 #6
Potremo dire di aver raggiunto il picco dell'intelligenza artificiale quando WaveNet sarà in grado di replicare l'accento di Mimmo in Bianco Rosso e Verdone
Avatar029 Dicembre 2017, 11:42 #7
La tizia umana sta chiaramente replicando una voce artificiale. Se una parla così nella realtà gli ridono in faccia.
dr-omega30 Dicembre 2017, 20:14 #8
Che bello quando si potranno imparare le lingue semplicemente conversando del più e del meno con il "proprio pc". Forse riuscirò anche io ad imparare a parlare in inglese.
gianluca.f03 Gennaio 2018, 08:35 #9
vorrei sentire le voci in italiano per giudicarne la fedeltà
*aLe03 Gennaio 2018, 08:45 #10
Originariamente inviato da: blackshard
Potremo dire di aver raggiunto il picco dell'intelligenza artificiale quando WaveNet sarà in grado di replicare l'accento di Mimmo in Bianco Rosso e Verdone
'Nchessenso?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^