Ecco Tacotron 2, la nuova voce di Google Assistant indistinguibile da quella umana

Nella pagina riportiamo due sample, uno registrato da un operatore umano, l'altro dal nuovo sistema di text-to-speech di Google. Impossibile indovinare qual è quello del prossimo Google Assistant

di Nino Grasso pubblicata il 28 Dicembre 2017, alle 14:21 nel canale Web
Google

Google ha svelato di essere al lavoro su Tacotron 2, il sistema text-to-speech di seconda generazione su cui è al lavoro da anni. Un nuovo documento pubblicato da scienziati e ingegneri al lavoro per la compagnia è stato corredato da parecchi esempi che ne mostrano le potenzialità in lingua inglese. Il risultato è davvero molto interessante, con la voce generata dal computer che è indistinguibile da quella umana. Qui di seguito vi proponiamo due sample, uno registrato da un operatore umano, l'altro dal PC. Provate a indovinare qual è quello "artificiale".

È interessante notare che Google è riuscita a raggiungere questi risultati sfruttando gli stessi principi su cui si basa Tacotron, quindi principalmente due reti neurali che lavorano simultaneamente. La prima rete trasforma il testo in uno spettrogramma, cioè una rappresentazione visiva delle frequenze audio associate alle singole parti del discorso. Il risultato viene poi trasferito alla seconda rete neurale, WaveNet, sviluppata dalla sussiadiaria britannica DeepMind, che è già alla base delle versioni inglese e giapponese di Google Assistant e che arriverà presto in altri mercati.

Il principale vantaggio di WaveNet sulle alternative commerciali è che funziona come servizio stand-alone e non ha bisogno di accedere a un database di suoni pre-registrati. La tecnologia genera in maniera autonoma i suoni sulla base dello spettrogramma registrato dalla prima rete neurale, con il risultato finale che dovrebbe essere molto difficile da riconoscere rispetto ad una voce umana. Tacotron 2 considera punteggiatura e le maiuscole, ponendo maggiore enfasi sulle varie parti basandosi quindi anche su questi due aspetti, e non solo sulle singole parole.

Ci sono alcuni svantaggi con un approccio così scientifico: Tacotron 2 può al momento offrire i propri servizi solo con una singola voce femminile, e l'aggiunta di voci nuove può essere particolarmente difficoltosa. In base a quanto si deduce dal documento infatti è necessario un nuovo "training" quasi completo di WaveNet per istruire una nuova voce a sfruttarne i propri servizi. Per sentire altri sample del nuovo sistema di text-to-speech di Google potete indirizzare il browser a questa pagina.

E per inciso, la voce generata artificialmente è quella del Sample 2!

Proiettore Full HD (nativo) a soli 622,66 euro su Cafago: sconto di oltre 64 euro!

AMD pubblica il driver Vulkan AMDVLK in open source, compreso il supporto per Linux

insane7428 Dicembre 2017, 14:23 #1

direi che il primo è quello artificiale, anche se molto buono.

Ibanez8928 Dicembre 2017, 14:43 #2

Per me è il secondo quello creato al sintetizzatore

SiMcarD28 Dicembre 2017, 14:48 #3

Per me il primo è umano. Il secondo mi pare abbia un accento più piatto.

Sandro kensan28 Dicembre 2017, 16:26 #4

Per me è il secondo, poi andando sul sito del progetto in cui si mostrano tanti altri sample non mi è più chiaro chi sia la macchina e chi sia l'umana.

le_mie_parole28 Dicembre 2017, 17:48 #5

le rete neurali necessitano di addestramento ogni qualvolta si vuole cambiare il "soggetto" in essere, sia esso una voce, una forma geometrica, un colore e sue sfumature... è indifferente
non a caso si parla di auto-apprendimento qualora si riesca ad automatizzare questo processo, similmente a come avviene nel cervello umano, che usa tutti i sensi che ha a disposizione per classificare le cose, dargli una utilità, un nome, etc etc ^_^

blackshard28 Dicembre 2017, 18:53 #6

Potremo dire di aver raggiunto il picco dell'intelligenza artificiale quando WaveNet sarà in grado di replicare l'accento di Mimmo in Bianco Rosso e Verdone

Avatar029 Dicembre 2017, 11:42 #7

La tizia umana sta chiaramente replicando una voce artificiale. Se una parla così nella realtà gli ridono in faccia.

dr-omega30 Dicembre 2017, 20:14 #8

Che bello quando si potranno imparare le lingue semplicemente conversando del più e del meno con il "proprio pc". Forse riuscirò anche io ad imparare a parlare in inglese.

gianluca.f03 Gennaio 2018, 08:35 #9

vorrei sentire le voci in italiano per giudicarne la fedeltà

*aLe03 Gennaio 2018, 08:45 #10

Originariamente inviato da: blackshard

Potremo dire di aver raggiunto il picco dell'intelligenza artificiale quando WaveNet sarà in grado di replicare l'accento di Mimmo in Bianco Rosso e Verdone

'Nchessenso?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Maserati GranCabrio Folgore

05:51

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento

07:56

DJI Avata 2: il drone FPV accessibile ancora più sicuro e divertente

06:11

Automazione e precisione nei nuovi robot Dreame

Logitech Signature Combo MK950

06:02

Dreame L10s Pro Ultra Heat

Lenovo LEGION e LOQ: due notebook diversi, stessa anima gaming Lenovo ha puntato forte sul gaming negli ultimi anni e lo testimoniano i marchi LEGION e LOQ, il primo per gli amanti delle massime prestazioni e dell'assenza di...

Nothing Ear e Ear (a): gli auricolari per tutti i gusti! La ''doppia'' recensione Nothing propone sul mercato non uno ma ben due auricolari nuovi: Ear di terza generazione e Ear (a) ossia un nuovo modello a basso costo pronto a ritagliarsi una...

Granblue Fantasy: Relink, un action RPG che vi sorprenderà - Recensione PS5 Dopo l'ottimo Versus: Rising, tocca a Relink espandere l'immaginario di Granblue Fantasy. Per il suo progetto più ambizioso, Cygames sceglie di esplorare (con grande...

Sony FE 16-25mm F2.8 G: meno zoom, più luce Il nuovo Sony FE 16-25mm F2.8G si aggiunge all'analogo 24-50mm per offrire una coppia di zoom compatti ma di apertura F2.8 costante, ideali per corpi macchina altrettanto...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

L'innovazione richiede fiducia: Workday si propone come guida nell'era dell'IA Una pubblicità molto nota su degli pneumatici di qualche anno fa diceva che "la potenza è nulla senza controllo". Poche parole che ben riassumono i concetti dietro...

La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing Abbiamo visto ancora una volta la Formula E da vicino, ospiti di Jaguar TCS Racing. In questa occasione però curve e rettilinei erano quelli di un circuito permanente,...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Ecco Tacotron 2, la nuova voce di Google Assistant indistinguibile da quella umana

10 Commenti