RAD-TTS di NVIDIA vuole pensionare Siri e Alexa: IA per voci sintetizzate più espressive e reali

RAD-TTS di NVIDIA vuole pensionare Siri e Alexa: IA per voci sintetizzate più espressive e reali

NVIDIA non è soddisfatta delle voci sintetizzate e della sintesi vocale disponibile oggi e per questo ha messo a punto un modello di IA chiamato RAD-TTS con annessi tool per migliorare lo status quo. La tecnologia ha un potenziale in molte aree: servizio clienti, ausilio per le persone con disabilità e persino videogiochi.

di pubblicata il , alle 14:01 nel canale Software
NVIDIA
 

Un modello di intelligenza artificiale chiamato RAD-TTS, messo a punto da NVIDIA, punta a rendere le voci sintetiche, quelle che tutti ascoltiamo quando parliamo con assistenti come Siri, Alexa o un call center sempre più simili a quella umana. C'è infatti ancora un gap tra quanto offre la tecnologia e la voce umana: le persone parlano con un ritmo, un'intonazione e un timbro complessi che è difficile da emulare per le IA. Con RAD-TTS NVIDIA vuole ridurre quel gap e se possibile eliminarlo totalmente.

La tecnologia ha un potenziale applicativo in molte aree, tra cui la gestione di un servizio clienti automatizzato, la traduzione linguistica, sistemi di ausilio per le persone con disabilità e persino i videogiochi. Praticamente qualsiasi applicazione che richieda una voce umana dal suono e dal timbro naturale ha il potenziale per trarre vantaggio da RAD-TTS.

Il dipartimento di NVIDIA che si occupa della ricerca sul "text-to-speech" ha sviluppato nuovi strumenti di machine learning che consentono agli sviluppatori di allenare un modello con la loro stessa voce, convertendo il testo in un parlato naturale usando le inflessioni e i toni che ha appreso. Può anche convertire la voce di una persona in quella di un'altra (anche di sesso opposto).

"Un'altra delle sue caratteristiche è la conversione vocale, in cui le parole di un oratore (o anche il canto) vengono fornite nella voce di un altro oratore", spiega NVIDIA. "Ispirata all'idea della voce umana come strumento musicale, l'interfaccia RAD-TTS offre agli utenti un controllo preciso sull'estensione, la durata e l'energia della voce sintetizzata".

Da quell'interfaccia è inoltre possibile guidare l'intelligenza artificiale come un doppiatore, modificando il discorso sintetizzato per enfatizzare parole specifiche e modificando il ritmo per dare pathos a determinati passaggi.

Con NVIDIA NeMo - un toolkit open source in Phyton per accelerare con la GPU l'IA discorsiva - i ricercatori, sviluppatori e creatori di contenuti possono sperimentare e ottimizzare modelli vocali per le proprie applicazioni. API e modelli preallenati facili da usare in NeMo aiutano i ricercatori a sviluppare e personalizzare modelli per la sintesi vocale, processare il linguaggio naturale e implementare il riconoscimento vocale automatico in tempo reale.

"Molti dei modelli sono addestrati con decine di migliaia di ore di dati audio sui sistemi NVIDIA DGX. Gli sviluppatori possono ottimizzare qualsiasi modello per i loro casi d'uso, accelerando l'addestramento usando il calcolo a precisione mista sulle GPU NVIDIA con Tensor Core", si legge in un post sul blog aziendale.

Applicando questa tecnologia i ricercatori di NVIDIA sono riusciti a creare una narrazione vocale più colloquiale per la propria serie di video "I AM AI" (che potete visionare qui) utilizzando voci sintetizzate anziché umane.

9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
nickname8801 Settembre 2021, 14:30 #1
Pensassero piuttosto ad aumentare gli slot produttivi in affitto sia da TSMC che da Samsung invece di perdere tempo dietro a ste str0nzate che non ci interessa una cippa.

Inoltre poi qualcuno dovrebbe dire a Nvidia che le voci "sintetiche" servono anche a far capire che si sta parlando con una AI e non con una persona. Ad esempio quando sei al telefono.
El Roy01 Settembre 2021, 15:27 #2
L'assistente Google, quindi, è già a posto così... almeno dal titolo sembra voler dire quello. E di Bixby che ne facciamo, lo aggreghiamo?
Titolo più generalista non lo potevate mettere... sembrano i titoli del TG1.

Forse era meglio scrivere come titolo: "Il nuovo tool di Nvidia per la sintesi vocale mira a portare le voci degli assistenti vocali ad un nuovo di livello di fedeltà." Non è il massimo ma suona già meglio.

Ma che vi dobbiamo scrivere pure i titoli adesso...
StylezZz`01 Settembre 2021, 15:40 #3
Secondo me la vogliono implementare sul loro store al momento dell'acquisto di una gpu, si sentirà una voce sensuale e molto realistica che dirà ''out of stock''.
calabar01 Settembre 2021, 17:36 #4
Ben venga, in questo campo i risultati credo siano sotto le attese e una svolta ci vuole proprio.

Suppongo che ad un certo punto, quando la voce sintetica sarà difficile da distinguere da quella umana, su certi servizi debba essere scritta una regolamentazione che consenta di non trarre in inganno l'ascoltatore.

Lo svilupo dell'AI negli ultimi anni sta davvero cambiando l'informatica, nVidia ha decisamente fatto bene ad investirci, le applicazioni sono innumerevoli e di grande interesse.

Originariamente inviato da: nickname88
Pensassero piuttosto ...

Eh già, se qualche anno fa avessero "pensato piuttosto" anziché investire in intelligenza artificiale, ora il DLSS te lo sogneresti.
Ma non ti stanchi di ripetere questo sciocco mantra ogni volta che esce una notizia che riguarda un produttore di GPU?
nickname8801 Settembre 2021, 21:18 #5
Originariamente inviato da: calabar
Eh già, se qualche anno fa avessero "pensato piuttosto" anziché investire in intelligenza artificiale, ora il DLSS te lo sogneresti.
Ma non ti stanchi di ripetere questo sciocco mantra ogni volta che esce una notizia che riguarda un produttore di GPU?
Cosa accidenti centra l'AI applicata all'immagine con una applicata alle voci ?
Come avessero chissà quale legame ....
Poteva poi uno capire o sospettare quantomeno se fosse uscita questa tecnologia prima e il DLSS dopo, e invece manco questo !

Certo che ne spari grosse.

Ben venga, in questo campo i risultati credo siano sotto le attese e una svolta ci vuole proprio.
Campo che non dovrebbe essere di competenza di Nvidia.
calabar02 Settembre 2021, 01:40 #6
Originariamente inviato da: nickname88
Certo che ne spari grosse.

È evidente che non sai di cosa parli.
Ma visto che non vedi al di la del tuo naso, prova ad immaginare per esempio come questa tecnologia può essere applicata ad un campo che ti è tanto caro, quello dei videogiochi: le voci del personaggi dall'interno di un gioco non dovranno più essere campionate preventivamente dalle voci dei doppiatori ma potrebbero essere pronunciate direttamente accrescendo enormemente le possibilità di dialogo.
Credi ancora che non dovrebbe essere competenza di nVidia?
nickname8802 Settembre 2021, 10:49 #7
Originariamente inviato da: calabar
È evidente che non sai di cosa parli.
Ma visto che non vedi al di la del tuo naso, prova ad immaginare per esempio come questa tecnologia può essere applicata ad un campo che ti è tanto caro, quello dei videogiochi: le voci del personaggi dall'interno di un gioco non dovranno più essere campionate preventivamente dalle voci dei doppiatori ma potrebbero essere pronunciate direttamente accrescendo enormemente le possibilità di dialogo.
Credi ancora che non dovrebbe essere competenza di nVidia?

Vedo che ti atteggi ancora da detentore della verità con argomentazioni ridicole.

Il doppiaggio se va bene non ha senso cambiarlo, e anche se lo cambiassero non ci guadagneremo nulla noi giocatori visto che al massimo ( E SOTTOLINEO "AL MASSIMO", ossia nella più rosea delle aspettative ) avremmo un risultato paragonabile a quello umano, ossia a quello che c'è già.

No grazie, pensassero a qualcosa di più concreto, grafica e frame rate grazie.
calabar02 Settembre 2021, 13:19 #8
Si certo, detentore della verità
Se vuoi raccontartela così...

Mi chiedo perchè parli a vanvera quando non solo non hai argomenti, ma quando evidentemente neppure ti rendi conto di cosa consista ciò di cui si parla.

PS: Se davvero credi che il doppiaggio vada bene e non vedi i limiti intrinsechi nel suo utilizzo, temo ci sia davvero poco da discutere.
nickname8802 Settembre 2021, 17:58 #9
Originariamente inviato da: calabar
Si certo, detentore della verità
Se vuoi raccontartela così...

Mi chiedo perchè parli a vanvera quando [B][COLOR="Red"]non solo non hai argomenti[/COLOR][/B], ma quando evidentemente neppure ti rendi conto di cosa consista ciò di cui si parla.

PS: Se davvero credi che il doppiaggio vada bene e non vedi i limiti intrinsechi nel suo utilizzo, temo ci sia davvero poco da discutere.
Questa è veramente fantastica ed esilarante, fino a prova contraria il fatto che verrà applicato ai giochi fino ad ora è solo una tua fantasticheria e lo stesso il fatto che centri col DLSS.

Dai linkaci le fonti di queste tue due affermazioni, vai.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^