RAD-TTS di NVIDIA vuole pensionare Siri e Alexa: IA per voci sintetizzate più espressive e reali
NVIDIA non è soddisfatta delle voci sintetizzate e della sintesi vocale disponibile oggi e per questo ha messo a punto un modello di IA chiamato RAD-TTS con annessi tool per migliorare lo status quo. La tecnologia ha un potenziale in molte aree: servizio clienti, ausilio per le persone con disabilità e persino videogiochi.
di Manolo De Agostini pubblicata il 01 Settembre 2021, alle 14:01 nel canale SoftwareNVIDIA
Un modello di intelligenza artificiale chiamato RAD-TTS, messo a punto da NVIDIA, punta a rendere le voci sintetiche, quelle che tutti ascoltiamo quando parliamo con assistenti come Siri, Alexa o un call center sempre più simili a quella umana. C'è infatti ancora un gap tra quanto offre la tecnologia e la voce umana: le persone parlano con un ritmo, un'intonazione e un timbro complessi che è difficile da emulare per le IA. Con RAD-TTS NVIDIA vuole ridurre quel gap e se possibile eliminarlo totalmente.
La tecnologia ha un potenziale applicativo in molte aree, tra cui la gestione di un servizio clienti automatizzato, la traduzione linguistica, sistemi di ausilio per le persone con disabilità e persino i videogiochi. Praticamente qualsiasi applicazione che richieda una voce umana dal suono e dal timbro naturale ha il potenziale per trarre vantaggio da RAD-TTS.
Il dipartimento di NVIDIA che si occupa della ricerca sul "text-to-speech" ha sviluppato nuovi strumenti di machine learning che consentono agli sviluppatori di allenare un modello con la loro stessa voce, convertendo il testo in un parlato naturale usando le inflessioni e i toni che ha appreso. Può anche convertire la voce di una persona in quella di un'altra (anche di sesso opposto).
"Un'altra delle sue caratteristiche è la conversione vocale, in cui le parole di un oratore (o anche il canto) vengono fornite nella voce di un altro oratore", spiega NVIDIA. "Ispirata all'idea della voce umana come strumento musicale, l'interfaccia RAD-TTS offre agli utenti un controllo preciso sull'estensione, la durata e l'energia della voce sintetizzata".
Da quell'interfaccia è inoltre possibile guidare l'intelligenza artificiale come un doppiatore, modificando il discorso sintetizzato per enfatizzare parole specifiche e modificando il ritmo per dare pathos a determinati passaggi.
Con NVIDIA NeMo - un toolkit open source in Phyton per accelerare con la GPU l'IA discorsiva - i ricercatori, sviluppatori e creatori di contenuti possono sperimentare e ottimizzare modelli vocali per le proprie applicazioni. API e modelli preallenati facili da usare in NeMo aiutano i ricercatori a sviluppare e personalizzare modelli per la sintesi vocale, processare il linguaggio naturale e implementare il riconoscimento vocale automatico in tempo reale.
"Molti dei modelli sono addestrati con decine di migliaia di ore di dati audio sui sistemi NVIDIA DGX. Gli sviluppatori possono ottimizzare qualsiasi modello per i loro casi d'uso, accelerando l'addestramento usando il calcolo a precisione mista sulle GPU NVIDIA con Tensor Core", si legge in un post sul blog aziendale.
Applicando questa tecnologia i ricercatori di NVIDIA sono riusciti a creare una narrazione vocale più colloquiale per la propria serie di video "I AM AI" (che potete visionare qui) utilizzando voci sintetizzate anziché umane.










Test ride con Gowow Ori: elettrico e off-road vanno incredibilmente d'accordo
Recensione OnePlus 15: potenza da vendere e batteria enorme dentro un nuovo design
AMD Ryzen 5 7500X3D: la nuova CPU da gaming con 3D V-Cache per la fascia media
Apple Watch: la Mela dovrà versare 634 milioni di dollari a Masimo per violazione di brevetto
TIM e Nokia insieme per potenziare il 5G in Italia
Musk lancia la nuova era dei DM su X con Chat: la sicurezza resta un'incognita
A Dallas Fort Worth entrano in azione sei Striker Volterra elettrici 6x6
Black Friday HONOR: le promozioni su smartphone, tablet e bundle sono ancora attive
'È finalmente il momento': tutti gli indizi che puntano al grande ritorno di Half-Life 3
L'e-bike Also TM-B di Rivian ha una trazione mai vista, ma nasconde diverse insidie
Scaldarsi con il mining di Bitcoin? Negli USA qualcuno ci sta pensando...
Valve sorprende: la nuova Steam Machine supera il 70% dei PC da gaming disponibili
Samsung investirà 450 trilioni di won in cinque anni: fab, AI e batterie al centro del piano
BYD lancia il Black Friday anche per le auto: fino a 10.000 euro di sconto
Black Friday in anticipo: cuffie top a prezzi da urlo. Sony, Beats e le imperdibili CMF a prezzi mai visti









9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoInoltre poi qualcuno dovrebbe dire a Nvidia che le voci "sintetiche" servono anche a far capire che si sta parlando con una AI e non con una persona. Ad esempio quando sei al telefono.
Titolo più generalista non lo potevate mettere... sembrano i titoli del TG1.
Forse era meglio scrivere come titolo: "Il nuovo tool di Nvidia per la sintesi vocale mira a portare le voci degli assistenti vocali ad un nuovo di livello di fedeltà." Non è il massimo ma suona già meglio.
Ma che vi dobbiamo scrivere pure i titoli adesso...
Suppongo che ad un certo punto, quando la voce sintetica sarà difficile da distinguere da quella umana, su certi servizi debba essere scritta una regolamentazione che consenta di non trarre in inganno l'ascoltatore.
Lo svilupo dell'AI negli ultimi anni sta davvero cambiando l'informatica, nVidia ha decisamente fatto bene ad investirci, le applicazioni sono innumerevoli e di grande interesse.
Eh già, se qualche anno fa avessero "pensato piuttosto" anziché investire in intelligenza artificiale, ora il DLSS te lo sogneresti.
Ma non ti stanchi di ripetere questo sciocco mantra ogni volta che esce una notizia che riguarda un produttore di GPU?
Ma non ti stanchi di ripetere questo sciocco mantra ogni volta che esce una notizia che riguarda un produttore di GPU?
Come avessero chissà quale legame ....
Poteva poi uno capire o sospettare quantomeno se fosse uscita questa tecnologia prima e il DLSS dopo, e invece manco questo !
Certo che ne spari grosse.
È evidente che non sai di cosa parli.
Ma visto che non vedi al di la del tuo naso, prova ad immaginare per esempio come questa tecnologia può essere applicata ad un campo che ti è tanto caro, quello dei videogiochi: le voci del personaggi dall'interno di un gioco non dovranno più essere campionate preventivamente dalle voci dei doppiatori ma potrebbero essere pronunciate direttamente accrescendo enormemente le possibilità di dialogo.
Credi ancora che non dovrebbe essere competenza di nVidia?
Ma visto che non vedi al di la del tuo naso, prova ad immaginare per esempio come questa tecnologia può essere applicata ad un campo che ti è tanto caro, quello dei videogiochi: le voci del personaggi dall'interno di un gioco non dovranno più essere campionate preventivamente dalle voci dei doppiatori ma potrebbero essere pronunciate direttamente accrescendo enormemente le possibilità di dialogo.
Credi ancora che non dovrebbe essere competenza di nVidia?
Vedo che ti atteggi ancora da detentore della verità con argomentazioni ridicole.
Il doppiaggio se va bene non ha senso cambiarlo, e anche se lo cambiassero non ci guadagneremo nulla noi giocatori visto che al massimo ( E SOTTOLINEO "AL MASSIMO", ossia nella più rosea delle aspettative ) avremmo un risultato paragonabile a quello umano, ossia a quello che c'è già.
No grazie, pensassero a qualcosa di più concreto, grafica e frame rate grazie.
Se vuoi raccontartela così...
Mi chiedo perchè parli a vanvera quando non solo non hai argomenti, ma quando evidentemente neppure ti rendi conto di cosa consista ciò di cui si parla.
PS: Se davvero credi che il doppiaggio vada bene e non vedi i limiti intrinsechi nel suo utilizzo, temo ci sia davvero poco da discutere.
Se vuoi raccontartela così...
Mi chiedo perchè parli a vanvera quando [B][COLOR="Red"]non solo non hai argomenti[/COLOR][/B], ma quando evidentemente neppure ti rendi conto di cosa consista ciò di cui si parla.
PS: Se davvero credi che il doppiaggio vada bene e non vedi i limiti intrinsechi nel suo utilizzo, temo ci sia davvero poco da discutere.
Dai linkaci le fonti di queste tue due affermazioni, vai.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".