VALL-E: la nuova intelligenza artificiale di Microsoft che può imitare la voce umana. Basta una clip di 3 secondi

VALL-E è il nuovo modello di intelligenza artificiale di Microsoft per la sintesi vocale: dato un campione audio di 3 secondi può simulare la voce di una persona
di Andrea Bai pubblicata il 10 Gennaio 2023, alle 11:31 nel canale WebMicrosoft
La scorsa settimana i ricercatori Microsoft hanno annunciato VALL-E: si tratta di un nuovo modello di intelligenza artificiale rivolto alla sintesi vocale che è capace di simulare molto accuratamente la voce di una persona dopo aver ascoltato un campione audio di appena tre secondi. In questo modo VALL-E può apprendere una voce e sintetizzarla così da pronunciare qualsiasi cosa "text-to-speech" in maniera tale da preservare le caratteristiche, le inflessioni e il tono emotivo di chi parla.
La società di Redmond definisce VALL-E come un "modello di linguaggio codec naturale", basato su una tecnologia chiamata EnCodec che Meta aveva annunciato lo scorso anno ad ottobre. VALL-E si differenzia da altri metodi di sintesi vocale poiché invece di sintetizzare il parlato manipolando le forme d'onda, si occupa invece di generare codici di codec audio discreti da messaggi di testo e audio. In altri termini VALL-E analizza come "suona" una persona e suddivide queste informazioni in componenti discreti grazie a EnCodec.

Microsoft spiega in questo modo il funzionamento di VALL-E:
"Per sintetizzare il parlato personalizzato (ad es. TTS zero-shot), VALL-E genera i token acustici corrispondenti condizionati dai token acustici della registrazione registrata di 3 secondi e del prompt del fonema, che vincolano rispettivamente le informazioni sull'oratore e sul contenuto. Infine, i token acustici generati vengono utilizzati per sintetizzare la forma d'onda finale con il decodificatore del codec neurale corrispondente."
Le capacità di sintesi vocale di VALL-E sono state addestrate usando la libreria audio LibriLight realizzata da Meta, che contiene 60 mila ore di discorsi in lingua inglese di oltre 7 mila oratori estratti per la maggior parte da audiolibri di pubblico dominio.
Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E è anche in grado di imitare l'ambiente acustico dell'audio campione. Per esempio se la clip proviene da una telefonata, la resa dell'audio sintetizzato simulerà le caratteristiche acustiche proprie di una conversazione telefonica, così come i riverberi e gli echi di discorsi tenuti in sale conferenze.
I ricercatori Microsoft ipotizzano che VALL-E possa essere utilizzato per applicazioni di sintesi vocale di alta qualità come l'editing vocale in cui una registrazione necessita modifiche provenienti da una trascrizione di testo, o ancora la creazione di contenuti audio anche in combinazione con altri modelli di intelligenza artificiale generativa come GPT-3.In ogni caso, a fronte di un facilmente immaginabile rovescio della medaglia costituito dalla possibilità di alimentare disinformazione e mistificazione, Microsoft non ha reso pubblico il codice di VALL-E per la sperimentazione.
A tal proposito, consci del pericolo sociale che una risorsa come VALL-E può rappresentare, i ricercatori concludono:
"Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l'identità del parlante, potrebbe comportare potenziali rischi nell'uso improprio del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E. Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l'ulteriore sviluppo dei modelli".
Su Github sono stati pubblicati svariati campioni di parlato sintetizzato da VALL-E: "Speaker Prompt" è la clip audio di 3 secondi fornita all'intelligenza artificiale e di cui deve imitare i connotati vocali. "Ground Truth" è una registrazione pre-esistente dello stesso oratore e che pronuncia una particolare frase a scopo di confronto. "Baseline" è invece un esempio generato con le tecnologie di sintesi vocale attualmente disponibile mentre, infine "VALL-E" è il parlato generato dall'AI di Microsoft.
Il confronto di "Ground Truth" con "VALL-E" mostra che in molti casi la voce sintetizzata è molto simile (seppur non propriamente identica) a quella dell'oratore, ma che in generale molti dei campioni generati dall'AI sembrano del tutto parlati reali, che è poi lo scopo ultimo dello sviluppo di questa AI.
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoChi ci dice che il codice "per sbaglio" non venga trafugato dai server Microsoft?
Chi ci dice che un qualsiasi gruppo terroristico non vada a generare filmati fake del presidente tizio o caio dove vengono fatte affermazioni anch'esse fake e dalle quali avere ricadute in ambito geo-politico?
Il mondo ha un orizzonte torbido già ora, figuriamoci più avanti
Chi ci dice che il codice "per sbaglio" non venga trafugato dai server Microsoft?
Chi ci dice che un qualsiasi gruppo terroristico non vada a generare filmati fake del presidente tizio o caio dove vengono fatte affermazioni anch'esse fake e dalle quali avere ricadute in ambito geo-politico?
Il mondo ha un orizzonte torbido già ora, figuriamoci più avanti
ma ci sono già da anni deepfake di politici e vip, puoi immaginare quale sia il settore più florido
Se io compro un'auto, posso andare a 160km/h in autostrada, violando la legge, e il produttore non ha alcun diritto di impedirmelo.
Il punto è questo: una volta che ho comprato qualcosa, quel qualcosa è mio, e se voglio usarlo per violare la legge, a mio rischio e pericolo, cosciente di tutto ciò che questo comporta, devo poterlo fare.
Sinceramente trovo disgustosa questa tendenza da parte di alcuni esseri umani di comportarsi da "genitori" nei confronti di altri esseri umani adulti. È come avere il parental control a vita, controllato da qualche corporation che si arroga il diritto di decidere cosa puoi o non puoi fare in nome di qualche "alto valore morale".
Ripeto, se compro una pistola e la uso per uccidere, devo essere libero di farlo, e poi eventualmente scontarne le conseguenze. Anche perché prima o poi salterà fuori qualcuno con un po' di buon senso che creerà la stessa tecnologia e la rilascerà senza limiti... quindi non ha senso bloccare il progresso per mal riposti sensi di superiorità morale.
Se io compro un'auto, posso andare a 160km/h in autostrada, violando la legge, e il produttore non ha alcun diritto di impedirmelo.
Il punto è questo: una volta che ho comprato qualcosa, quel qualcosa è mio, e se voglio usarlo per violare la legge, a mio rischio e pericolo, cosciente di tutto ciò che questo comporta, devo poterlo fare.
Sinceramente trovo disgustosa questa tendenza da parte di alcuni esseri umani di comportarsi da "genitori" nei confronti di altri esseri umani adulti. È come avere il parental control a vita, controllato da qualche corporation che si arroga il diritto di decidere cosa puoi o non puoi fare in nome di qualche "alto valore morale".
Ripeto, se compro una pistola e la uso per uccidere, devo essere libero di farlo, e poi eventualmente scontarne le conseguenze. Anche perché prima o poi salterà fuori qualcuno con un po' di buon senso che creerà la stessa tecnologia e la rilascerà senza limiti... quindi non ha senso bloccare il progresso per mal riposti sensi di superiorità morale.
Beh, viva la sincerità!
Se io compro un'auto, posso andare a 160km/h in autostrada, violando la legge, e il produttore non ha alcun diritto di impedirmelo.
Il punto è questo: una volta che ho comprato qualcosa, quel qualcosa è mio, e se voglio usarlo per violare la legge, a mio rischio e pericolo, cosciente di tutto ciò che questo comporta, devo poterlo fare.
Sinceramente trovo disgustosa questa tendenza da parte di alcuni esseri umani di comportarsi da "genitori" nei confronti di altri esseri umani adulti. È come avere il parental control a vita, controllato da qualche corporation che si arroga il diritto di decidere cosa puoi o non puoi fare in nome di qualche "alto valore morale".
Ripeto, se compro una pistola e la uso per uccidere, devo essere libero di farlo, e poi eventualmente scontarne le conseguenze. Anche perché prima o poi salterà fuori qualcuno con un po' di buon senso che creerà la stessa tecnologia e la rilascerà senza limiti... quindi non ha senso bloccare il progresso per mal riposti sensi di superiorità morale.
Ma a scrivere questo post è un "adulto" o un adolescente?!
Risponderò ad ogni tua castronata, perchè meriti un aiuto caro mio!
Stancati quanto vuoi, il mondo funzionerà SEMPRE cosi (e menomale, altrimenti folli come te avrebbero già fatto una strage).
Assolutamente no. E' vero si che potresti arrivare a 160km/h in autostrada, ma solo perchè ti è stato "concesso" da chi ha costruito e venduto l'auto.
Per farti capire meglio il concetto: puoi voler portare i giri del motore a 10k/min, ma se il produttore ha messo il limitatore a 7k giri tu non andrai oltre quel valore, anche volendo e piangendo.
puoi voler togliere la chiave mentre guidi in autostrada continuando a guidare, ma non puoi, perchè chi ti ha venduto l'auto ha fatto si che tu non possa farlo. E anche in questo caso, pur frignando, non cambierai nulla.
Di nuovo assolutamente no. Quando tu compri un qualcosa, di fatto, stipuli un contratto con il venditore. Ancora di più nel caso di servizi, oltre al prezzo e al seervizio venduto, per fortuna, impliciti o meno, ci sono anche termini e condizioni.
Esempio: se tu acquisti un assicurazione (che sia sulla vita o sul cellulare o qualsiasi altra cosa) hai delle condizioni. Se ti s*icidi, ad esempio, la tua assicurazione (CHE HAI PAGATO) non sborserà nemmeno 1€.
Quindi NO, anche se paghi tu non puoi fare quello che vuoi.
E meno male, aggiungerei! Tu parli di un mondo dispotico in cui non vigono regole, tutto è concesso. Se io voglio ammazzare ammazzo. Se io voglio fare del male lo faccio.
ASSOLUTAMENTE NO! Per fortuna esistono persone dotate di raziocinio che mettono dei paletti a quello che le persone in generale possono e non possono fare.
Tecnicamente è cosi. Se compri una pistola e ammazzi qualcuno poi sconti delle conseguenze. Ma di fatto, anche in questo caso, ci viene in contro il buon senso che vieta la vendita di armi da fuoco (almeno qua in italia) a cani e porci ma lo permette a persone che superano determinati criteti (e qui ci rientra anche quello psicologico, che dubito passeresti).
Per fortuna il contesto in cui ci troviamo difficilmente lo permetterà. Partiamo dal presupposto che questa "tecnologia" non la crea una sola persona e neanche un gruppetto di 10-20 persone. Ma pur fingendo di trovare l'organico necessario per replicarla ci sarà anche l'aspetto economico dietro: perchè regalare un servizio che non esiste quando, quindi, posso venderlo a più dell'oro?!
"Bloccare il progresso tecnologico"?! Qua si sta scrivendo la storia (del progresso). Semmai sono i pensieri beceri come i tuoi che rallentano il progresso rubando tempo e risorse per porre limite morali "a prova di scimmia".
P.s: piccola nota legale. Chi sviluppa questa tecnologia è un azienda, soggetta alle leggi nazionali in cui si trova e a quelle internazionali. Anche ipotizzando che tutti i "lavoratori" avessero la tua mentalità comunque non cambierebbe nulla in quando stato e organizzazioni chiuderebbero baracca e burattini prima ancora che si sviluppi ancora un "alpha".
N.B: mi son registrato solo per risponderti. Spero tu comprenda.
Ma sono l'unico che ha pensato ad utilizzi "zozzi" per questa tecnologia artificiale della voce ?
Siate onesti !
Ma sono l'unico che ha pensato ad utilizzi "zozzi" per questa tecnologia artificiale della voce ?
no, bel maialone della tua zozzona! adesso vieni qui che ti faccio le cosacce che ti piacciono tanto!.
uhm... com'è che sto post risulta scritto da randorama e non da Darla the slapping queen?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".