OpenAI, l'IA che clona le voci è pronta, ma la società ha paura a rilasciarla

Voice Engine può clonare qualsiasi voce da uno spezzone audio di 15 secondi. La resa è impressionante e OpenAI ha qualche dubbio sugli usi impropri della tecnologia

di Andrea Bai pubblicata il 02 Aprile 2024, alle 15:31 nel canale Web
OpenAI

OpenAI ha annunciato Voice Engine, un nuovo modello di intelligenza artificiale destinato alla sintesi vocale e alla generazione di voci sintetiche in grado di replicare voci realmente esistenti a partire da brevi spezzoni audio. La società ha rilasciato sul proprio sito alcuni campioni che dimostrano le capacità della nuova tecnologia, che consente inoltre di ottenere un parlato da un testo scritto.

Dagli spezzoni condivisi da OpenAI si evince quanto le voci sintetiche siano davvero estremamente simili a quelle originali, risultando di fatto indistinguibili anche ad un orecchio più che attento.

La società aveva pianificato il lancio di un programma pilota per consentire agli sviluppatori di iscriversi all'API di Voice Engine all'inizio di marzo, ma al momento i piani di rilascio sono stati temporaneamente sospesi a seguito di una serie di considerazioni interne sui risvolti e sulle implicazioni etiche di questa tecnologia.

"In linea con il nostro approccio alla sicurezza dell'intelligenza artificiale e con i nostri impegni volontari, stiamo scegliendo di presentare in anteprima ma di non rilasciare su larga scala questa tecnologia in questo momento. Speriamo che questa anteprima di Voice Engine ne sottolinei il potenziale e motivi anche la necessità di rafforzare la resilienza della società contro le sfide poste da modelli generativi sempre più convincenti" afferma la società.

OpenAI indica le possibili applicazioni in grado di trarre vantaggio da questo nuovo modello IA, come ad esempio la possibilità di fornire assistenza alla lettura attraverso voci dal suono naturale, consentire una portata globale ai creatori traducendo contenuti preservando gli accenti nativi, supportare le persone non verbali con opzioni vocali personalizzate e assistere i pazienti nel recuperare la propria voce dopo condizioni di disturbo della parola.

Ma è chiaro che l'accessibilità globale a questa tecnologia presenta rischi di notevole portata permettendo di fatto di clonare qualsiasi voce di cui si dispongano 15 secondi di registrazione, con l'elevata possibilità (e probabilità) di uso improprio. Non solo truffe e raggiri telefonici, com'è automatico immaginare, ma anche azioni criminose più sofisticate: alcuni ricercatori hanno infatti già dimostrato come, in generale, le più avanzate tecnologie di sintesi vocale possono consentire di violare quei sistemi biometrici che si basano proprio sull'autenticazione vocale.

OpenAI stessa riconosce che la tecnologia potrebbe causare "problemi" se rilasciata su larga scala, motivo per il quale sta approntando una serie di regole che almeno inizialmente dovrebbero consentire di arginare l'uso improprio di Voice Engine: nei termini di utilizzo, ad esempio, è fatto divieto di rappresentare "un altro individuo o organizzazione senza consenso o diritto legale", viene richiesto di acquisire il consenso informato delle persone le cui voci vengono clonate e di esplicitare chiaramente quali voci sono generate dall'IA. Un aspetto ancor più interessante, però, è l'impiego di una particolare "filigrana vocale" che Voice Engine inserirà in ogni campione, per aiutare nel tracciamento delle voci sintetiche.

"Stiamo adottando un approccio cauto e informato verso un rilascio più ampio a causa del potenziale uso improprio della voce sintetica. Speriamo di avviare un dialogo sull'impiego responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità. Sulla base di queste conversazioni e dei risultati di questi test su piccola scala, prenderemo una decisione più informata su se e come implementare questa tecnologia su larga scala" ha sottolineato OpenAI.

I migliori sconti su Amazon oggi

-50%

Ring videocamera esterna Pro a batteria (Stick Up Cam Pro) | Telecamera di sorveglianza senza fili, video HDR, vista dall’alto, rilev. movimento 3D, fai-da-te | Ring Home: 30 gg. prova gratuita

179.99 89.99€ Compra ora

-6%

AMAZFIT Bip 6 Smartwatch 46mm, Batteria 14 giorni, AMOLED 1,97", GPS Mappe, IA, Chiamate Bluetooth, Monitor Salute Sonno, 140+ Sport, Fitness, Impermeabile 5ATM, Nero

79.90 74.99€ Compra ora

-6%

SAMSUNG Galaxy S25 Edge, Smartphone AI, 3 anni di Garanzia del produttore, Display 6.7'' QHD+ Dynamic AMOLED 2X, Fotocamera 200MP, RAM 12GB, 512GB, 3.900 mAh, Titanium Jetblack [Versione italiana]

1419.00€ Compra ora

iOS 18 e iPadOS 18: ecco i dispositivi che perderanno il supporto

Smart Factory Business: la nuova divisione di LG dedicata alle soluzioni per la fabbrica intelligente

demon7702 Aprile 2024, 15:33 #1

Questa tecnologia ha praticmante SOLO risvolti negativi.
E' come regalare una set di armi cariche ai delinquenti...
Cosa mi fa ridere? Che se non lo fanno loro di Open AI domani semplicmente lo farà qualcun altro.

Chiudo il post con la solita conclusione: la IA ci fotterà tutti.

djmatrix61902 Aprile 2024, 15:58 #2

Originariamente inviato da: demon77

Cosa mi fa ridere? Che se non lo fanno loro di Open AI domani semplicmente lo farà qualcun altro.

Chiudo il post con la solita conclusione: la IA ci fotterà tutti.

Esattamente, completamente d'accordo.....

pengfei02 Aprile 2024, 15:59 #3

Originariamente inviato da: demon77

Ma dai.
Non vedo davvero cosa mai potrebbe andare storto.

Questa tecnologia ha praticamente SOLO risvolti negativi.

Si potrebbe implementare una segreteria telefonica che genera un messaggio in automatico secondo l'agenda dell'utente, ad esempio dicendo quando richiamare o robe così, il tutto con la voce clonata, questo è progresso!

calabar02 Aprile 2024, 16:01 #4

Se fanno il telefono che risponde per conto tuo alle telefonate commerciali, li stanca al telefono e non accetta nulla, diventa la tecnologia antirompiscatole definitiva!

demon7702 Aprile 2024, 16:09 #5

Originariamente inviato da: calabar

Se fanno il telefono che risponde per conto tuo alle telefonate commerciali, li stanca al telefono e non accetta nulla, diventa la tecnologia antirompiscatole definitiva!

OPPURE clonano la tua voce facendoti un paio di telefonate dove ti fanno parlare giusto 10 secondi e poi grazie alla AI ti fanno dire letteralmente il cazzo che vogliono facendoti accettare contratti telefonici di utenze, telco ecc.
Ma giusto per dirne uno eh.

Toppissimo anche per le truffe ad anziani e/o categorie deboli dove sta volta non sarà più il tizio amico del figlio/nipote a dire che c'è una emergenza e che servono tremila euro subito ma gli passerà il telefono dove sarà proprio la viva voce del figlio/nipote a dirgli piangendo che bisogna agire subito!

Lo spasso poi in realtà aziendali e/o amministrative dove si verrà contattati direttamente dal direttore generale che ti impatisce ordini perentori da eseguire subito altrimenti ti licenzia.

io78bis02 Aprile 2024, 16:27 #6

Originariamente inviato da: demon77

Pensa anche solo alla famosa truffa della chiamata all'anziano del finto nipote che chiede soldi. Ora anche la voce telefonica sembrerà del nipote.

io78bis02 Aprile 2024, 16:32 #7

Che teste di legno. Sviluppano e poi si pongono i problemi etici. Sicuramente si preoccuperanno di proteggere in qualche modo il timbro vocale del politico/personaggio famoso di turno senza soffermarsi sui possibili impatti per la gente comune.

Ormai lo sviluppo del IA dev'essere non regolamentato ma supervisionato da enti con livelli di sicurezza altissimi quasi tipo armi nucleari perché è quella la potenza che stanno assumendo.

Non è allarmismo è semplicemente la realtà o il futuro prossimo (2 anni)

djmatrix61902 Aprile 2024, 16:44 #8

Originariamente inviato da: io78bis

Non è allarmismo è semplicemente la realtà o il futuro prossimo (2 anni)

2 anni?
Su Instagram già girano i reel con i personaggi famosi che dicono cose mai dette realmente, con la stessa voce.

Mars9502 Aprile 2024, 16:54 #9

Originariamente inviato da: demon77

Oppure visto che è possibile clonare la voce è possibile contestare qualsiasi contratto stipulato a voce, quindi di fatto rende impossibili tutta una serie di truffe.

Le aziende correranno ai ripari, ma già se mi chiama il mio capo da un numero che non conosco non ci vuole tanto a capirlo.

Per quanto riguarda gli anziani se uno paga tremila euro per un emergenza del nipote è così rincoglionito da cascare in una truffa indipendentemente dalla voce.

UtenteHD02 Aprile 2024, 16:58 #10

Originariamente inviato da: demon77

Quoto quanto detto sulla sua pericolosita', abbiamo visto come la massa in genere la usa per nulla, oppure la utilizza per altro tranne quello che serve e poi ci sono i peggiori..
Io non rilascerei una Tecnologia come questa, la farei solo a pagamento per chi ha a che fare con lo spettacolo e similari.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

MSI Prestige 13 AI e i portatili business al Computex

NVIDIA GeForce RTX 5060: le schede video di ogni partner dal Computex

MSI Maestro 9000 al Computex 2025: un case che stupisce

Phanteks al Computex 2025

Corsair al Computex 2025

Fujifilm GFX100RF: la 'compatta' medio formato

Dalle radio a transistor ai Micro LED: il viaggio di Hisense da Qingdao al mondo intero Una delle realtà a maggiore crescita nel mondo dell'elettronica di consumo, Hisense Group, affonda le sue radici nella storica città portuale di Qingdao, famosa...

realme GT7: un "flaghsip killer" concreto! La recensione Abbiamo provato l'ultimo smartphone di realme, il nuovo GT7. Si tratta di un device che si colloca in una fascia di mercato delicata, ovvero quella che possiamo...

Recensione DOOM: The Dark Ages, proiettili e heavy metal nel Medioevo Abbiamo indossato la corazza dello Slayer per tornare nell'universo di DOOM ed esplorare un'ambientazione inedita per l'FPS di id Software. Questa volta veniamo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

La rivoluzione dei dati in tempo reale è in arrivo. Un assaggio a Confluent Current 2025 Siamo andati a Londra per partecipare a Current 2025, la conferenza annuale di Confluent. Il tema al centro dell'evento era l'elaborazione dei dati in tempo reale...

Tutto sulla nuova Tesla Model Y: autonomia in autostrada, prova bagagliaio e dettagli Abbiamo guidato per diversi giorni la nuova Tesla Model Y, in versione di lancio dual motor e con batteria long range. Ecco tutto quello che c'è da sapere sull'erede...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

OpenAI, l'IA che clona le voci è pronta, ma la società ha paura a rilasciarla

Ring videocamera esterna Pro a batteria (Stick Up Cam Pro) | Telecamera di sorveglianza senza fili, video HDR, vista dall’alto, rilev. movimento 3D, fai-da-te | Ring Home: 30 gg. prova gratuita

AMAZFIT Bip 6 Smartwatch 46mm, Batteria 14 giorni, AMOLED 1,97", GPS Mappe, IA, Chiamate Bluetooth, Monitor Salute Sonno, 140+ Sport, Fitness, Impermeabile 5ATM, Nero

SAMSUNG Galaxy S25 Edge, Smartphone AI, 3 anni di Garanzia del produttore, Display 6.7'' QHD+ Dynamic AMOLED 2X, Fotocamera 200MP, RAM 12GB, 512GB, 3.900 mAh, Titanium Jetblack [Versione italiana]

36 Commenti