Fugatto, l'IA generativa di NVIDIA può riprodurre suoni mai sentiti prima

Utilizzando testo e audio come input, un nuovo modello di intelligenza artificiale generativa di NVIDIA ribattezzato "Fugatto" può creare qualsiasi combinazione di musica, voci e suoni.
di Manolo De Agostini pubblicata il 26 Novembre 2024, alle 14:31 nel canale WebNVIDIA
Un team di ricercatori di NVIDIA ha presentato Fugatto, un innovativo modello di intelligenza artificiale generativa progettato per trasformare e creare il suono in modi mai visti prima. Per ora si tratta di un progetto di ricerca, NVIDIA non dice quando - o se - lo strumento sarà reso ampiamente disponibile.
Abbreviazione di Foundational Generative Audio Transformer Opus 1, Fugatto è uno strumento che consente agli utenti di manipolare l'audio attraverso semplici indicazioni testuali, rendendolo una risorsa potente per produttori musicali, pubblicitari, educatori e sviluppatori di giochi.
Fugatto si basa su un framework che incorpora 2,5 miliardi di parametri ed è stato addestrato utilizzando sistemi avanzati NVIDIA DGX dotati di 32 GPU NVIDIA H100 Tensor Core.
Fugatto si distingue dalle altre soluzioni IA che affollano l'ambito sonoro per un livello di destrezza e creatività mai visto prima. A differenza dei modelli esistenti che possono solo comporre musica o modificare le voci in modi limitati, Fugatto può generare o modificare qualsiasi combinazione di musica, voci e suoni in base alle istruzioni definite dall'utente.
Ciò include la creazione di frammenti musicali originali da zero, l'aggiunta o la rimozione di strumenti da tracce esistenti e persino la modifica del tono emotivo o dell'accento delle performance vocali. Ido Zmishlany, produttore e cofondatore di One Take Audio, si è detto entusiasta del modello: "L'idea di poter creare al volo suoni completamente nuovi in studio è incredibile".
Rafael Valle, responsabile della ricerca audio applicata presso NVIDIA e uno dei creatori di Fugatto, ha sottolineato la capacità del modello di comprendere e generare il suono in modo simile agli esseri umani. Valle ha sottolineato che Fugatto mostra proprietà emergenti - capacità che nascono dall'interazione delle sue varie abilità addestrate - che gli permettono di rispondere dinamicamente a compiti audio complessi.
Le applicazioni di Fugatto sono vaste. I produttori musicali possono utilizzarlo per prototipare rapidamente idee di canzoni sperimentando diversi stili e strumentazioni. I pubblicitari possono adattare le voci fuori campo a diversi gruppi demografici, modificando in modo efficiente gli accenti e i toni emotivi.
Le piattaforme di apprendimento linguistico possono personalizzare i corsi utilizzando voci familiari agli studenti, migliorando il coinvolgimento e la fidelizzazione. Inoltre, gli sviluppatori di videogiochi possono adattare le risorse audio in tempo reale in base alle dinamiche di gioco o creare nuovi paesaggi sonori da zero utilizzando i suggerimenti testuali.
Una delle caratteristiche principali di Fugatto è la capacità di generare suoni mai sentiti prima. Ad esempio, può produrre suoni stravaganti come l'abbaiare di una tromba o il miagolio di un sassofono, dimostrando il suo potenziale creativo. Il modello impiega una tecnica chiamata ComposableART che consente agli utenti di combinare più istruzioni durante la generazione del suono.
Rohan Badlani, un ricercatore di intelligenza artificiale coinvolto nella progettazione di Fugatto, ha sottolineato la capacità del modello di interpolare temporalmente, creando paesaggi sonori in evoluzione nel tempo. Ciò significa che gli utenti possono generare esperienze uditive complesse, come la simulazione di un temporale che passa all'alba con il canto degli uccelli.
7 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoin realtà parte proprio da li, ma è scappato a gambe levate.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".