Fugatto, l'IA generativa di NVIDIA può riprodurre suoni mai sentiti prima

Utilizzando testo e audio come input, un nuovo modello di intelligenza artificiale generativa di NVIDIA ribattezzato "Fugatto" può creare qualsiasi combinazione di musica, voci e suoni.

di Manolo De Agostini pubblicata il 26 Novembre 2024, alle 14:31 nel canale Web
NVIDIA

Un team di ricercatori di NVIDIA ha presentato Fugatto, un innovativo modello di intelligenza artificiale generativa progettato per trasformare e creare il suono in modi mai visti prima. Per ora si tratta di un progetto di ricerca, NVIDIA non dice quando - o se - lo strumento sarà reso ampiamente disponibile.

Abbreviazione di Foundational Generative Audio Transformer Opus 1, Fugatto è uno strumento che consente agli utenti di manipolare l'audio attraverso semplici indicazioni testuali, rendendolo una risorsa potente per produttori musicali, pubblicitari, educatori e sviluppatori di giochi.

Fugatto si basa su un framework che incorpora 2,5 miliardi di parametri ed è stato addestrato utilizzando sistemi avanzati NVIDIA DGX dotati di 32 GPU NVIDIA H100 Tensor Core.

Fugatto si distingue dalle altre soluzioni IA che affollano l'ambito sonoro per un livello di destrezza e creatività mai visto prima. A differenza dei modelli esistenti che possono solo comporre musica o modificare le voci in modi limitati, Fugatto può generare o modificare qualsiasi combinazione di musica, voci e suoni in base alle istruzioni definite dall'utente.

Ciò include la creazione di frammenti musicali originali da zero, l'aggiunta o la rimozione di strumenti da tracce esistenti e persino la modifica del tono emotivo o dell'accento delle performance vocali. Ido Zmishlany, produttore e cofondatore di One Take Audio, si è detto entusiasta del modello: "L'idea di poter creare al volo suoni completamente nuovi in studio è incredibile".

Rafael Valle, responsabile della ricerca audio applicata presso NVIDIA e uno dei creatori di Fugatto, ha sottolineato la capacità del modello di comprendere e generare il suono in modo simile agli esseri umani. Valle ha sottolineato che Fugatto mostra proprietà emergenti - capacità che nascono dall'interazione delle sue varie abilità addestrate - che gli permettono di rispondere dinamicamente a compiti audio complessi.

Le applicazioni di Fugatto sono vaste. I produttori musicali possono utilizzarlo per prototipare rapidamente idee di canzoni sperimentando diversi stili e strumentazioni. I pubblicitari possono adattare le voci fuori campo a diversi gruppi demografici, modificando in modo efficiente gli accenti e i toni emotivi.

Le piattaforme di apprendimento linguistico possono personalizzare i corsi utilizzando voci familiari agli studenti, migliorando il coinvolgimento e la fidelizzazione. Inoltre, gli sviluppatori di videogiochi possono adattare le risorse audio in tempo reale in base alle dinamiche di gioco o creare nuovi paesaggi sonori da zero utilizzando i suggerimenti testuali.

Una delle caratteristiche principali di Fugatto è la capacità di generare suoni mai sentiti prima. Ad esempio, può produrre suoni stravaganti come l'abbaiare di una tromba o il miagolio di un sassofono, dimostrando il suo potenziale creativo. Il modello impiega una tecnica chiamata ComposableART che consente agli utenti di combinare più istruzioni durante la generazione del suono.

Rohan Badlani, un ricercatore di intelligenza artificiale coinvolto nella progettazione di Fugatto, ha sottolineato la capacità del modello di interpolare temporalmente, creando paesaggi sonori in evoluzione nel tempo. Ciò significa che gli utenti possono generare esperienze uditive complesse, come la simulazione di un temporale che passa all'alba con il canto degli uccelli.

I migliori sconti su Amazon oggi

-43%

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

149.90 85.03€ Compra ora

-43%

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

499.00€ Compra ora

-8%

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

149.99 137.85€ Compra ora

Elon Musk su Avowed: non per essere il più forte, ma il più arrabbiato contro i pronomi

DJI Mic Mini: i microfoni wireless diventano piccolissimi!

supertigrotto26 Novembre 2024, 15:36 #1

Fugatto a Vicenza e provincia col cavolo che ci arriva!

Jackaos26 Novembre 2024, 15:56 #2

...

giovanni6926 Novembre 2024, 17:54 #3

Originariamente inviato da: supertigrotto

Fugatto a Vicenza e provincia col cavolo che ci arriva!

Gringo [ITF]26 Novembre 2024, 19:02 #4

....appunto.... Fùgatto!

randorama26 Novembre 2024, 19:07 #5

Originariamente inviato da: supertigrotto

Fugatto a Vicenza e provincia col cavolo che ci arriva!

in realtà parte proprio da li, ma è scappato a gambe levate.

GiGBiG26 Novembre 2024, 23:51 #6

Non resterà lavoro davvero più per nessuno.

rattopazzo27 Novembre 2024, 00:22 #7

La vera rivoluzione fu il SID del Commodore 64, tutto il resto è noia.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Fugatto, l'IA generativa di NVIDIA può riprodurre suoni mai sentiti prima

Amazfit GTR 3, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, AMOLED, Monitor del Sonno, 5 ATM Impermeabile, Durata Batteria di 21 Giorni, SpO2

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

7 Commenti