Fugatto, l'IA generativa di NVIDIA può riprodurre suoni mai sentiti prima
Utilizzando testo e audio come input, un nuovo modello di intelligenza artificiale generativa di NVIDIA ribattezzato "Fugatto" può creare qualsiasi combinazione di musica, voci e suoni.
di Manolo De Agostini pubblicata il 26 Novembre 2024, alle 14:31 nel canale WebNVIDIA
Un team di ricercatori di NVIDIA ha presentato Fugatto, un innovativo modello di intelligenza artificiale generativa progettato per trasformare e creare il suono in modi mai visti prima. Per ora si tratta di un progetto di ricerca, NVIDIA non dice quando - o se - lo strumento sarà reso ampiamente disponibile.
Abbreviazione di Foundational Generative Audio Transformer Opus 1, Fugatto è uno strumento che consente agli utenti di manipolare l'audio attraverso semplici indicazioni testuali, rendendolo una risorsa potente per produttori musicali, pubblicitari, educatori e sviluppatori di giochi.
Fugatto si basa su un framework che incorpora 2,5 miliardi di parametri ed è stato addestrato utilizzando sistemi avanzati NVIDIA DGX dotati di 32 GPU NVIDIA H100 Tensor Core.
Fugatto si distingue dalle altre soluzioni IA che affollano l'ambito sonoro per un livello di destrezza e creatività mai visto prima. A differenza dei modelli esistenti che possono solo comporre musica o modificare le voci in modi limitati, Fugatto può generare o modificare qualsiasi combinazione di musica, voci e suoni in base alle istruzioni definite dall'utente.
Ciò include la creazione di frammenti musicali originali da zero, l'aggiunta o la rimozione di strumenti da tracce esistenti e persino la modifica del tono emotivo o dell'accento delle performance vocali. Ido Zmishlany, produttore e cofondatore di One Take Audio, si è detto entusiasta del modello: "L'idea di poter creare al volo suoni completamente nuovi in studio è incredibile".
Rafael Valle, responsabile della ricerca audio applicata presso NVIDIA e uno dei creatori di Fugatto, ha sottolineato la capacità del modello di comprendere e generare il suono in modo simile agli esseri umani. Valle ha sottolineato che Fugatto mostra proprietà emergenti - capacità che nascono dall'interazione delle sue varie abilità addestrate - che gli permettono di rispondere dinamicamente a compiti audio complessi.
Le applicazioni di Fugatto sono vaste. I produttori musicali possono utilizzarlo per prototipare rapidamente idee di canzoni sperimentando diversi stili e strumentazioni. I pubblicitari possono adattare le voci fuori campo a diversi gruppi demografici, modificando in modo efficiente gli accenti e i toni emotivi.
Le piattaforme di apprendimento linguistico possono personalizzare i corsi utilizzando voci familiari agli studenti, migliorando il coinvolgimento e la fidelizzazione. Inoltre, gli sviluppatori di videogiochi possono adattare le risorse audio in tempo reale in base alle dinamiche di gioco o creare nuovi paesaggi sonori da zero utilizzando i suggerimenti testuali.
Una delle caratteristiche principali di Fugatto è la capacità di generare suoni mai sentiti prima. Ad esempio, può produrre suoni stravaganti come l'abbaiare di una tromba o il miagolio di un sassofono, dimostrando il suo potenziale creativo. Il modello impiega una tecnica chiamata ComposableART che consente agli utenti di combinare più istruzioni durante la generazione del suono.
Rohan Badlani, un ricercatore di intelligenza artificiale coinvolto nella progettazione di Fugatto, ha sottolineato la capacità del modello di interpolare temporalmente, creando paesaggi sonori in evoluzione nel tempo. Ciò significa che gli utenti possono generare esperienze uditive complesse, come la simulazione di un temporale che passa all'alba con il canto degli uccelli.










Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Renault Twingo E-Tech Electric: che prezzo!
Lo compri una volta, lo giochi dove vuoi: PlayStation intende seguire l'esempio di Xbox Play Anywhere?
Qiantinuum annuncia Helios, "il computer quantistico più potente al mondo"
Samsung Galaxy S26 Ultra: una sola novità tra i sensori delle fotocamere
Google prepara Gemini 3 Pro e Nano Banana 2: arrivo previsto entro fine anno
TVS non è solo moto e scooter: ecco la e-bike Cilo Tanay HC1 in carbonio
Alexa+ arriva su BMW: gli automobilisti potranno conversare in maniera naturale con l'auto
Gemini Deep Research arriva su Google Finance: la nuova IA proverà ad anticipare il mercato
Rinvii a catena, Marvel 1943: Rise of Hydra slitta oltre il 2026 a data da destinarsi
Xiaomi inaugura uno spazio dedicato ai fan durante le Nitto ATP Finals 2025
Rilasciate le specifiche di Bluetooth 6.2: mai più dongle USB dedicati per tastiere e mouse?
L'obiettivo che mette tutto a fuoco: la rivoluzione ottica arriva dalla Carnegie Mellon
Meta avrebbe raccolto fino al 10% dei ricavi 2024 da inserzioni fraudolente. L’azienda respinge: quadro distorto
NVIDIA DGX Spark e videogiochi? Una pessima idea, anche se funziona
Serie Oppo Reno15 confermata: arriva il 10 novembre in Cina con fotocamera da 200 MP









7 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoin realtà parte proprio da li, ma è scappato a gambe levate.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".