MusicLM: ecco l'AI musicale di Google che da una descrizione genera audio a 24kHz

A partire da una descrizione testuale, ma anche da un motivetto canticchiato o fischiettato, MusicLM è capace di generare brani audio o spaziare tra generi diversi

di Andrea Bai pubblicata il 31 Gennaio 2023, alle 19:01 nel canale Web
Midjourney ChatGPT Google

Dopo ChatGPT per il testo e Midjourney per le immagini, non poteva mancare anche l'AI generativa "musicale". Questa volta si tratta di un progetto sviluppato da Google: MusicLM è in grado di creare armonie e melodie a 24KHz partendo da una descrizione testuale o anche da un "fraseggio" canticchiato, esplorando anche stili differenti.

MusicLM si basa su un modello di intelligenza artificiale addestrato con un ampio set di dati di brani musicali liberi, unitamente ai sottotitoli di MusicCaps, un set di dati composto da oltre 5500 coppie di musica e testo. MuiscCaps è costituito da descrizioni di testo realizzate dall'uomo tratte da clip audio presenti in AudioSet di Goole, una raccolta di oltre due milioni di clip audio di 10 secondo estratte dai video di YouTube. Google aveva in precedenza lavorato ad un altro modello AI chiamato AudioLM, che funge da ossatura per MusicLM assieme ad altre tecnologie quali SoundStream e MuLan.

Partendo da questo set da cui attingere e rielaborare, il funzionamento di MusicLM prevede due step. Anzitutto a partire da una sequenza di "token audio" compie associazioni con "token semantici" nella fase di addestramento. Nella seconda fase riceve indicazioni testuali dall'utente (o una clip audio) e genera token acustici che costituiscono l'output del brano risultante.

La società di Mountain View afferma che MusicLM è capace di produrre un risultato migliore rispetto ai predecessori sia per quanto riguarda la qualità audio, sia per l'aderenza alle descrizioni testuali fornite. Google mette a disposizione vari esempi di quanto ottenibile con MusicLM, con spezzoni audio realizzati a partire da descrizioni dettagliate. In alcuni brani vi sono anche parti pseudo-vocali, che tuttavia non hanno alcun senso compiuto.

Tra gli esempi vi è anche quello della "long generation", cioè la produzione di un brano più articolato e di maggior durata a partire da un semplice suggerimento, la "story mode" che da una serie di suggerimenti di testo trae una serie di brani musicali in evoluzione, la modalità "testo e melodia condizionate" che, come accennavamo sopra, genera una melodia a partire da un motivetto canticchiato o fischiettato, modificandolo in accordo con uno stile indicato.

MusicLM è capace di generare suoni e melodie di strumenti musicali specifici, così come generi musicali differenti, imitare diversi livelli di capacità di esecuzione ma anche l'acustica di diversi luoghi o le atomosfere proprie di un determinato periodo storico.

Il codice di MusicLM non è pubblico, e i ricercatori di Google non prevedono di rilasciarlo almeno allo stato attuale delle cose. A tal proposito, nel documento accademico di presentazione, vengono indicati alcuni aspetti e il potenziale impatto di una tecnologia di questo tipo, citando ad esempio eventuali problemi di copyright, l'esistenza di pregiudizi per via di culture sottorappresentate nei set di dati utilizzati durante la fase di apprendimento (aspetto comune a tutte le AI) o possibili problemi di appropriazione culturale.

I ricercatori ritengono che sia necessario ulteriore lavoro di sviluppo e affinamento, per affrontare e risolvere i problemi ravvisati. Oltre a ciò lo sviluppo potrebbe concentrarsi anche su altre funzioni, come ad esempio la generazione di testi o la composizione strutturata di brani con parti "canoniche" come introduzione, strofa e ritornello. E, ovviamente, anche la capacità di generare audio ad una frequenza di campionamento superiore, e quindi con maggior qualità.

Insomma, l'obiettivo ultimo sembra essere quello della composizione e creazione musicale alla portata di chiunque, a partire da una semplice descrizione testuale. Chissà cosa avrà da dire Nick Cave su tutto ciò, considerando l'opinione non esattamente lunsighiera che già nutre per ChatGPT...

I migliori sconti su Amazon oggi

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

499.00€ Compra ora

-3%

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

429.90 419.00€ Compra ora

-29%

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

279.00 199.00€ Compra ora

Canonical annuncia la disponibilità di Ubuntu Pro

Europa 2022, per la prima volta l'energia elettrica prodotta da eolico e fotovoltaico ha superato quella da gas

andbad01 Febbraio 2023, 13:48 #1

MusicLM: ecco l'AI musicale di Google che da una descrizione genera audio a 24kHz

#OsservatorioECCO

By(t)e

barzokk01 Febbraio 2023, 14:27 #2

Tra il "ecco" e l'audio a 24kHz, mettere 2 facepalm in un titolo non è mica da poco

nonsidice01 Febbraio 2023, 14:43 #3

Originariamente inviato da: andbad

#OsservatorioECCO

By(t)e

Dovresti mettere un "contatore" all'osservatorio, un bel +1 ad ogni bollino "ECCO".
Chissà a quanto arriveresti in una settimana, mese ed anno

andbad01 Febbraio 2023, 17:23 #4

Originariamente inviato da: nonsidice

Dovresti mettere un "contatore" all'osservatorio, un bel +1 ad ogni bollino "ECCO".
Chissà a quanto arriveresti in una settimana, mese ed anno

Google dice che siamo a 378:
https://www.google.com/search?q=%23...h=947&dpr=1

By(t)e

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

MusicLM: ecco l'AI musicale di Google che da una descrizione genera audio a 24kHz

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

4 Commenti