MusicLM: l'intelligenza artificiale di Google genera musica di vari generi a 24 kHz

Un'immagine generata dall'intelligenza artificiale di una palla musicale che esplode.
Ingrandire/ Un'immagine generata dall'intelligenza artificiale di una palla musicale che esplode.

Ars Tecnica

Giovedì i ricercatori di Google hanno annunciato un nuovo modello di intelligenza artificiale generativa chiamato MusicaLM che può creare audio musicale a 24 KHz da descrizioni di testo, come "una melodia rilassante di violino accompagnata da un suono distorto" riff di chitarra." Può anche trasformare una melodia canticchiata in uno stile musicale diverso e riprodurre musica per diversi minuti.

Ulteriori letture

L'intelligenza artificiale di Riffusion genera musica dal testo utilizzando sonogrammi visivi

MusicLM utilizza un modello di intelligenza artificiale addestrato su ciò che Google chiama "a ampio set di dati di musica senza etichetta", insieme ai sottotitoli di MusicCaps, un nuovo dataset composto da 5.521 coppie musica-testo. MusicCaps ottiene le descrizioni testuali da esperti umani e le clip audio corrispondenti da Google AudioSet, una raccolta di oltre 2 milioni di clip audio di 10 secondi etichettati estratti da video di YouTube.

In generale, MusicLM funziona in due parti principali: in primo luogo, richiede una sequenza di token audio (pezzi di suono) e li mappa in token semantici (parole che rappresentano il significato) nelle didascalie di formazione. La seconda parte riceve i sottotitoli dell'utente e/o l'audio in ingresso e genera token acustici (pezzi di suono che compongono l'output del brano risultante). Il sistema si basa su un precedente modello di intelligenza artificiale chiamato AudioLM (introdotto da Google a settembre) insieme ad altri componenti come SoundStream E MuLan.

Google afferma che MusicLM supera le prestazioni precedente Generatori musicali AI in qualità audio e aderenza alle descrizioni testuali. Sul MusicLM pagina dimostrativa, Google fornisce numerosi esempi del modello di intelligenza artificiale in azione, creando audio da "didascalie ricche" che descrivono l'atmosfera della musica e persino le voci (che finora sono senza senso). Ecco un esempio di una ricca didascalia che forniscono:

Canzone reggae dal ritmo lento, guidata da basso e batteria. Chitarra elettrica sostenuta. Bongo acuti con toni squillanti. Le voci sono rilassate con un'atmosfera rilassata, molto espressiva.

Google mette in mostra anche la "lunga generazione" di MusicLM (che crea clip musicali di cinque minuti da un semplice messaggio), la "modalità storia" (che richiede un sequenza di testo suggerisce e lo trasforma in una serie di melodie musicali in trasformazione), "condizionamento del testo e della melodia" (che richiede un canticchiare umano o fischiando l'input audio e modificandolo per adattarlo allo stile presentato in un prompt) e generando musica che si adatta allo stato d'animo dell'immagine didascalie.

Un diagramma a blocchi del modello di generazione musicale AI MusicLM tratto dal suo articolo accademico.
Ingrandire/ Un diagramma a blocchi del modello di generazione musicale AI MusicLM tratto dal suo articolo accademico.

Ricerca Google

Più in basso nella pagina di esempio, Google approfondisce la capacità di MusicLM di ricreare particolari strumenti (ad esempio flauto, violoncello, chitarra), diversi generi musicali, diversi livelli di esperienza del musicista, luoghi (fuga dal carcere, palestra), periodi di tempo (un club negli anni '50) e Di più.

La musica generata dall'intelligenza artificiale non è affatto un'idea nuova, ma i metodi di generazione musicale dell'intelligenza artificiale dei decenni precedenti spesso creavano musica notazione che è stata successivamente suonata a mano o tramite un sintetizzatore, mentre MusicLM genera le frequenze audio grezze del musica. Inoltre, a dicembre, abbiamo coperto Riffusione, un progetto di intelligenza artificiale per hobby che può creare musica in modo simile da descrizioni di testo, ma non ad alta fedeltà. Google fa riferimento a Riffusion nel suo MusicLM documento accademico, affermando che MusicLM lo supera in termini di qualità.

Ulteriori letture

Il codec audio basato sull'intelligenza artificiale di Meta promette una compressione 10x rispetto a MP3

Nel documento di MusicLM, i suoi creatori delineano i potenziali impatti di MusicLM, inclusa la "potenziale appropriazione indebita di contenuti creativi" (ad esempio, questioni relative al copyright), potenziali pregiudizi per le culture sottorappresentate nei dati di formazione e potenziale appropriazione culturale problemi. Di conseguenza, Google sottolinea la necessità di ulteriore lavoro per affrontare questi rischi e sta trattenendo il codice: "Non abbiamo intenzione di rilasciare modelli a questo punto".

I ricercatori di Google stanno già guardando avanti verso miglioramenti futuri: "Il lavoro futuro potrebbe concentrarsi sulla generazione di testi, insieme al miglioramento del condizionamento del testo e della qualità vocale. Un altro aspetto è la modellazione della struttura della canzone di alto livello come introduzione, strofa e ritornello. Modellare la musica con una frequenza di campionamento più elevata è un obiettivo aggiuntivo."

Probabilmente non è eccessivo suggerire che i ricercatori di intelligenza artificiale continueranno a migliorare la tecnologia di generazione musicale finché qualcuno non sarà in grado di creare musica di qualità da studio. musica in qualsiasi stile semplicemente descrivendola, anche se nessuno può ancora prevedere esattamente quando verrà raggiunto questo obiettivo o quale impatto avrà esattamente sull’industria musicale. Restate sintonizzati per ulteriori sviluppi.

Ultimo post sul blog

I fisici di Cambridge ideano un modello scientifico funzionante per rivoluzioni di successo
September 07, 2023

I ricercatori dell’Università di Cambridge hanno ideato un modello per superare la leadership della maggioranza in qualsiasi campo competitivo. Ma ...

Gli scienziati hanno scoperto una nuova forma? Bene, prima dobbiamo definire la “forma”. Inoltre, “nuovo”.
August 22, 2023

Una bella scoperta scientifica e una strana indagine semantica. "Gli scienziati hanno appena scoperto una nuova forma" è un ottimo titolo e molte ...

Matematica Avanzata Con I Lego In Una Lavatrice
August 22, 2023

Lego Ogni generazione arriva un articolo scientifico che scuote le basi stesse della ricerca, capovolge il nostro senso della ricerca mondo, ci la...