Pubblicato maxi backup di Spotify: 300 TB di musica tra conservazione e polemiche

Pubblicato maxi backup di Spotify: 300 TB di musica tra conservazione e polemiche

Anna's Archive ha realizzato un enorme backup di Spotify, raccogliendo centinaia di terabyte tra file musicali e metadati per costruire un archivio aperto dedicato alla conservazione della musica digitale, con numeri senza precedenti per ampiezza e livello di dettaglio

di pubblicata il , alle 12:51 nel canale Web
Spotify
 

Anna's Archive, progetto già noto per le sue collezioni di libri e documenti digitali, ha annunciato di aver realizzato un massiccio backup di Spotify con l'obiettivo dichiarato di salvaguardare il patrimonio musicale distribuito sulla piattaforma di streaming. Il lavoro ha portato alla creazione di un archivio composto da circa 300 TB di dati, che comprende sia file audio sia metadati strutturati a livello di artisti, album e tracce, resi disponibili tramite torrent in più fasi di pubblicazione.

Secondo il blog ufficiale, si tratta del più esteso database pubblico di metadati musicali mai reso accessibile, con 256 milioni di tracce indicizzate e circa 186 milioni di codici ISRC unici, a cui si affiancano 86 milioni di file musicali che coprono all'incirca il 99,6% degli ascolti registrati su Spotify. Il progetto nasce da una tecnica sviluppata per sfruttare a larga scala l'infrastruttura del servizio di streaming, con la finalità esplicita di creare un archivio orientato alla conservazione di lungo periodo più che al consumo quotidiano, in continuità con la missione di preservare la conoscenza e la cultura già perseguita dalla piattaforma.

L'iniziativa parte dalla constatazione che la musica, pur essendo già oggetto di numerosi progetti di digitalizzazione da parte di collezionisti e appassionati, presenta ancora lacune nella copertura della cosiddetta "lunga coda", cioè dei brani poco ascoltati o di nicchia che spesso dipendono dall'impegno di singoli individui per essere condivisi e catalogati. Gli autori del blog sottolineano come molte collezioni esistenti tendano a privilegiare gli artisti più noti e le versioni audio con qualità massima, con un impatto rilevante sulle dimensioni complessive e sulla sostenibilità di un archivio che ambisca a includere l'intera produzione musicale umana.

Le tracce più popolari di Spotify (più del 99%) finiscono su Torrent

La raccolta legata a Spotify prova ad affrontare questi limiti attraverso una selezione guidata dalla metrica di popolarità del servizio, utilizzata per ordinare i brani e definire le priorità di archiviazione: i file audio sono stati raccolti privilegiando i contenuti che generano la quota più consistente di riproduzioni, in modo da coprire la quasi totalità degli ascolti pur fermandosi al 37% circa delle tracce complessive disponibili in piattaforma. I dati indicano che la maggioranza degli stream proviene da canzoni con popolarità compresa tra 50 e 80, un segmento relativamente ristretto in termini di numero assoluto di brani ma centrale per l'uso reale del catalogo.

Per quanto riguarda i metadati, l'archivio include le informazioni principali sulle tre entità chiave esposte dalle API di Spotify (artisti, album e tracce) oltre a un corposo blocco di dati secondari legati all'analisi audio. I file vengono distribuiti in forma di database SQLite, ricostruendo in modo quasi senza perdita le risposte JSON originali delle API, con un set di tabelle pensato per poter essere interrogato direttamente a fini di ricerca, statistiche e analisi. Il volume complessivo dei metadati primari compressi rimane al di sotto dei 200 GB, mentre le funzionalità audio generate da Spotify occupano circa 4 TB aggiuntivi.

La componente di file musicali è invece veicolata attraverso i cosiddetti Anna's Archive Containers (AAC), un formato definito dal progetto per distribuire grandi quantità di dati su più torrent, distinto dall'omonimo schema di codifica audio Advanced Audio Coding. All'interno dei container sono presenti i file OGG provenienti da Spotify, ripuliti da pacchetti non validi e arricchiti con la maggiore quantità possibile di metadati incorporati.

Nella fascia di brani più ascoltati, identificata dai livelli più alti di popolarità, la qualità audio corrisponde allo stream OGG Vorbis a 160 kbit/s originale di Spotify, con l'aggiunta dei soli metadati e senza alcuna ricodifica del contenuto. Per le tracce meno frequenti, o per le quali è stato necessario ricorrere a copie alternative con lo stesso ISRC, l'audio è stato convertito in OGG Opus a 75 kbit/s, scelta che secondo gli autori offre una resa percepita simile per la maggior parte degli utenti, pur mantenendo un compromesso più efficiente tra qualità e spazio occupato. È anche disponibile un archivio di file "diff" per ricostruire i file Spotify originari utilizzando i metadati supplementari.

Il materiale sarà pubblicato progressivamente attraverso una pagina dedicata ai torrent, con pacchetti distinti per metadati, file musicali e copertine, oltre a patch per ricostruire lo stato precedente dei file prima della scrittura dei nuovi tag. Oltre alla conservazione, il dataset apre spazi per analisi statistiche approfondite sulle dinamiche di ascolto e sulla composizione del catalogo Spotify: i curatori hanno già evidenziato, per esempio, la presenza di una coda enorme di brani quasi mai riprodotti, la concentrazione degli ascolti su una frazione ristretta del catalogo e l'aumento nel tempo di contenuti generati proceduralmente o tramite sistemi di intelligenza artificiale.

Tra le applicazioni suggerite, il team di Anna's Archive cita la possibilità di creare una "vera" riproduzione casuale sull'intero catalogo Spotify usando i metadati estratti, oppure playlist generate filtrando per diverse soglie di popolarità, sfruttando un campione di dati considerato più esteso rispetto ai progetti pubblici esistenti. Il rilascio, distribuito esclusivamente tramite torrent e presentato come uno strumento di preservazione più che come un servizio di fruizione, viene accompagnato da un invito alla comunità a contribuire con donazioni, seeding e feedback sulle successive analisi che il blog promette di pubblicare in futuro.

Anna's Archive è un archivio online che raccoglie e distribuisce in forma centralizzata grandi quantità di contenuti digitali, nato come progetto dedicato soprattutto a libri, articoli scientifici e altri testi resi disponibili tramite copie non autorizzate. Nel corso del tempo l'iniziativa ha esteso il proprio raggio d'azione includendo altri tipi di media, con l'obiettivo dichiarato di preservare la conoscenza e la cultura digitale ma attraverso modalità che, quando coinvolgono opere protette, si pongono al di fuori dei canali e delle licenze previste dai titolari dei diritti.

Nel caso specifico del maxi backup di Spotify, il progetto entra in conflitto con le regole che disciplinano l'utilizzo della piattaforma di streaming, che consente l'ascolto in streaming o il download limitato all'uso personale e solo all'interno delle proprie app, senza alcuna autorizzazione a estrarre in massa i file, ricostruirli e ridistribuirli pubblicamente tramite torrent. Il fatto che i contenuti ospitati siano brani musicali coperti da diritti d'autore e che vengano resi disponibili per il download generalizzato attraverso canali non ufficiali configura una violazione delle condizioni d'uso del servizio e dei diritti di riproduzione e messa a disposizione al pubblico, per cui è lecito attendersi che Spotify e i detentori dei cataloghi musicali valutino contromisure legali nei confronti dei responsabili dell'archivio.

5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Saturn22 Dicembre 2025, 14:02 #1
Un altro portale che non conoscevo !
piwi22 Dicembre 2025, 14:04 #2
Caspita ... 300 TBytes !
danylo24 Dicembre 2025, 17:58 #3
Pubblicato maxi backup di Spotify


Backup???
Quindi che scarica a manetta via torrent, sta' facendo un backup?


.
h.rorschach24 Dicembre 2025, 19:58 #4
Impresa gargantuesca di importanza indescrivibile oggi come ieri
gianluca.f27 Dicembre 2025, 09:35 #5
Sarei curioso di vedere com'è organizzata la struttura dati e metadati. C'è qualche immagine disponibile?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^