I formati audio digitali [Archivio] - Hardware Upgrade Forum

TNOTB

23-06-2010, 20:19

Ciao,
in questi giorni, spulciando tra i miei files, ho riscoperto un mio articoletto sui formati audio digitali, scritto qualche anno fa su un altro forum, ed ho il piacere di condividerlo anche qui su HWU

PREMESSA

Le righe a seguire non vogliono essere una guida ne un compendio di tecnologie di compressione audio, si tratta semplicemente del frutto di un’analisi e considerazioni personali sui formati audio digitali e pertanto non è esente da imprecisioni, errori e/o soggettività sull’argomento. Prendetelo giusto per uno sfogo o per un semplice desiderio di scrivere qualcosa su un argomento che da anni mi appassiona.
----------------------------------------------------------------------------------------------------------

I FORMATI AUDIO DIGITALI

Qualche anno fa, con l’espansione di Internet si è riscontrata un’enorme diffusione di files audio digitali compressi i quali rispecchianvano (e rispecchiano tutt'ora, anche se in minor misura, considerando l'aumento delle capacità di storage) la necessità di ridurre le dimensioni dei file per sfruttare nel migliore dei modi la banda disponibile per il loro trasferimento nonché diminuire lo spazio occupato sui supporti di memorizzazione e non compromettere quindi le capacità di storaggio.
Con questo articolo ci addentriamo nel mondo dei più diffusi formati audio compressi che ormai popolano in nostri hard disk, cercando anche, per quel che si può, di fornire indicazioni per la scelta del formato da utilizzare a seconda delle proprie esigenze che possono essere di pura archiviazione, e quindi con necessità di risparmio degli spazi di memorizzazione, o di qualità del suono.

E’ opportuno iniziare, soprattutto in relazione alla qualità del suono di prodotti musicali digitali ed al rapporto di questa con le dimensioni occupate su disco, introducendo la digitalizzazione del suono ovvero la conversione di una forma fisica (analogica), in questo caso la forma d'onda del segnale audio, in una serie di cifre numeriche digitali.
Il trasferimento del segnale analogico in una struttura digitale avviene attraverso un convertitore Analogico-Digitale il quale prende una serie di misurazioni del segnale di input ad intervalli regolari e le memorizza come una serie di numeri (0-1/sistema binario). Per avere un prodotto digitale che rappresenti fedelmente la forma d’onda originaria è necessario effettuare una lettura quanto più fitta dei suoi valori ovvero leggendoli ripetutamente e con una sufficiente frequenza temporale. Entrano quindi in gioco i due valori fondamentali dell’audio digitale: la Frequenza di campionamento, e la Quantizzazione (o Profondità di bit).

- La Frequenza di Campionamento (espressa in kHz) indica il numero di volte che il segnale audio è misurato in un dato periodo di tempo (singole letture=Campioni). Quanto più grande è la frequenza temporale di lettura minore è la perdita di informazioni e quindi di corrispondenza alla forma d’onda di input.
- La Quantizzazione indica l'accuratezza con la quale è stata effettuata ogni singola lettura/campione o meglio il numero di valori possibili per ogni campione; si esprime in bit e maggiore è il numero di valori che ciascun campione può assumere maggiore sarà il dettaglio e la corrispondenza del prodotto digitalizzato alla sorgente analogica di input.

Ora tenendo conto che la gamma di frequenze percepibili dall'orecchio umano va da circa 20Hz a 22.050hz ed in base al teorema di Nyquist (http://it.wikipedia.org/wiki/Teorema_del_campionamento_di_Nyquist-Shannon), secondo il quale per riprodurre in digitale un segnale è necessario campionarlo a una frequenza doppia rispetto a quella del segnale stesso, per cogliere le frequenze più alte e per avere un ascolto perfetto sono necessari 22.050*2=44.100 Hz che risulta essere proprio la frequenza di campionamento standard per il CD-AUDIO; per questi la quantizzazione è fissata a 16bit in quanto assicura una buona risoluzione nella riproduzione della gamma dinamica, ed è un buon compromesso tra qualità e dimensione del prodotto digitalizzato.
Un file audio di un minuto a 44100Hz e 16bit occupa circa 10Mb di spazio su un supporto di memorizzazione.
Il file audio non compresso per eccellenza e con queste caratteristiche è il PCM (o il WAVE di Windows, AIFF di Apple), e sono questi i files che generalmente sono la fonte, l’input della compressione (i CD-Audio contengono appunto dei .WAV). Si immagini quindi la difficoltà in termini di spazio di archiviare intere collezioni audio su disco fisso mantenendo il formato non compresso, per non parlare della banda necessaria al trasferimento di files sulla rete Internet. E’ qui che fa la sua parte la compressione.

La compressione non è altro che la riduzione delle dimensioni di un file mantenendo il più possibile le informazioni di output simili alle originarie. Nel caso di files audio, o anche di immagini e file video, quindi strutture più complesse rispetto ad esempio a file di testo, la riduzione (anche considerevole) delle dimensioni comporta per forza di cose un’eliminazione di informazioni ed in ogni caso rimane prevalente la necessità di preservare la qualità del file di origine.
A questo scopo lavorano gli algoritmi di compressione (o codec).
Ne esistono due categorie generali: Lossless e Lossy

- Lossless - consentono di comprimere file senza degradare le informazioni di input quindi restituiscono un prodotto identico all’originale (concettualmente come la compressione ZIP ad es.)
- Lossy - comportano una generosa perdita di informazioni e producono quindi risultati non identici all’input.

E’ facile rendersi conto che le differenze sostanziali tra le due tipologie di algoritmi sono la qualità sonora dell’output e le dimensioni; con i lossless essendo nulla o minima la perdita di informazioni la qualità audio rimane inalterata a discapito delle dimensioni che saranno ridotte al minimo (intorno al 50% al max); con i lossy la compressione è più spinta quindi con maggior perdita di infomazioni e di conseguenza con peggioramento della qualità del suono, ma con un guadagno in termini di dimensioni dei file prodotti (1/10, 1minuto a 128kbps= 1Mb circa)).
I processi di compressione audio sono il frutto di complessi studi e tecnologie atti a mantenere contenute le dimensioni finali dei file non alterando eccessivamente la qualità sonora. Alla base della eliminazione di informazioni nella compressione audio vi sono elementi di psico-acustica che partono dal presupposto che si possono eliminare (e quindi non codificare) le frequenze che non sono percepibili all’orecchio umano; in genere vengono eliminate o ridotte frequenze altissime o bassissime (sotto i 20hz-oltre i 18KhZ); di particolare rilevanza è il mascheramento: consideriamo ad esempio di avere tre bande di frequenza, la prima ha una intensità minore della successiva e risultando inudibile non verrà processata, la terza invece verrà solamente ridotta di intensità in quanto non totalmente escludibile. Tali ed altri elementi, quali filtri, le nuove e complesse tecnologie di elaborazione dell’effetto Stereo e di ricotruzione delle frequenze tagliate, l’SBR (Spectral Band Replication, alla base dell’mp3pro e punto di forza dell’AAC), la previsione a ritroso, la ridondanza, e la loro combinazione hanno differente impatto a seconda del codec utilizzato.
Non ultimo ha rilevante importanza il Bitrate (forse più in passato che oggi), principale parametro di controllo dell'entità della compressione e quindi anche della qualità risultante; maggiore sarà il bitrate migliore sarà la qualità ma anche maggiore lo spazio occupato dal file. Esso indica il numero di bit utilizzati per codificare ogni secondo del brano e si misura in kbps (KiloBit per secondo). Esistono tre tipologie di bitrate:

- CBR (Constant bitrate/bitrate costante)
Il valore impostato viene mantenuto costante per tutti i secondi o frames del file; permette di prevedere in modo preciso le dimensioni finali del file e la banda necessaria in trasmissione ma comporta uno spreco nelle parti con poca dinamica o silenzio. E’ consigliato solo a valori alti
- ABR (Average bitrate/bitrate medio)
Viene definito un valore medio di bitrate che l’encoder può cambiare nelle varie parti del file, diminuendolo nei passaggi con poca dinamica o silenzio e aumentandolo nelle parti complesse, cercando comunque di mantenere il valore medio impostato; qualità migliore rispetto al CBR nei passaggi corposi e spreco di bit in quelli semplici.
- VBR (Variable bitrate/bitrate variabile)
Vengono specificati un minimo ed un massimo valore di bitrate e l’encoder può cambiarlo con maggiore libertà codificando ogni frame utilizzando il bitrate più appropriato; si adatta meglio alla struttura del file anche in base al contenuto musicale, vengono utilizzati valori elevati di bitrate senza limitare eventualmente la dimensione finale del file. E’ la modalità consigliata per produrre file di alta qualità e di dimensioni più contenute rispetto alla modalità CBR.

E’ da tenere in considerazione anche il fatto che ogni codec ha un differente approccio alla compressione, ognuno è strutturato diversamente e lavora anche in base ai principi, idee e convinzioni di chi lo ha realizzato.
In definitiva per la scelta del codec di compressione molti sono i fattori in gioco, esigenze di qualità o spazio, bitrate, tempi di codifica e, da non sottovalutare, i gusti soggettivi.
Ne consegue, a mio personale parere, che con i Lossless la scelta dell’algoritmo da utilizzare, considerato che non viene alterata la qualità (sarebbe necessario un udito bionico per accorgersi delle differenze con l’originale :D ), è del tutto soggettiva; i soli parametri di valutazione possono essere le differenti dimensioni finali che può produrre l’uno o l’altro codec e/o i tempi di codifica. Si può affermare che fondamentalmente i Lossless sono per i puristi dell’audio.

Con i lossy il discorso è leggermente diverso in quanto, purchè sempre presente il gusto personale (o l’inclinazione uditiva), avendo di fronte una perdita di qualità sonora importante è da valutare attenatamente il prodotto di una compressione sulla base delle proprie esigenze che possono anche essere solo di pura archiviazione senza badare tanto alla qualità, o decidere quale sia il giusto compromesso tra dimensioni prodotte e le necessità dei propri padiglioni auricolari :D.
Diamo ora un’occhiata ai formati di compressione più diffusi suddividendoli appunto in Lossy e Lossless.

LOSSY:
MP3 (http://www.iis.fraunhofer.de/fhg/iis/index.jsp) (Mpeg 1 Layer III): il più famoso e diffuso, è tra gli standard MPEG e nonostante siano subentrati algoritmi migliori svolge ancora egregiamente il suo lavoro offrendo una buona compressione e qualità con encoding in VBR ad alti bitrate; la qualità a bitrate inferiori a 192kbps non è eccelsa e spesso pecca di restituire poca spazialità ai brani. Consigliato encoder Lame.

WMA (http://www.microsoft.com/windows/windowsmedia/forpros/codecs/audio.aspx) (Windows Media Audio): formato proprietario della Microsoft, secondo in fama solo all’Mp3, oggi proposto in versioni voice codec, lossless codec, multi channel codec e Pro. Permette codifica in cbr e vbr ed offre una ottima compressione e buona qualità ad alti bitrate. A parità di bitrate le dimensioni di un wma sono inferiori all’mp3 con una qualità sonora migliore soprattutto nelle ultime versioni del codec. I WMA possono anche contenere infomazioni per la protezione dei diritti d’autore.

OGG (http://www.vorbis.com/) (Ogg Vorbis): Formato OpenSource multicanale, migliori prestazioni in vbr, offre risultati di alta qualità a bitrate elevati, qualitativamente migliore dell’mp3 rispetto al quale occupa anche meno spazio a parità di bitrate; Fornisce una interessante estensione delle alte frequenze e buona qualità anche a bassi bitrate.

MPC (http://www.musepack.net/) (Musepack - MPEGplus): Probabilmente, sino all'avvento dell'AAC, il miglior codec lossy, sviluppato sugli algoritmi dell’MP2 e con enormi ottimizzazioni degli elementi di psicoacustica, codifica in VBR con ottima distribuzione del bitrate producendo risultati di elevata qualità ad alti valori; mantiene inalterata la cristallinità e spazialità dei files. Non è ottimizzato per i bassi bitrate ed interessante è la velocità di encoding. Consigliato per produzioni di qualità con un ottimo rapporto dimensionale.

Mp3PRO (http://www.mp3prozone.com/): sottovalutata evoluzione dell’Mp3 (del quale conserva l’estensione .mp3) pensata (dalla Thomson e Fraunhofer) per ottenere la stessa qualità di un normale mp3 con un bitrate di soli 64kbps (buona qualità e dimensioni contenute). Alla base di questa caratteristica è il già citato SBR (Spectral Band Replication) ovvero la generazione di informazioni extra sulle alte frequenze che permettono una soddisfacente riproduzione dei files codificati nonostante il basso bitrate. Codifica al massimo a 96kbps.

AAC (http://www.apple.com/quicktime/technologies/aac/) (Advanced Audio Coding - MP4-M4A): Nuovo formato, reso famoso dalla Apple con iTunes, parte degli standard MPEG. Di altissima qualità, utilizza tecnologie molto avanzate tra cui il già citato SBR, l’Intensità Stereo e l’Accoppiamento dei canali (le informazioni stereo vengono codificate su un solo canale ed in fase di decodifica viene ricostruito l’effetto stereo); include informazioni per la gestione dei diritti d'autore, a bassi bitrate (encoding in HE, High Efficiency) produce ottima qualità e consente la codifica sino a 48canali. Per ottenere i migliori risltati sono necessarie notevoli risorse di calcolo. Si contende la palma di miglior Lossy con l’MPC a differenza del quale è più lento in codifica; il migliore a bassi bitrate.

LOSSLESS:
APE (http://www.monkeysaudio.com/) (Monkey’s Audio): Forse il più noto e diffuso codec lossless, in continua ottimizzazione, permette un’ottima compressione e velocità di encoding. Ha probabilmente il migliore rapporto Velocità/% di compressione e lo useremo come eventuale termine di paragone con gli altri lossless.

FLAC (http://flac.sourceforge.net/) (Free Lossless Audio Codec): altro conosciutissimo codec lossless, buon livello di compressione, tempi di codifica più alti del Monkey’s Audio ma velocissiomo in decompressione. Multicanale

WMA Lossless (http://www.microsoft.com/windows/windowsmedia/9series/codecs/audio.aspx): versione lossless del codec Microsoft, ha buone prestazioni in compressione e velocità tutto sommato accettabile. Multicanale

LA (http://www.lossless-audio.com/) (Lossless Audio): Tra i lossless è quello che produce la migliore compressione ma a causa dei complessi algoritmi di codifica restituisce tempi lunghissimi di encodig/decoding e massiccio uso della cpu durante il playback. Siccome tra i lossless le differenze in dimensioni sono nell’ordine di pochi Mb, ne conviene che le lunghe attese di codifica non giustificano il minimo guadagno di spazio.

Optim Frog (http://losslessaudiocompression.com) (.ofr): Segue LA sia come prestazioni in compressione che come lentezza di codifica.

WavPack (http://www.wavpack.com) (.wv .wvc): codec in ascesa grazie soprattutto alla sua velocità di codifica, leggermente inferiore agli APE per percentuale di compressione ma è in continuo miglioramento. Particolarmente interessante è l’Hybrid Mode: si tratta di una modalità di compressione ibrida appunto con la quale viene creato un file Lossy di alta qualità ed un piccolo file supplementare contenente le informazioni lossless permettendo in caso di riconversione in Wave la ricostruizione della qualità originale del brano. Multicanale.

Shorten (http://www.etree.org/shnutils/shorten/) (.shn): Il peggiore in compressione ma velocissimo nei tempi di codifica e decodifica

ALAC (http://www.apple.com/itunes/import.html) (Apple Lossless Audio Codec - .m4a): Algoritmo lossless di Apple, buona compressione, codifica in tempi sufficienti, decoding veloce. Multicanale.

TTA (http://www.true-audio.com/) (True Audio - .tta): Nuovo algoritmo sviluppato da programmatori russi, ha ottimi tempi di encoding/decoding, compressione efficiente, ai livelli del FLAC. Multicanale

Esistono comunque altri formati meno noti e poco diffusi o qualitativamente non al passo; ricordiamo i RealAudio (http://www.realnetworks.com/) (.ra .rm .ram, lossy e lossless pensati per lo streaming), gli AU (au .snd), o anche i VOC di Creative e VQF di Yamaha, i lossless LPAC (http://en.wikipedia.org/wiki/Lossless_Predictive_Audio_Compression) e il Meridian Lossless Packing (MLP) (http://it.wikipedia.org/wiki/Meridian_Lossless_Packing) e vari altri. Da non dimenticare, ovviamente, quelli dedicati per il Video Digitale AC3 (http://www.dolby.com/) e DTS (http://www.dtsonline.com/) o il vecchio MP2 (http://it.wikipedia.org/wiki/MPEG-1_Layer_II)…

In conclusione l’approccio più complicato è quello ai Lossy in quanto non c’è un modo definitivo per decidere quale sia il migliore, soprattutto oggi che i vari codec hanno avuto uno sviluppo ed ottimizzazioni superlative. La stessa qualità acustica è relativa poichè le differenze possono essere ed in alcuni casi sono minime;
sono in gioco molteplici fattori e oltre a quanto esposto precedentemente, influenzano una eventuale decisone il genere musicale, la cultura musicale dell’ascoltatore, l’impianto di ascolto (è differente la riproduzione di un impanto casalingo da quello da migliaia di Euro), le capacità uditive. Ne consegue che un chi ha esigenze di qualità non si preoccupa quasi mai degli spazi di archiviazione e si impegna nel provare le varie soluzioni e scegliere quale sia quella a lui più adatta; per chi invece la qualità e le dimensioni sono fattori indifferenti o trascurabili uno o l’altro codec non fanno differenza e quindi ricadere su un Mp3 o Ogg è un fattore per certi versi casuale. In ultimo chi ha esigenze di spazio avrebbe comunque bisogno di valutare i vari formati e il loro rapporto tra qualità e dimensioni, ma a differenza degli audiofili molto spesso le dimensioni escludono la qualità.

Per approfondimenti fate un giro su www.hydrogenaudio.org e www.google.it