|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Algoritmo di Huffman
Salve ragazzi,
sto scrivendo un programma di compressione basato sull'algoritmo di huffman. Ho un dubbio pero': quale è il metodo migliore per reperire la lista dei simboli presenti in un file da comprimere? Da quella lista poi dovrei costruire l'albero di Huffman, assodiando un codice ad ogni simbolo, ma non so quale sia la via piu' breve. Grazie, ciao. |
![]() |
![]() |
![]() |
#2 |
Senior Member
Iscritto dal: Oct 2004
Città: Acireale
Messaggi: 447
|
Non esiste una via più breve!!!
Devi controllare byte per byte il file e fare una statistica dei caratteri che compaiono più frequentemente. Ti consiglio di utilizzare un array di interi lunghi con 256 elementi per contare la frequenza dei caratteri. A ogni elemento dell'array corrisponde un carattere ascii. Dunque ogni volta incrementi la posizione dell'array relativa a quel carattere. Esempio char c; long stat[256]; .... while(!feof(FILE)) { /* leggi il carattere c */ stat[c]++; } ... dove se c = 'A' memorizzi la presenza di una A. Spero di essere stato chiaro. Ciao Ciao.
__________________
Ho concluso acquisti e/o vendite con : SHIVA>>LuR<<, TheGaiden, ArvMau |
![]() |
![]() |
![]() |
#3 |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Grazie per la risposta, pero' ho un dubbio: quando apro il file, non viene letto in esadecimale? Quindi i confronti non dovrei farli analizzando il codice esadecimale? Che funzione usi per aprire ed analizzare il file? FOpen? Grazie mille.
|
![]() |
![]() |
![]() |
#4 | |||
Senior Member
Iscritto dal: Oct 2004
Città: Acireale
Messaggi: 447
|
Quote:
![]() Dove sta il problema ? Tu devi leggere carattere per carattere. Poi se è esadecimale ci penserà il C ( almeno non è il C che ci pensa ) a trasformarlo in decimale. Quote:
Esempio : Carattere 'A' => Esadecimale 41 => Decimale 65 Carattere 'a' => Esadecimale 61 => Decimale 97 Quote:
Ciao Ciao
__________________
Ho concluso acquisti e/o vendite con : SHIVA>>LuR<<, TheGaiden, ArvMau |
|||
![]() |
![]() |
![]() |
#5 |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Ok,capito, grazie mille. PS: se nel fare il programma avro' dubbi di qualsiasi genere potro' ricontattarti? Grazie ciao
|
![]() |
![]() |
![]() |
#6 | ||
Senior Member
Iscritto dal: Apr 2003
Città: Genova
Messaggi: 4741
|
Se può servire, questo è un paragrafo delle mie dispense di Codifica di File:
Quote:
Quote:
solitamente però, il dizionario non è limitato ai caratteri primari, ma include anche combinazioni di fino a n caratteri : siccome quello che fai con huffman è usare un codice che ti crei delle assegnazioni le quali mappino un alfabeto di simboli su un altro, il massimo guadagno si ha convertendo , simboli di partenza più complessi e con la massima probabilità possibile, in simboli da pochi bit soprattutto nei file di grandi dimensioni conviene, anche perchè il dizionario da aggiungere in testa acquista meno "peso" rispetto al codice generato mentre tenere una symbol table compatta conviene per file piccoli e simboli equiprobabili, per i quali in casi estremi si rischia di andare a crescere invece che comprimere...
__________________
Jappilas is a character created by a friend for his own comic - I feel honored he allowed me to bear his name Saber's true name belongs to myth - a Heroic Soul out of legends, fighting in our time to fullfill her only wish Let her image remind of her story, and of the emotions that flew from my heart when i assisted to her Fate
Ultima modifica di jappilas : 06-07-2005 alle 13:19. |
||
![]() |
![]() |
![]() |
#7 | |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Certo si deve generare l'albero carattere per carattere (ad esempio si potrebbe scegliere di generarlo ogni N caratteri letti)... In questo modo, posto che la tabella di partenza sia uguale sia per il compressore che per il decompressore, non serve nemmeno salvare la tabella delle frequenze nel file compresso... Ovviamente con questo metodo decadrebbe la proprietà dell'algoritmo che dice che il risultato dell'algoritmo di Huffman è la rappresentazione ad entropia minima dell'ingresso... |
|
![]() |
![]() |
![]() |
#8 |
Senior Member
Iscritto dal: Oct 2004
Città: Acireale
Messaggi: 447
|
Il mio "non esiste una via più breve" era riferito alla domanda di Unrue "quale è il metodo migliore per reperire la lista dei simboli presenti in un file da comprimere?"
Tutto qua. Ovviamente devi per forza conoscere il contenuto del file per poter applicare qualsiasi algoritmo di compressione. ![]() Poi l'algoritmo di huffman lo puoi applicare ai singoli caratteri o a sequenze di caratteri utilizzando alberi, tabelle di hash e qualsiasi altre strutture dati. Ciao Ciao. ![]()
__________________
Ho concluso acquisti e/o vendite con : SHIVA>>LuR<<, TheGaiden, ArvMau |
![]() |
![]() |
![]() |
#9 | |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
|
|
![]() |
![]() |
![]() |
#10 | |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Quote:
|
|
![]() |
![]() |
![]() |
#11 | |
Senior Member
Iscritto dal: Apr 2003
Città: Genova
Messaggi: 4741
|
Quote:
lempel-ziv-welch codifica aritmetica codifiche con perdita, predizione e quantizzazione (se stai pensando a jpeg hai indovinato ![]() si trova il file WORD zippato , ma ho notato un piccolo difetto: nella prima pagina al posto della X va la formula dell' entropia della sorgente H(s) = -Σ p(si) log(p(si)) , Σ = sommatoria , p(si) = probabilità del simbolo i-esimo
__________________
Jappilas is a character created by a friend for his own comic - I feel honored he allowed me to bear his name Saber's true name belongs to myth - a Heroic Soul out of legends, fighting in our time to fullfill her only wish Let her image remind of her story, and of the emotions that flew from my heart when i assisted to her Fate
|
|
![]() |
![]() |
![]() |
#12 | |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Quote:
![]() |
|
![]() |
![]() |
![]() |
#13 |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Salve ragazzi,
riguardo il programma, stavo dando un'occhiata ad una possibile implementazione di tale algoritmo ad un programma che si trova qui : http://gameprog.it/hosted/puzzleryu/huflzw.html Ad un certo punto, c'e' il seguente ciclo: for (i = 0; i < n-1; i++) { t1 = SearchTree(TreeArray,NULL,&p1); t2 = SearchTree(TreeArray,t1,&p2); // Unisci i due alberi TreeArray[p1] = new TTree(0,t1->frequency+t2->frequency,t1,t2); TreeArray[p2] = NULL; } Ora, t1 dovrebbe essere l'indirizzo nell'array TreeArray dell'albero riferito al simbolo con minore frequenza, t2 quello con frequenza subito successiva. Quindi p1 dovrebbe essere la posizione nell'array TreeArraydell'albero puntato da t1, analogamente p2 per t2. Ma non capisco una cosa: quando esegue l'istruzione TreeArray[p1] = new TTree(0,t1->frequency+t2->frequency,t1,t2); crea un nuova albero nella posizione p1 di TreeArray, passa t1 e t2 al costruttore e poi cancella l'albero nella posizione p2. Lo scopo sarebbe quello di avere un'albero con la somma delle frequenze dei due ed un sottoalbero sinistro e destro. Ma facendo cosi, non si perdono i riferimenti ai sottoalberi? quello puntato da t1, viene sovrascritto facendo TreeArray[p1] = new TTree(0,t1->frequency+t2->frequency,t1,t2), mentre quello di t2 facendo TreeArray[p2] = NULL. A meno che, quando passa i puntatori t1 e t2 nell'istruzione TreeArray[p1] = new TTree(0,t1->frequency+t2->frequency,t1,t2);non ne faccia una copia da qualche parte. |
![]() |
![]() |
![]() |
#14 | |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Quote:
|
|
![]() |
![]() |
![]() |
#15 | |
Senior Member
Iscritto dal: Apr 2003
Città: Genova
Messaggi: 4741
|
Quote:
![]() inoltre devi curare molto bene progetto e implementazione della macchina a stati del ricostruttore: questo perchè in ogni istante lui non avrà nozione a priori su quanti bit comporranno il simbolo successivo quello che rischi da un errato riesame dell' "albero" dei simboli è, nel caso migliore di sbagliare solo un simbolo, ma se si perde l' allineamento saranno sbagliati anche tutti i successivi, quindi dati praticamente erratici... una cosa di cui avevo sentito era aggiungere dopo ogni simbolo o gruppo di simboli, una sequenza di bit univoca (cioè che sai non appartenere a nessun simbolo) per verificare la risincronizzazione più avanti puoi aggiungere ulteriori bit di verifica di consistenza dei dati, tipo crc...
__________________
Jappilas is a character created by a friend for his own comic - I feel honored he allowed me to bear his name Saber's true name belongs to myth - a Heroic Soul out of legends, fighting in our time to fullfill her only wish Let her image remind of her story, and of the emotions that flew from my heart when i assisted to her Fate
|
|
![]() |
![]() |
![]() |
#16 | |
Senior Member
Iscritto dal: Nov 2002
Messaggi: 6030
|
Quote:
|
|
![]() |
![]() |
![]() |
#17 | |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
In alternativa puoi salvare la sequenza delle frequenze... 256 interi...e poi ricostruirti l'albero... |
|
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 02:12.