ハフマン符号プログラムの作成と圧縮率の測定

2023/07/21 11:37

quenistaの回答

quenista
ベストアンサー率28% (122/425)

2001/12/20 00:44 回答No.3

＞実は（ａ）からあまりよく理解していなかったようで・・・。では、順に行きましょう。先ず、ターゲット（圧縮するファイル）の分布を洗い出す為に、ファイルを一度なめると言う動作を考えます。色々な考え方などが有りますが、取り敢えず一番単純な１バイト単位で考えてみます。すると、ファイルから１バイトづつ読みながらカウントすれば良いですよね？つまり２５６個の領域を取って置いて、加算して行けば良いだけです。こんどは、この２５６個のデータをソートして、加算された順に並べます。そして、この２５６個のデータにハフマンの分岐木を割り当てて行けば良いのです。（勿論、ビットの少ない方から。）そして、そのヘッダー部分を出力形式に変換しながらファイル出力します。最後にデータの先頭に戻って、各データをビット毎にファイルに出力して行けば良いのです。（シフト等を使いながら。）逆に解凍の場合は、先にビットパターンからバイトに変換するテーブルを作成し、１ビット毎に比較（こちらも、シフトとマスクを使って、比較を行えば良い。）を行ない、元のバイトデータに戻して行きます。これで、詰まった所を教えて頂けますか？

質問者

補足 2002/01/06 16:31

仕様書の内容をまとめると以下のようになりました。 #include <stdio.h> #include <stdlib.h> #define SIZE 256 /* 二分木 */ typedef struct _node { unsigned int count; /* 頻度 */ int parent; /* 上の要素番号 */ int left; /* 左側を 0 */ int right; /* 右側を 1 */ } CODE; CODE code[2*SIZE+1]; int mozi_count[SIZE]; int main() { int i, total = 0; char input_fname[] = "read.txt"; char output_fname[] = "out.txt"; FILE *fp1,*fp2; int min1, min2, freeNode, root; /* (a) */ /* データの初期化 */ for( i = 0; i < 2*SIZE+1; i++ ) code[i].count = 0; for( i = 0; i < SIZE+1; i++ ) mozi_count[i] = 0; /* 文字頻度をカウント */ if((fp1 = fopen(input_fname,"r")) == NULL){ fprintf(stderr,"%s: can't opn file\n", input_fname); exit(1); } while((i=fgetc(fp1)) !=EOF){ code[i].count++; mozi_count[i]++; total++; } fclose(fp1); /* (b) */ /* ハフマン符号を生成する */ /* ハフマン木をつくる */ code[2*SIZE].count = 0x100; /* 番兵 */ for (freeNode = 256; ; freeNode++) { min1 = min2 = 2*SIZE; for (i = 2*SIZE - 1; i >= 0; i--) if (code[i].count > 0) { if (code[i].count < code[min1].count) { min2 = min1; min1 = i; } else if (code[i].count < code[min2].count) in2 = i; } if (min2 == 2*SIZE) break; code[freeNode].count = code[min1].count + code[min2].count; code[freeNode].left = min1; code[freeNode].right = min2; code[min1].parent = code[min2].parent = freeNode; code[min1].count = code[min2].count = 0; } root = min1; /* 各符号から上の要素番号をたどれなくなるまでたどりながら，自分が左側に */ /* いたら0を，右側にいたら1を並べていくと，その逆順がその記号のハフマン */ /* 符号となる。これを各符号に対して行い，それぞれのハフマンコードを２次 */ /* 元配列Hcodeに格納する。例えば，記号('A' = 65)のハフマンコードが"011"*/ /* の場合　Hcode[65][0] = 0; Hcode[65][1] = 1; Hcode[65][2] = 1; */ /* (c) */ if((fp2 = fopen(output_fname,"w")) == NULL){ fprintf(stderr,"%s: can't opn file\n", output_fname); exit(1); } for(i=0;i<SIZE;i++){ fprintf(fp2,"%d ", mozi_count[i]); } fclose(fp2); /* (d) */ /* もう一度ファイルを読み込み，その記号に対応するハフマンコードをファイ */ /* ルに書いていく。 */ /* (d)の書き込みにはput_bit関数を使って書き込むことができる。また注意点 */ /* として，put_bit関数は，8bitたまった時点でファイルに書き込みを行うの　*/ /* で，ファイルの記号をすべて処理した時に，最後に8bitたまっていない場合 */ /残りのbitに'0'を書き込む必要がある。*/ } /* end of file */ 日本語で書いてあるところがわかりません。

この回答がついた質問に戻る

回答全件

ベストアンサー

コンパイルが通る所迄は修正しましたが、分岐木の生成が正しく出来ていない…

- quenista
2002/01/18 00:24

先ず、紛らわし表記を使ったのが不味かったのですね。ごめんなさい。 …

- quenista
2002/01/17 23:09

for(loop=0;loop<(bit_count&0xF);loo…

- quenista
2002/01/10 18:46

全体のソースでは無い様ですし、全てのロジックを確認した訳では無いので、…

- quenista
2002/01/10 18:18

＞（ｃ）から先はよく分かりません。先ず、単純にファイルを舐めなが…

- quenista
2001/12/19 14:27

流石に、ココでソースを書くのは結構困難ですので、先ず、何処で詰って…

- quenista
2001/12/17 17:00

関連するQ&A

2元ハフマン符号化プログラムが作れなくて困っています。
以下のC言語のプログラムを作成出来る方、いらっしゃいましたらソースファイルを載せて下さい。 2元ハフマン符号化プログラム：具体的な無記憶情報源が入力されたときに、そのハフマン記号を出力されるご教授よろしくおねがいします
- 締切済み
- C・C++・C#
ハフマン符号化について
ハフマン符号化についてですが、圧縮のためであるので、ハフマン符号化を行いなさいといわれた場合において、木構造の１と０の取り方はどんなものでも良いのでしょうか？生起確率が　Ａ：０．１２　Ｂ：０．１２　Ｃ：０．２８　Ｄ：０．４８　であった場合、添付画像の青い文字のように符号化を行い、Ａ：０００Ｂ：００１Ｃ：０１Ｄ：１としても、赤い文字のように符号化を行い、Ａ：１１１Ｂ：１１０Ｃ：１０Ｄ：０としても、どちらでもハフマン符号化としては正解なのでしょうか？また、０と１を階層ごとにランダムにとっても問題ないのでしょうか？
- 締切済み
- その他（ITシステム運用・管理）
ブロックハフマン符号化プログラムの作成
現在学校の研究で「ブロック（ｎ次拡大情報源）ハフマン符号化」プログラムをC言語で作成しています。これは、通常のハフマン符号化でデータ１個ごとに出現頻度を調べてそれぞれにハフマン符号を割り当てるところを、ファイル中で隣り合うデータ２個（あるいは３個、４個、・・・ｎ個）を一かたまりと見なし、それぞれの出現頻度を調べてハフマン符号を割り当てる、というものです。通常のハフマン符号化は以前作成したことがあるのですが、これをどのようにして上記のようなプログラムに改変すればいいのかわかりません。ちなみに、データのバッファリングは以下のようにし、 #define BUFFER_SIZE 102400 unsigned char buffer[BUFFER_SIZE]; （中略） int i,c; i = 0; while(i < BUFFER_SIZE && (c = fgetc(fp_i)) != EOF) { buffer[i] = c; i++; } 各データの出現頻度は以下のようにして調べています。 #define N 256 （中略） int hist[N * 2]; for(i = 0;i < (N * 2);i++) hist[i] = 0; for(i = 0;i < size;i++) hist[data[i]]++; ※data[i]は前述のbuffer[i]、sizeは前述のi(圧縮対象データのファイルサイズ）です。やはり、バッファリングに使う配列をもう少しサイズの大きい型で宣言するとこから始めるべきでしょうか？ご教授お願いします。
- ベストアンサー
- C・C++・C#
ハフマン符号化の問題を解くプログラム
ハフマンの符号化の問題を解くプログラムをC言語（コンソールアプリケーション）で作りたいのですがファイルの圧縮とかをするプログラムはいろいろなサイトにあったのですが、簡単な情報源を与えられたものを符号化するプログラムで参考にできるようなサイトは見つかりませんでした。誰かプログラムの例を教えていただけないでしょうか？入力する例はつぎのようなものです S=（a1, a2, a3, a4, a5, a6／0.35, 0.15, 0.15, 0.20, 0.10, 0.05）
- ベストアンサー
- C・C++・C#
VB2008 　ハフマン符号のプログラム
ハフマン符号のプログラムソースを探しています！ http://www.ccad.sist.chukyo-u.ac.jp/~mito/syllabi/daisu/huffman/index.htm#TOP に、Ｖｉｓｕａｌ　Ｃ＋＋で作成されたプログラムがあります。これを、ＶＢ２００８に書きかえることのできる方いらっしゃいませんか？符号化と複合化を別に（コントロールのボタンを用いて「符号化」、「複合化」とできるなど）していただければありがたいです。ぜひ、よろしくお願いします！！
- 締切済み
- Visual Basic
ハフマン符号化による圧縮
１と０でできたN×Nの行列例えば０１１１１００１１０００１１００１１１００１１０１１００１０００１１００というような行列を＿＿＿｜０１｜１１１０｜０１｜１０００￣￣￣　１１　　００１１　１０　　０１１０　１１　　００１０　００　　１１００このように４ビットごとに分けてハフマン符号化による圧縮を行うプログラムを作りたいと考えていますが、よくわかりません。どなたか教えてください。また四角で囲んだところは０１０１と考えていいそうです。
- 締切済み
- Java
JPEG画像にさらにハフマン符号化をかけると・・・？
現在卒業研究の一環で「なぜJPEG画像にハフマン符号化をかけてもほとんど圧縮できないのか？」というテーマについて考えています。研究の過程でハフマン符号化プログラムを組み、様々な種類のJPEG画像を圧縮し、圧縮率を検証しました。その結果、フルカラー画像もグレースケール画像もほとんど圧縮できませんでしたが、単純な線画（白地に黒い線を数本引いただけのもの）の画像のみ元の２割程度まで圧縮できました。最初はやはりJPEG画像には元からハフマン符号化がかかっているから圧縮率が悪いのかな、とも思ったのですが、『単純な線画の画像のみ元の２割程度まで圧縮できている』ので、単に「元からハフマン符号化がかかっているから」では説明がつかないように思えます。おおまかで構いませんので、これの原因について皆様のご意見をお聞かせください。よろしくお願いします。
- ベストアンサー
- その他([技術者向] コンピューター)
ハフマン符号　情報源記号と符号語の対応表
Ｓ＝(a1 0.15 , a2 0.3 , a3 0.05 , a4 0.2 a5 0.25 , a6 0.05) この情報源Ｓに対するハフマン符号をハフマン符号の木を構成することにより、情報源記号と符号語の対応表を示せ。という問題があるのですが、これについて質問です。符号の木は、これらのa1~a6が二進数でどうなるのかがわからないと書けないと思うのですが、この問題にはその二進数の割り当てがしてありません。これは最初からa1ならば0やa2ならば01という風に決まっていたり、また、勝手に割り当ててもいいのでしょうか？どなたかご教授お願いします。
- 締切済み
- 数学・算数
Huffmannのプログラム
Huffman法のプログラムをC言語で作成する上で、Huffman木の作成と符号化のところがなかなか出来なくて困っています。英文を読み込んで、各文字の出現回数を数えて、というところまではいけるのですが… 教えていただけませんか？（特にHuffman木を作るところ） Huffman法の仕組みは分かるのですが…
- 締切済み
- 情報工学
Huffman木の作成の問題
Huffman法のプログラムを作成する上で、Huffman木の作成と符号化のところがなかなか出来なくて困っています。英文を読み込んで、各文字の出現回数を数えて、というところまではいけるのですが… 教えていただけませんか？
- 締切済み
- 情報工学

ハフマン符号プログラムの作成と圧縮率の測定

quenistaの回答

補足 2002/01/06 16:31

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

ハフマン符号プログラムの作成と圧縮率の測定

quenistaの回答

補足 2002/01/06 16:31

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

カテゴリ
一覧

専門家に質問してみよう
専門家登録