- 締切済み
圧縮されたPDFからテキストを抽出したい
今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- bgbg
- ベストアンサー率53% (94/175)
回答No.1
FlateDecodeを解凍するためには、このモジュールで大丈夫だと思います。 http://search.cpan.org/~pmqs/IO-Compress-Zlib-2.000_13/lib/IO/Uncompress/Inflate.pm LZW圧縮はこちら。 http://search.cpan.org/~mhoward/Compress-LZW-0.01/LZW.pm