• 締切済み

圧縮されたPDFからテキストを抽出したい

今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。

みんなの回答

  • bgbg
  • ベストアンサー率53% (94/175)
回答No.1

FlateDecodeを解凍するためには、このモジュールで大丈夫だと思います。 http://search.cpan.org/~pmqs/IO-Compress-Zlib-2.000_13/lib/IO/Uncompress/Inflate.pm LZW圧縮はこちら。 http://search.cpan.org/~mhoward/Compress-LZW-0.01/LZW.pm

関連するQ&A

専門家に質問してみよう