• 締切済み

圧縮されたPDFからテキストを抽出したい

今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。

みんなの回答

  • bgbg
  • ベストアンサー率53% (94/175)
回答No.1

FlateDecodeを解凍するためには、このモジュールで大丈夫だと思います。 http://search.cpan.org/~pmqs/IO-Compress-Zlib-2.000_13/lib/IO/Uncompress/Inflate.pm LZW圧縮はこちら。 http://search.cpan.org/~mhoward/Compress-LZW-0.01/LZW.pm

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • PDFファイルからテキストを抽出したい

    以前、質問させていただきましたが、もう一度お願いします。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? stream~endstreamで囲まれた部分の切り出しは成功したのですが、 それ以降どのようにすればいいのか分かりません。 どなたかご協力お願いします。

  • PDFそのものから、テキストの抽出

    PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?

  • PDFの透明化テキストを抽出したい。

    Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • pdfファイルから、テキストを抽出したい

    pdfファイルから、テキストを抽出したいと思っています。 テキスト選択ツールで、テキストを選択し、コピー&ペーストでも良いのですが、これだと一ページずつ細切れになってしまいます。 何とか、これを一度で、コピー&ペースト、ないし、抽出できる方法はないでしょうか?

  • スキャナで作成したPDFからテキスト抽出

    会社で過去の書類を大量にスキャナでPDFにしてあります。(数千ファイル程度) これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・ それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか? ・スキャナで作成したPDF(つまり画像ですね)からOCR的にテキストを抽出できる。 ・コマンドラインで動作する。(数が多いのでプログラムを書いて自動化したいのです) ・価格は5万円以内(できたら2万円以内です。購入は自腹になると思いますので、これ以上は厳しいです)

  • PDFファイルからテキストを抽出するソフト

    PDFファイルから、中に書いてあるテキストを抽出するソフトがあると聞いたのですが。

  • HTML形式のメールからテキストのみを抽出したい

    HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。 使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。 日本語の本文のテキスト抽出を行っているのですが、 うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、 教えてください。 よろしくお願いいたします。

  • ファイルの圧縮について

    Excelで作成したファイル(1.8MB)を圧縮してZIP形式で1MB以下にしたいのですが、方法が分かりません。どなたか分かる方教えて下さいm(_ _)m 現在使用している圧縮・解凍ソフトは、フリーソフトの+Lhacaです。PDFにしたら圧縮出来ると聞きPDFに変換するソフトとしてDocuWorksとリッチテキストPDF2というソフトはあります。PDFに変換したら圧縮どころか容量増えました。 どなたか解決法知ってる方おりましたら是非教えて下さい。お願いします!!

  • PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー

    PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。

    • ベストアンサー
    • Mac
  • PDFからテキスト

    アクロバットリーダPDFファイルからテキストを取り出す方法はないでしょうか。 PDF形式の電子小説を買ったはいいんですが、普段使っている携帯端末用のPDFリーダが無いので、 テキストだけ抽出して端末に入れたいのです。 DOS用PDFリーダがあれば、なおいいのですが。