• 締切済み

PDFファイルからテキストを抽出したい

以前、質問させていただきましたが、もう一度お願いします。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? stream~endstreamで囲まれた部分の切り出しは成功したのですが、 それ以降どのようにすればいいのか分かりません。 どなたかご協力お願いします。

みんなの回答

  • talepanda
  • ベストアンサー率58% (45/77)
回答No.1

プログラムの中でやりたいということなら、圧縮形式を調べて、非圧縮すればよろしいかと。 仕様はオープンで出てたはずです。 また、xpdfのpdftotextのソースコードを読めば参考になるかもしれません。 単に、テキストを抽出するツールが欲しいなら、xpdf付属のpdftotextで十分かと思います。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 圧縮されたPDFからテキストを抽出したい

    今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。

  • 情報商材のダウンロードとファイルの開き方について質問です。

    情報商材を購入・ダウンロードしました。 Win RARをダウンロード・保存しました。 次にfile ○○○○ pdf(デスクトップに貼った情報商材ファイル名)を右クリック→ →解凍・左クリック→デスクトップに解凍・左クリック→ →すると 「ファイル"file ○○○○ pdf"はアーカイブファイルでは有りません。 以降のファイルを圧縮しますか? 【圧縮形式】 [プルダウンと8種類の形式が格納] 【はい】 【いいえ】 【キャンセル】 の様なダイヤログが表示されました。 ここからどうやるか判りません。 それに解凍→圧縮になったのも少し変・・・ よろしく。

  • テキストのファイルを圧縮

    Wordとか、Excelとか、PDFとかの文書や文書+画像(画像を文書に貼り付けた)を圧縮率の高いもので圧縮したいのですが、そんなものありますか? 画像ファイルなんかは、圧縮が結構ききますけど、文書はききませんよね。 どうしてなんでしょう?簡単な理屈が有るんでしょうか?教えてください。 圧縮の良いソフトと入手先なんかを教えてください。やっぱり、PDFなんかが限界なんでしょうか?PDFも圧縮できるんでしょうか? 質問がとりとめなくなりましたが、どなたか分かる範囲で、良いので、お願いします。 本当に困っています。

  • PDFファイルを効率よく圧縮したい

    PDFファイルを効率よく圧縮したいのですが なにかよい方法はありませんでしょうか? 1つのファイル容量は50kバイト程度なのですが それが多いときには100~300ファイルあります。 これをメールにて先方に送付しなくてはなりません。 例えば、100ファイルあるとします。 一度、ZIPに圧縮し1つのファイルにします。 この時点で、5Mバイト程度になります。つまり、 殆んど容量的には小さくなっていません。 先方のメールサーバーの制限により1Mバイトまで しか一度に送れないので、5つに分割して送ります。 ZIPにする理由は、セキュリティの関係により、 パスワード付を必ず付けなければならないからです。 PDFファイルを効率よく圧縮(容量を小さくして)し、尚かつパスワードをつける方法(ソフト)なんか ありますでしょうか? ちなみに現在、圧縮ソフトは、Lhaz1.13を 使っています。 有識者の方、教えて下さい。 よろしくお願いします。

  • イラレ10でpdfファイルを作りたいのですが・・・

    印刷会社に出すのに、pdfファイルを作りたいのですが、問題が二つあります。 一つは、背景を赤に塗りつぶしているため、アートボードより3mmほどはみ出して作成しました。このデータをpdfファイルにしようとすると、このはみ出した部分も込みでpdfファイルを作ることができません。印刷会社の方がやって見せてくれたのですが、新しいバージョンのイラレならpdf作成時に項目を選択することにより、はみ出した部分込みでpdfファイルを作成できるようです。彼は「イラレ10でもできた気がするけど、古すぎて覚えてない」そうです。 あと、イラレのデータは600KBなのに、pdfファイルにすると、たとえ圧縮して作成しても一気に2MBほどにはね上がります。 これらの解決法をご存知の方、すみませんが教えてください。よろしくお願いします。

  • ファイル結合について

    圧縮ファイル(part1~3)を解凍したら、また圧縮ファイルが さらに解凍すると「000ファイル」「001ファイル」「002ファイル」が入ってました 連番だったのでZELDA等の結合ソフトを試すも駄目でした BATファイルも無かったです この場合どうすればいいんでしょうか? 元のファイルを持っていた友人も結合の仕方がわからず 協力して色々と調べたのですがわからずじまいです。

  • PDFを文書作成を簡略化するためにテキストファイル化するには?

     インターネットのPDFファイルは何かとレイアウトがきれいで、しかも印刷機能も充実していますし、 表示機能もふんだんにありますので、便利です。  このファイルからテキスト部分をとりだすにはどう すればよろしいですか。以前、やれた覚えがあるのです。設定をうまくすることでできた記憶があります。 どなたかお教えいただければ、幸いです。

  • ファイル毎に圧縮したい

    たくさんのファイルを圧縮したいのですが、一つ一つ圧縮していると時間がかかるので、一度に続けて圧縮したいのですが、一度にファイルを選択して圧縮すると一つのファイルに圧縮されてしまいます。多くのファイルを一度に圧縮するソフトはフリーであるのでしょうか? ちなみに私が使っているのはLHACAです。LHACAでは一度に多くのファイルをそれぞれ圧縮できないと思うのですが、どうでしょうか?どなたか詳しい方教えてください。

  • ファイルの圧縮解凍ソフトで圧縮中(または解凍中)にファイルが壊れる事ってありますか?

    以前、ファイルを圧縮しましたら、驚くほどサイズが小さくなって驚いたのですが、ファイルの中身を見てみましたら、ファイルの数も少なくなってビックリでした!ファイルの圧縮解凍ソフトで圧縮中(または解凍中)にファイルが壊れる事ってあるのでしょうか? ひょっとして、そういうことがあるから、様々な種類の圧縮解凍ソフトがあるのとか… だとしたら、一番信頼性の高い圧縮解凍ソフトはなんでしょうか?

  • PDFファイルへの書き込みができません

    同じような質問が多数あり、読みましたが、解決しませんので質問します。 PDFファイルがあり、アクロバット6.0を使って書き込みをしたいのですが、やり方がわかりません。 TutchUpテキストツールを選択すると、既に書かれている文字を修正できますが、何も書かれていない部分に何かを書くということができません。 やりたいことは、申請書のPDFがあり、そこに必要事項を書き込んだPDFファイルを作り、保存・印刷するだけです。 以前、イラストレータにPDFファイルを読み込み、そこで修正してイラストレータのファイルとして保存・印刷したことはありますが、今手元の申請書のPDFファイルはどういうわけか手元のイラストレータ7.0では「ファイル形式に問題があります」と表示され開くことができません。

このQ&Aのポイント
  • 倉庫の外壁張り替え方法や取付に必要な材料について解説します。
  • 鉄骨と波型スレートで作られた倉庫の外壁をサイディングに張り替える方法をご紹介します。
  • サイディングにするための鉄骨との取り付け方法や使用する材料について詳しく解説します。
回答を見る