• 締切済み

PDFそのものから、テキストの抽出

PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?

  • Perl
  • 回答数3
  • ありがとう数3

みんなの回答

  • Paulown
  • ベストアンサー率0% (0/0)
回答No.3

PDFファイルの内部には確かにテキスト情報を持っています。そこから、テキスト抽出するソフトウェアは存在します。ただ、業務用の非常に高価なソフトが多いです。 Linux環境ですと、xpdfについてくるpdftotextというプログラムを使ってPDFからテキスト抽出できます。 Windows環境ですと、現実的にはAcrobat を使うことになると思います。 PDFの構造は公開されていますので、ご自分でテキスト抽出プログラムを作ることも不可能ではありません。

参考URL:
http://partners.adobe.com/public/developer/pdf/index_reference.html
回答No.2

>PDFそのものから、テキストの抽出は可能ですか? http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html を参照してみてください。

参考URL:
http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html
  • kotaechan
  • ベストアンサー率38% (351/913)
回答No.1

 Acrobat 6以前ので作られたものでも、Acrobat 6で読み込めば、テキスト抽出できます。

mighty5
質問者

お礼

回答どうもありがとうございます! ということは、Acrobat 6以前ので作られたものは、 Acrobat 6で読み込まない限り、PDFそのものからテキスト抽出は無理ということでしょうか? 何か参考になるURLがあれば教えてくださると、助かります。 よろしくお願いします。

関連するQ&A

  • pdfをテキストファイルにしたいです

    文書をスキャナで読み込み、ひでまるエディタでテキストファイルにしたのですが。 再度やってみたらやり方を忘れてしまってできません。 スキャナで読み込んだtifファイルを保存して、アクロバットリーダーで PDFにしました。 それを何かをして保存したらデスクトップに秀丸でテキストファイルになって保存できて いました。 再度やってみたら、どうやったのか、どうしても思い出せないのです。 それと、A5の本を見開きで横にしてスキャナで取り込んだので、文字が横になっているので( A4は縦に置かないと認識しないので) アクロバットリーダーで90度回転させ、保存しても、ファイルを開いたら 読み込んだままの90度回転した(文字が横になっている)ファイルになっています。 どうしたら文字が真っ直ぐ上を向いたままの状態で保存できるのでしょうか? 聞きたいことは、 1.PDFをテキストファイルにする方法 2.PDFのファイルを90度回転させたまま保存する方法です。 OSはWINXP  アクロバットリーダーはX アクロバット スタンダード7.1もあります。 よろしくお願いします。

  • PDFからテキスト

    アクロバットリーダPDFファイルからテキストを取り出す方法はないでしょうか。 PDF形式の電子小説を買ったはいいんですが、普段使っている携帯端末用のPDFリーダが無いので、 テキストだけ抽出して端末に入れたいのです。 DOS用PDFリーダがあれば、なおいいのですが。

  • Acrobat6Proを持っています。PDFの文字をテキストに変換したい

    Acrobat6Proを持っています。 PDFの文字をテキストに変換したいですが、 日本語でも対応できるテキスト抽出ソフトはありますか?PDFになる前のデータはテキストですが、そのソフトは印刷出力しか対応していないので、PDFからテキストという遠回りをしております。 もっと極論すれば、印刷=テキスト抽出というPDFを介入しないソフトはあるのでしょうか? ※テキスト吐き出しという機能がなくて、印刷機能があるソフトに使えたら便利だと思っています。

  • pdfファイのテキスト化

    「Adobe Reader 7.0」でpdfファイルを見ています。このpdfファイルのデータをテキストデータとして保存する方法はどのような手順で行えばいいでしょうか? また「テキストとして保存」としてもテキストファイルは出来るのですが中身が無い状態です。

  • PDFから画像を抽出

     個人的にPDFが嫌いなので、読みやすいhtmlかdocに変換しようと思っています。  テキストは、AdobeReaderの機能を使って抽出できたのですが、画像のほうが抽出できません。  一つ一つ取り出すのはフォト何とかツールでできると聞きましたが、全ての画像要素を一括して抽出する機能は、AdobeReaderにはないでしょうか?もしくは、そういったことができるソフト(できるだけフリーで・・・。)はないでしょうか?  なお、Acrobatは所有していません。

  • PDFファイル/抽出許可されていない

    30ページ程のPDFファイルをAdobe Acrobat Standardで 1ページ毎に抽出するために、保存する時にjpgを選択すると“抽出許可されていません"とエラーが出ます。 抽出許可されていないPDFファイルを1ページ毎に抽出する方法はありますか?

  • PDFの透明化テキストを抽出したい。

    Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • pdfファイルから、テキストを抽出したい

    pdfファイルから、テキストを抽出したいと思っています。 テキスト選択ツールで、テキストを選択し、コピー&ペーストでも良いのですが、これだと一ページずつ細切れになってしまいます。 何とか、これを一度で、コピー&ペースト、ないし、抽出できる方法はないでしょうか?

  • PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー

    PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。

    • ベストアンサー
    • Mac
  • PDFからテキストだけ抜き出すには

    OCR機能のついたフリーソフトのクセロReaderZeroを使ってテキストの埋め込まれたPDFファイルを作りました。ここからノートパッドかワードにテキストだけコピーしたいのですが、どのようにしたらいいのかわかりません。教えてください。(このソフトのほかにAdobe Reader 8 と Adobe Acrobat 6 をインストールしてあります。)

専門家に質問してみよう