• ベストアンサー

PDFの透明化テキストを抽出したい。

Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • sai34
  • お礼率73% (51/69)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

元々の透明化されたテキストの認識率が90%程度なので、意味が取れない箇所が出てくるでしょうね それを承知の上でよいのなら、後はPDFのセキュリティー設定しだいです。 何も制限を掛けていないなら、PDFを適当なヴューワで開き、後は「全て選択」「コピー」適当なテキスト・エディタに「貼り付け」れば、テキスト・データだけ取り出せます。 但し、行末に改行が入っているので、そのままでは読みにくいかもしれません。

sai34
質問者

お礼

休日の貴重なお時間を割いていただきありがとうございます。 アドバイスいただいたとおり、PDFを開いて全て選択、コピーしてテキス・エディタに貼り付けましたらテキスト化出来ました。 ご指摘の通り、識字率の問題・レイアウトの問題がありますが、テキスト保存できることを確認致しました。 誠にありがとうございました。

その他の回答 (3)

  • koko_u_u
  • ベストアンサー率18% (216/1139)
回答No.3

言うまでもないことですが、コマンドラインツールですよ。 プロンプトから pdftotext input.pdf output.txt などと指定しましょう。 大量に pdf ファイルがある場合は適当にバッチファイルを作るなりしてください。

sai34
質問者

補足

お手数をおかけいたします。 どうも私のPC技量では無理のようです。 ありがとうございました。

  • edomin7777
  • ベストアンサー率40% (711/1750)
回答No.2

Xpdf ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl5-win32.zip たぶんここ…。(直接ダウンロード)

sai34
質問者

補足

度々お手数をおかけいたします。 ダウンロードし実行致しましたが何事も起きません。 当方、Windows7 64bit版のためでしょうか。

  • koko_u_u
  • ベストアンサー率18% (216/1139)
回答No.1

xpdf に付属の pdftotext を試してみましょう。私は使ったことない。

sai34
質問者

補足

休日の貴重なお時間を割いていただきありがとうございます。 xpdfは存じ上げませんが、Windows7対応でしょうか。 検索しましたがexe本体のダウンロード先がよくわかりません。

関連するQ&A

  • PDFからテキスト

    アクロバットリーダPDFファイルからテキストを取り出す方法はないでしょうか。 PDF形式の電子小説を買ったはいいんですが、普段使っている携帯端末用のPDFリーダが無いので、 テキストだけ抽出して端末に入れたいのです。 DOS用PDFリーダがあれば、なおいいのですが。

  • pdfファイルから抽出できるテキストと抽出できないテキスト

    Acrobat6.0Prof.を用い、テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと、超拡大表示(例:6400倍)してもエッジがギザギザにならず鮮明に表示されるからで、これは明らかにアウトラインフォントと思われます。 このような「テキスト」を抽出する方法について知りたい。

  • PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー

    PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。

    • ベストアンサー
    • Mac
  • PDFから画像を抽出

     個人的にPDFが嫌いなので、読みやすいhtmlかdocに変換しようと思っています。  テキストは、AdobeReaderの機能を使って抽出できたのですが、画像のほうが抽出できません。  一つ一つ取り出すのはフォト何とかツールでできると聞きましたが、全ての画像要素を一括して抽出する機能は、AdobeReaderにはないでしょうか?もしくは、そういったことができるソフト(できるだけフリーで・・・。)はないでしょうか?  なお、Acrobatは所有していません。

  • AndroidスマートフォンのPDFファイル

    AndroidスマートフォンのPDFファイルを見たいのですが、実際マニュアルファイルなんかを 見ていて、拡大表示にすると、画面いっぱい上下スクロールだけなら、良いのですけど、 左右にも、スクロールしなければならないので、あちら、こちら画面を振らなければならないので、 実用的に、観閲できません。 どなたか、適当な、PDFアプリをご存じないでしょうか。 ちなみに、ワープロファイルなら、拡大表示にすると、画面幅に応じて文字の行が変わって くれるので、上下スクロールだけで観閲できるので、楽です。 よろしくお願いいたします。

  • PDFの加筆した部分が見えない

    PDF Xchange Viewerで加筆したPDFファイルがあります。 このPDFファイルをPDF Xchange Viewer、アクロバットリーダーで読むと加筆後の内容が読めますが、iPADやアンドロイド端末で読むと、加筆前の内容しか読めません。 加筆後のPDFファイルを再度PDF化したものは、iPADやアンドロイド端末で読むことができましたが、文字も画像としてPDF化したものと思われ、文字選択もできなくなり、容量が6倍に膨れてしまいます。 容量を増やさず、文字は文字として扱われ、iPADやアンドロイド端末で読めるような加筆方法、お願いします。

  • Adobe Acrobat 9 Pro Extended テキスト抽出

     Adobe Acrobat 9 Pro Extendedを使ってpdfのテキスト抽出を行いたいのですが部分的に文字化けしてしまいます。 (本当はごっそり形状(セル?)も崩れずエクセルに抽出したいのですが、いきなりPDF to Dataなど購入し、色々試しましたがうまくできませんでした)  セキュリティープロパティーではセキュリティーなしで ALL許可になっています。  勝手な解釈なのですがpdfに変換した際に固定の文字はテキスト抽出でき、任意に変更する箇所が…など、文字化けしてるような感じです。 (セルでいう書式ごとコピー&貼り付けしている感じ?で値だけ貼り付けられれば良いのですが)  なんとかテキスト抽出できないものでしょうか? (あるいはこのソフトを試してというのがあればお願いします) どうかお助け下さい。  

  • WORD文書をテキストも含めて画像データとしてPDF化したい

    WORD文書をテキスト部分も含めて画像データとしてPDF化したいです。 携帯電話のPDFビュアーの機能が低く表などがうまく表示できないため、画像であればそのまま表示されるので、中身が画像データのPDFを作成したいのです。 PrimoPDFを試してみましたが、そういった設定はなく、テキスト部分はやはりテキストとしてしかPDF化できませんでした。 できれば、フリーソフトで手間なく(PrimoPDFのようにWordの印刷でそのまま出力される等)できればいいのですが。。。

  • PDF-XChange Viewer

    PDF-XChange ViewerをDLしたのですが、テキストの強調、アンダーラインなどが機能しません。四角枠、矢印などは機能するのですが。??? 特にテキストの強調を使用したいのですが、設定が異なるのでしょうか。それともfree版だからでしょうか? とにかく、PDFにテキスト強調機能ができれば、そrだけでいいのですが、他のフリーソフトとかがあれば、教えてくれますか?

  • PDFの内容を列ごとにテキスト化するフリーソフト

    PDFの内容をテキスト化するソフトの質問は大変多く投稿され回答が寄せられていますが PDFの内容が左右2列に分かれている場合でも、これらのテキスト化では1列になってしまうものばかりです。 これをスペースなどで2列のまま変換するソフトはないものでしょうか。 左右の列をエクセルのセル列単位に割り当てたいのです。 AdobeのPDFでも、列ごとに枠で囲えば列単位で抽出できますが1つずつしなければなりません。 「なんテキ」ファイラー・エディター・ビュアー(シェア)というものがあり、これがうまく仕分けして変換してくれるソフトで複数PDFも一括変換してくれる優れものだったのですが、最近のPDFの仕様が変わったのか、列間どころか文字間にやたらと空白スペースが入るようになってしまい使い物にならなくなりました。

専門家に質問してみよう