• 締切済み

PDF文書を正確にテキスト変換するツールについて

ご存知の方がいらっしゃればアドバイスをお願いします。 現在、いろいろなツールを使用してPDF文書からテキスト変換を行っているのですが、 望んだ通りのものが出力されません。 ------------------------------------------------------------------------ (1)PDF文書 00000000 あいうえお 00000010 かきくけこ 00000020 さしすせそ 00000030 たちつてと 00000040 〇〇 さん から △△ さん へ (2)変換後 00000000 あいうえお00000010 かきくけこ 00000020 さしすせそ 00000030たちつてと 00000040 〇〇さんから △△さんへ ------------------------------------------------------------------------ 上記は変換後の1例になりますが、ネットで調べて、様々な変換ツールを使用しても 改行やスペースをうまく判断してくれません。 ある程度までなら我慢しようと思うのですが、できるだけ正確にPDFをそのままテキスト変換 したいと考えております。 どなたかPFDを見た目そのままにテキスト変換するツールについて、お勧めのものがあれば アドバイスをお願い致します。 フリー、シェアの如何は問いませんので、宜しくお願い致します。

みんなの回答

  • shintaro-2
  • ベストアンサー率36% (2266/6244)
回答No.2

古いデータですが、 「リッチテキストPDF2」「Acrobat 8 Standard」「同Professional」「PDF2Office Personal Version 2.0」が、元々のPDFの文書構造を解析してテキスト抽出するタイプだったようですので、これらの新しいソフトを検討されては如何でしょう? http://pc.nikkeibp.co.jp/article/NPC/20070130/260016/

harerudesyou
質問者

お礼

お礼が遅れて申し訳ありません。 教えて頂きましたツールについて、体験版等を入手し、 試して見たいと思います。 >元々のPDFの文書構造を解析してテキスト抽出するタイ>プだったようですので、・・・・・ この視点でツールを探せばよかったのですね。 目から鱗でした。。。。。

  • ORUKA1951
  • ベストアンサー率45% (5062/11036)
回答No.1

PDFを作成した文書や印刷(PDF化)ツールに依存するのです。 いっそのこと、画像としてOCRを使用するほうが良いです。そのかわり文字は誤判断されることがあります。 理由)  PDFはPostscriptデータという印刷データを可視化したものだからです。 以前  ⇒Acrobat ProとAdobe readerの - その他(ソフトウェア) - 教えて!goo( http://okwave.jp/qa/q8136284.html )  で極簡単に説明したので・・、直接は関係ないですがお読みいただけたらと思います。

harerudesyou
質問者

お礼

ご回答、ありがとうございます。 作業上、大量のPDFデータに対して検索やgrepを 行う必要があり、テキストデータとして保存したいと 考えています。 PDFでも検索、grepが可能なことは承知していますが、 効率の面からどうしてもテキスト化したいと考えています。

関連するQ&A

  • HTML→テキスト変換ツール

    HTMLをテキストファイルに変換するツールはいくつか出ていますが、改行タグが生かされずに変換されてしまうので読みづらく思います。 改行タグのところはテキスト形式においても改行されるようなテキスト変換ツールはありますでしょうか? ご回答よろしくお願いします。

  • WordからPDFに変換すると、文書が少しずつズレて行ってしまいます。

    初心者です。 現在仕事で使う書類作成を頼まれたのですが、いろんな用途で使うらしくPDFに変換して渡してくれ!と頼まれました。 一応文書は完成し、いざPDFに変換してみると、微妙に文書全体がずれてしまいます。wordでは改行による空白などあけていないのに、PDFで確認すると改行分の空白が空いていたりします。 そのため文書全体がだんだんずれて行ってしまい、最後の方には涙なしでは見れない状態になっています。 これは一体何が原因なのでしょうか?関係ないのかもしれませんが、私的に考えられる物は、ヘッダーとフッターを指定し、それらに画像を挿入していることでしょうか? なるべく早急に提出したいのですが、このままではとてもお見せすることが出来ません。 解決方法をご存知の方は、よろしくお願いいたします。

  • PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー

    PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。

    • ベストアンサー
    • Mac
  • PDF文書内の表をExcelに変換するツールを探しています

    PDF文書内の表を簡単にExcelの表に変換できるツールを探しています。 AcrobatReader7のテキストのコピー機能では、表の形式を引き継げないですし、 スナップショットツールでは表の「画像」データになってしまい、表として 再利用できませんので。 たまに、そういうツールがあると便利だなと思う程度なので、市販されている ツールを購入するほどではありません。フリー、もしくは体験/評価版で いいツールがあれば教えて下さい。

  • PDFからテキストデータに変換したい

    PDFの文書をテキスト文書に変換するにはどうしたらよいでしょうか。

  • PDFをテキストデータに直ちに変換できなくする方法

    ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。

  • PDFのアクセシブルテキストへの変換について

    Adobe Reader 9の「テキストとして保存」機能を使って、PDFファイルをテキスト(アクセシブル)に変換したいのですが、変換が失敗(0バイトのテキストを出力)してしまい、上手く変換できません。 他のPDFファイルでテキスト変換を行ってみたところ、変換できるファイルと失敗するファイルがあることが、わかりました。 また、テキストではなく、リッチテキストやWordへ変換してみましたが同様の動作が発生しました。 そのほか、Acrobatを使用されている方に変換できないファイルを送付し、変換をお願いしたところ、プレーンテキストでの変換は成功したが、アクセシブルテキストへの変換は失敗(0バイトのテキストを出力)とのことでした。 PDFのプロパティで比較してみたところ、ともに「セキュリティなし」になっていたので、テキスト本文は変換可能な状態のように思えますが、他に原因となる理由が見つかりません。 アクセシブルテキストへの変換目的は、本文以外に文章内の制御コード(改行、改ページ)の情報を持ち出すことです。 何か回避策や、上記要件を満たせるフリーソフトの情報などがあれば、ご教示願います。 よろしくお願いいたします。

  • PDF変換

    Word文書をPDF変換します。 この時文書内のテキストボックスがPDFに反映されません。 どうすれば表示できるようになるのでしょうか? よろしくお願いします

  • PDF化について(Word文書をPDF化したい)

    Wordで作成した文書をPDFファイルに変換したいのですが・・・ 今持っているPDF変換ソフトは「CubePDF」というものです。 変換したいWord文書は「文章が9割、画像が1割」という構成ですが、「CubePDF」で変換したところ画像(拡張子はJPEGです)が粗くなってしまい困っております。 実は挿入している画像には2種類ありまして(いずれもJPEG)、一方の写真画像の方は美しい状態のまま変換されたのですが、他方の画像(SketchPageという所で作成した画像です)が非常に粗く崩れて変換されました。おまけにこの画像、いずれも上半分しか変換されません。つまり画像の下半分がPDFファイルでは切れて表示されないのです。 そのような経緯から質問させていただきます。 JPEG画像を含むWord文書を高画質でPFDファイルに変換できるサービスをご存知でしたら教えて頂けませんか? 文章が美しく変換される事は大前提なのですが、できればJPEG画像についてもWord上で見ているのと同じキレイな状態のまま変換してくれるサービスを探しています。作成ソフトでもオンラインサービスでも結構です。ただし、Cometdocs.comのように限られた時間とは言え、変換した自分のファイルをウェブ上に公開しなければならないサービスはやや遠慮したいです。勝手で本当に申し訳ありません・・・(^^;。 お手数ですが、どうぞ宜しくお願い致します。m(_ _)m

  • pdfの手書き文書のテキスト変換ソフト

     手書き文書をpdfファイル化したものから、自動的に手書き文字を抽出して、テキスト文書に変換する事が出来る、という都合の良いソフトは、フリーソフトには存在するのでしょうか?(変換後の保存先ファイルはTEXT、Word、Excelの何れか)  もし、存在するのでしたら、そのソフトがダウンロード出来るサイトを教えて頂けないでしょうか。

専門家に質問してみよう