PDF内の画像文字からテキストを抽出できるOCR

このQ&Aのポイント
  • 20~30年前の部品のデータシートのPDFファイルからテキストを抽出する方法を教えてください。
  • スキャナーで取り込んだデータシートの文字が画像としてしか認識されず、テキストをコピーできません。OCRソフトを使用しましたが、誤変換が多くて困っています。
  • 画像で構成されたPDFファイルから文字を簡単に抽出できるOCRソフトはありますか?
回答を見る
  • ベストアンサー

PDF内の画像文字からテキストを抽出できるOCR

現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • shintaro-2
  • ベストアンサー率36% (2266/6244)
回答No.2

少なくとも読んde!!ココでは 文字認識させる画像を回転させることが可能です。 自動の場合はかなり傾いていないと修正しませんが、 手動であればより少ない傾きでも修正可能です。 読取革命にもその機能はあると思います。 体験版でお試しください。 読んde http://www.epson.jp/download/dms/dl_yondekoko.htm 読取革命 http://panasonic.co.jp/snc/pstc/products/yomikaku/demo.html

diy_sunny
質問者

お礼

回答頂きありがとうございます。”読んde!!ココ”を使ってみました。複数ページあるPDFを一気に読み込んでテキスト化したPDFにしてくれる機能はものすごく効率が上がって助かりますねw また出力されたPDFのフォントや書式も原本になるべく似せて構成してくれたりと結構びっくりしました!  購入検討してみます。

その他の回答 (1)

回答No.1

>少スキャン時にページが傾いている感じがあるくらいで OCRに適すると思われるように加工してはいかがでしょうか? JTrimやIrfanViewといったフリーソフトでできます。 (カスタム)回転したり、ノイズ除去したり、リサンプリングして拡大処理するなど http://www.woodybells.com/jtrim.html http://www8.plala.or.jp/kusutaku/iview/

diy_sunny
質問者

お礼

回答頂きありがとうございます。いろいろと、画像の修正で認識率もかわってきたりするようですね。試してみます。

関連するQ&A

  • 画像とテキストが混在したPDFファイルをOCR認識させる方法

     1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。  この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。  スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。  できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。  なお、当方のOSはWindowsXPです。  以上よろしくお願いします。

  • PDFのOCR化でファイルサイズが小さくなる理由

    すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • PDFのOCR化でファイルサイズが小さくなる理由

    以下の質問に回答して下さった方、有り難うございました。 何かの手違いで、お礼を言うおうとしたら、会員IDまたはパスワードが違うといわれ、はねられてしまいます。 なので、これを利用してお礼を言わせていただきます。 ------------------------------- 暇なときにでも すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • いきなりPDFで…

    いきなりPDF COMPLETEで『画像ファイルに文字認識(OCR)をかける』にチェックして画像ファイル(jpeg)を処理しようとしてもエラーになってしまいます。 いきなりcはできないのでしょうか? いきなりPDF COMPLETE以外のやり方で『画像ファイルに文字認識(OCR)をかける』PDF化ができる方法があるのならば、ぜひご教示下さい。 よろしくお願い致します! ※OKWAVEより補足:「ソースネクスト株式会社の製品・サービス」についての質問です。

  • 【PDF】これはOCRなのでしょうか?

    エプソンのPX-404A使用です。 雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか?(PX-404Aの取説などではとくにそう説明されていませんが…) (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか?

  • 英文のPDFファイルのOCRソフト

    紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。 もし、フリーソフトでなければ有料ソフトでもいいのですが、 eTypistとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。

  • PDF(画像)→日本語OCR

    画像をPDFにしたものを日本語OCR認識するソフトはありますか。探せなかったので情報をお待ちします。

  • スキャナを使わずにPDFファイルの文字認識はできないですか?

    PDFファイルで画像として認識された文字を、文字として認識するには、「読んでココ」のようなOCRソフトを使ってスキャナで認識させればいいということは知っています。 しかしスキャナが壊れてしまったため、上記のような方法ができません。パソコンの中にある画像として認識しているPDFファイルを何らかのソフトを使って、文字認識できないでしょうか? フリーウェアであれば言うことないですが、2,3万円なら買おうと思っています。スキャナはA3読込可能なものを買おうと思っていますが、高いのでもうしばらく待ちたいと考えています。 どうかよろしくお願いします。

  • pdfのOCR化について

    全くの初心者です。 代行業者に本のスキャンサービスを頼み、オプションでOCRをつけてもらいました。できたファイルをソニーリーダ ー用に濃さや余白など最適化(これをしないとはっきりと読みにくい)し、ダウンロードしたらOCRが使えません。 説明では、スキャン時にOCR化するので、それを最適化するとOCRが無効になるということでした。画像のみのpdf? ではこれにOCRをかけるには、どのようなソフトがありますか?有償で構いません。 よろしくお願いいたします。

  • PDFで読み込んだ画像データから文字列を検索

    いつもお世話になっています。 6項目で30行程の表を読み込んだPDFデータが300枚ほどありますが、 データが画像化されているのでデータを検索できず困っています。 理想はエクセルVBAでPDFの画像化されたデータを テキストデータ化してエクセルに取り込みたいのですが、何か方法はないでしょうか? (こちらは若干VBAが使用できる程度のレベルです) 1枚毎の表と内容(アルファベットと数字のみ)はシンプルなのですが、 OCRソフトを使用しないと無理でしょうか? (OCRソフトは持っておらず、いろいろ誤表記もあるということなんで迷っています) もしくは画像化されたデータから文字列を検索する方法があれば教えていただきたいです。 現在、windows7、エクセル2007、AcrobatReader の環境です。 よろしくお願いします。

専門家に質問してみよう