OCRが不完全な英文PDFを再度OCR認識させたい

このQ&Aのポイント
  • 質問文章からセンセーショナルなタイトルを30文字前後で生成すると、「不完全な英文PDFの再OCR認識方法とは?」となります。
  • 質問文章全体の100文字程度の要約文を3つ作成すると、「2000年ごろに作成された英文PDFを再度OCR認識させたいが、簡単にできる方法はあるか?さまざまな方法を試したが満足できず困っている」という内容をまとめた要約文が得られます。
  • SEOを意識したハッシュタグを5つ作成すると、「#英文PDF #OCR再認識 #簡単な方法 #満足できない #困っている」となります。
回答を見る
  • ベストアンサー

OCRが不完全な英文PDFを再度OCR認識させたい

おそらく2000年ごろに作成されたであろう英文のPDFファイルがいくつもあります。元々のテキストデータがあったのではなく、タイプされた文書をOCRスキャンしてPDFにしたのだと思います。印刷して読む分には何の問題もないのですが、テキストファイルをハイライトして抜き出したいときに、文字と文字のスペースや単語間のスペースが広かったりしたため、テキストが例えばWindows is an OSなどとあったときW i n d o w s i s a n O S.と認識されます。 再度OCRスキャンして英単語を英単語として認識させたいのですが、一番簡単にできる方法を教えてください。Microsoft LensというアプリをiPhoneで使ってみましたが、それほど満足できませんでした。最新のiPhoneだとかなり精度が上がっているだろうから試す価値があると思いやってみましたが… 1.Windows上のAdobe Acrobat proで試したが、もともとOCR処理がされているため、再度OCRをかけてくれなかった?2年前のことですが断念しました。 2.PDFをデータファイルとして(再度写真を撮るのではなく)再びOCR処理をしてくれるソフトはあるか? 3.2をMicrosoft Lensでできないか?Windowsでも使えるようですがPDFを読み込むような感じではありませんでした。SnippingToolで画面上の範囲を選択することができればいいですね。 4.iPhoneからMicrosoft Lens を使ってWord化してみたが、実はWordアプリがiPhoneにインストールされていなければWord化されない?Wordにしてあれば自動的にOneDriveにアップロードされるとありましたが、されていません。 使用するソフトはなんでも構いませんが無料もしくは安価でお願いします。PDFはすべて英文です。よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • MT765
  • ベストアンサー率56% (1898/3332)
回答No.4

何通りかやり方がありますが、基本的にはOCRができる形式にファイルを変換することになります。 1.PDFプリンターを使って画像として書き出す Acrobat Readerなどで開き、「Microsft Print to PDF」ドライバを使って印刷します。 詳細設定で「画像として印刷」にチェックを入れてください。 これで印刷すればOCR認識させられるラスターPDFになりますのでAdobe Acrobat proでOCR処理してください。 2.PDF変換サイトなどで画像データに変換する AvePDFなどでPNGなどに変換する。 【PDFからPNGへ】 https://avepdf.com/ja/pdf-to-png 変換してDLしたら、Google画像検索を使うとテキストを抽出できます。 Google画像検索を開くと検索窓にカメラのマークがあるのでクリックするとGoogleレンズが開きます。 あとは認識させたいファイルをアップロードすれば認識されてテキストをコピーできます。 【Google画像検索】 https://images.google.co.jp/imghp?hl=ja&gws_rd=ssl ただ、どちらの場合もご希望されるような認識結果(英単語を英単語として認識させたい)になるかはわかりませんのでご参考程度に。

piyo-maru7
質問者

お礼

返信が遅れて申し訳ありません。 1のやり方はとてもよさそうです。会社のPCで試してみます。一度PDFとして印刷・保存しなおすというのは盲点でした。 2に近いやり方をもうすでに試していました。これで妥協しようかな、と思っていたためにご回答に気づきませんでした。PDFをJPG化してくれるWebサイトを使ってやっていました。 ありがとうございました。

その他の回答 (3)

  • shinotel
  • ベストアンサー率53% (907/1687)
回答No.3

個人的にはこんなソフトを利用しています。 出所に好き嫌いがあるかもしれませんが、読み取り後の校正はOCRソフトでも同じなので、なんとか役立てています。 <瞬間テキスト2> https://www.sourcenext.com/product/pc/use/pc_use_003345/?gpc=0000014365

piyo-maru7
質問者

お礼

こういうソフトがあるのですね。とても便利そうです。ページ全部をOCRする必要がないので用途としてはぴったりです。ただ、一台のPCにしかインストールできないため躊躇しています。2台に入れるとなると4000円ですから。 今回は英文が対象なので、フリーソフトで使えそうなものがないか探します。Windows10のOCR機能をAHKで簡単に呼び出すというのがありました。 ありがとうございました。

回答No.2

Googleドキュメントで編集できる形式になっていればOCRされていると思いますよ。僕の手元ではできていますが、もともと間違って認識されていた単語などは、そのままでした。

回答No.1

GoogleドライブにPDFファイルをアップロードして、Googleドキュメントで開くことでOCRできるそうです。 https://support.google.com/drive/answer/176692

piyo-maru7
質問者

お礼

回答ありがとうございます。 PDFをそのままアップロードしても、再度OCR処理してはくれませんでした。

関連するQ&A

  • pdfのOCR化について

    全くの初心者です。 代行業者に本のスキャンサービスを頼み、オプションでOCRをつけてもらいました。できたファイルをソニーリーダ ー用に濃さや余白など最適化(これをしないとはっきりと読みにくい)し、ダウンロードしたらOCRが使えません。 説明では、スキャン時にOCR化するので、それを最適化するとOCRが無効になるということでした。画像のみのpdf? ではこれにOCRをかけるには、どのようなソフトがありますか?有償で構いません。 よろしくお願いいたします。

  • 英文のPDFファイルのOCRソフト

    紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。 もし、フリーソフトでなければ有料ソフトでもいいのですが、 eTypistとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。

  • 【PDF】これはOCRなのでしょうか?

    エプソンのPX-404A使用です。 雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか?(PX-404Aの取説などではとくにそう説明されていませんが…) (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか?

  • 【MFC-J6983CDW】PDFをOCRしたい

    ■製品名を記入してください。 【MFC-J6983CDW】 ■どのようなことでお困りでしょうか?  相談したいこと、トラブルに至った経緯、試したこと、エラーなどを教えてください。 【OCRされていないPDFファイルに対してMFC-J6983CDWの  OCR機能を利用してOCRできないでしょうか。  つまり、下記はできないでしょうか。   PDF(OCRなし) → iPrint&Scan → PDF(OCRあり)  紙を資料をスキャンする際にiPrint&Scanを使用して  OCR化しており、本ソフトのOCRの正確性が非常に  高く満足しています。  ただ、OCR化されていないPDFファイルがあり、  このPDFファイルをどうにかOCR化できないか検討  しています。いろいろフリーソフトなどでOCR化を  試してみたのですが、正確性がいまいちでした。  iPrint&Scan(またはControlCenter4)のOCR機能を  利用して、正確にOCR化されたPDFファイルを  生成できないでしょうか。 】 ■お使いの環境について教えてください。 ・パソコンもしくはスマートフォンのOSは何ですか? (例)Windows10/8.1/7・MacOS・iOS・Android 【Windows10】 ・どのように接続されていますか? (例)有線LAN・無線LAN・USBケーブル・bluetooth 【有線LAN】 ・関連するソフト・アプリがあれば教えてください。 【iPrint&Scan、ControlCenter4】 ・電話回線の種類は何ですか? (例)アナログ回線・ISND回線・ひかり回線・IP電話 【ひかり回線】 ※OKWAVEより補足:「ブラザー製品」についての質問です。

  • PDF内の画像文字からテキストを抽出できるOCR

    現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

  • PDFファイルの文章を正しく認識させる方法

    ある外国製の製品を購入して使用しています。 また使用説明書は製品と一緒に同封されてきました。 L版より小さいサイズの説明書で、英語版と中国 版の両方で書かれています。 最近までインターネットで、この製品のPDFファイル 方式の説明書を探していたのですが、結局見つかりま せんでした。 それで、何とかプリンターで、同府されていた説明書 をスキャンしてPDFファイルに変換して、メモ帳 やWordにコピーし、貼り付けで、英文で保存して、 翻訳ソフトで和訳したいと思って試してみたのですが 、結局上手く行きません。 PDFファイルの英文で表示されいる文章をコピー して、貼り付けでも、英文では表示されず、漢字や ひらがなで表示されます。意味もなしていません。 漠然と思いですが、文字フォントが関係しているのか なと思っています。中国の製品なので、漢字などで 表示されてしまうのかなと勝手に思っています。 別な方法も一応試してはいます。 説明書をスキャンして、BMPファイルやJPEGファイル で保存して、OCRソフトで文字認識させて、メモ帳 やWordにコピーし、貼り付けする方法もあるのでし ょうが、しかしこの方法だと手間がかかり過ぎます。 OCRで正しい英文で保存するにも、実際のところ 手間がかかります。 また以前、インターネット上で必要なファイルをダウン ロードした英文で書かれたPDFファイルをコピーして、 Wordに貼り付けて保存した事がありました。 その時は、文字化けのような症状はありませんでした。 英文のままで貼り付ける事が出来ました。 スキャンに使用しているプリンターはEPSONのPX-047A で、スキャンしたファイルをPDFファイルに変換して 保存出来ます。 またPDFファイルを表示させるAdobe" Readerののバージ ョンは11.0.13です。 上記の問題を上手く解決する方法がありましたら、ご指導 頂きたく思います。質問の内容を書いてください

  • PDFをテキストデータに直ちに変換できなくする方法

    ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。

  • どのようにして一度打ち出した書類を再度PCで認識

    お客様からPDF化された書類が送られてくることが多々あるのですが ワードで作った書類をスキャンして送ってくるのですが、 そのpdfをCTRL+A→コピーしてエクセルに文字を貼り付けられる場合と貼り付けられない場合があります。 「OCR」と言うものがキーワードだと思いますが 同じような書類でこのように差が出てくるのはなぜですか? スキャンする時の複合機の機能なのか PDF化したときに何かソフトで読み取れるように設定しているのか どのようにして一度打ち出した書類を再度PCで認識できるようにしているのでしょうか?

  • PDFのOCR化でファイルサイズが小さくなる理由

    すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

  • 画像とテキストが混在したPDFファイルをOCR認識させる方法

     1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。  この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。  スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。  できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。  なお、当方のOSはWindowsXPです。  以上よろしくお願いします。

専門家に質問してみよう