OCRが不完全な英文PDFを再度OCR認識させたい

2024/02/19 05:17

このQ&Aのポイント

質問文章からセンセーショナルなタイトルを30文字前後で生成すると、「不完全な英文PDFの再OCR認識方法とは？」となります。
質問文章全体の100文字程度の要約文を3つ作成すると、「2000年ごろに作成された英文PDFを再度OCR認識させたいが、簡単にできる方法はあるか？さまざまな方法を試したが満足できず困っている」という内容をまとめた要約文が得られます。
SEOを意識したハッシュタグを5つ作成すると、「#英文PDF #OCR再認識 #簡単な方法 #満足できない #困っている」となります。

ベストアンサー

OCRが不完全な英文PDFを再度OCR認識させたい

2023/02/19 05:13

おそらく2000年ごろに作成されたであろう英文のPDFファイルがいくつもあります。元々のテキストデータがあったのではなく、タイプされた文書をOCRスキャンしてPDFにしたのだと思います。印刷して読む分には何の問題もないのですが、テキストファイルをハイライトして抜き出したいときに、文字と文字のスペースや単語間のスペースが広かったりしたため、テキストが例えばWindows is an OSなどとあったときW i n d o w s i s a n O S.と認識されます。再度OCRスキャンして英単語を英単語として認識させたいのですが、一番簡単にできる方法を教えてください。Microsoft LensというアプリをiPhoneで使ってみましたが、それほど満足できませんでした。最新のiPhoneだとかなり精度が上がっているだろうから試す価値があると思いやってみましたが… 1.Windows上のAdobe Acrobat proで試したが、もともとOCR処理がされているため、再度OCRをかけてくれなかった？2年前のことですが断念しました。 2.PDFをデータファイルとして（再度写真を撮るのではなく）再びOCR処理をしてくれるソフトはあるか？ 3.２をMicrosoft Lensでできないか？Windowsでも使えるようですがPDFを読み込むような感じではありませんでした。SnippingToolで画面上の範囲を選択することができればいいですね。 4.iPhoneからMicrosoft Lens を使ってWord化してみたが、実はWordアプリがiPhoneにインストールされていなければWord化されない？Wordにしてあれば自動的にOneDriveにアップロードされるとありましたが、されていません。使用するソフトはなんでも構いませんが無料もしくは安価でお願いします。PDFはすべて英文です。よろしくお願いいたします。

piyo-maru7
お礼率86% (445/515)

iPhone・iPad・iOS
回答数4
ありがとう数3

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

MT765
ベストアンサー率56% (1898/3332)

2023/02/21 10:47 回答No.4

何通りかやり方がありますが、基本的にはOCRができる形式にファイルを変換することになります。１．PDFプリンターを使って画像として書き出す Acrobat Readerなどで開き、「Microsft Print to PDF」ドライバを使って印刷します。詳細設定で「画像として印刷」にチェックを入れてください。これで印刷すればOCR認識させられるラスターPDFになりますのでAdobe Acrobat proでOCR処理してください。２．PDF変換サイトなどで画像データに変換する AvePDFなどでPNGなどに変換する。【PDFからPNGへ】 https://avepdf.com/ja/pdf-to-png 変換してDLしたら、Google画像検索を使うとテキストを抽出できます。 Google画像検索を開くと検索窓にカメラのマークがあるのでクリックするとGoogleレンズが開きます。あとは認識させたいファイルをアップロードすれば認識されてテキストをコピーできます。【Google画像検索】 https://images.google.co.jp/imghp?hl=ja&gws_rd=ssl ただ、どちらの場合もご希望されるような認識結果（英単語を英単語として認識させたい）になるかはわかりませんのでご参考程度に。

質問者

お礼 2023/02/23 12:04

返信が遅れて申し訳ありません。 1のやり方はとてもよさそうです。会社のPCで試してみます。一度PDFとして印刷・保存しなおすというのは盲点でした。 2に近いやり方をもうすでに試していました。これで妥協しようかな、と思っていたためにご回答に気づきませんでした。PDFをJPG化してくれるWebサイトを使ってやっていました。ありがとうございました。

その他の回答 (3)

shinotel
ベストアンサー率53% (907/1687)

2023/02/20 10:30 回答No.3

個人的にはこんなソフトを利用しています。出所に好き嫌いがあるかもしれませんが、読み取り後の校正はOCRソフトでも同じなので、なんとか役立てています。＜瞬間テキスト2＞ https://www.sourcenext.com/product/pc/use/pc_use_003345/?gpc=0000014365

質問者

お礼 2023/02/23 12:11

こういうソフトがあるのですね。とても便利そうです。ページ全部をOCRする必要がないので用途としてはぴったりです。ただ、一台のPCにしかインストールできないため躊躇しています。２台に入れるとなると4000円ですから。今回は英文が対象なので、フリーソフトで使えそうなものがないか探します。Windows10のOCR機能をAHKで簡単に呼び出すというのがありました。ありがとうございました。

redslove10
ベストアンサー率40% (372/918)

2023/02/19 16:00 回答No.2

Googleドキュメントで編集できる形式になっていればOCRされていると思いますよ。僕の手元ではできていますが、もともと間違って認識されていた単語などは、そのままでした。

redslove10
ベストアンサー率40% (372/918)

2023/02/19 10:55 回答No.1

GoogleドライブにPDFファイルをアップロードして、Googleドキュメントで開くことでOCRできるそうです。 https://support.google.com/drive/answer/176692

質問者

お礼 2023/02/19 15:06

回答ありがとうございます。 PDFをそのままアップロードしても、再度OCR処理してはくれませんでした。

関連するQ&A

pdfのOCR化について
全くの初心者です。代行業者に本のスキャンサービスを頼み、オプションでOCRをつけてもらいました。できたファイルをソニーリーダー用に濃さや余白など最適化（これをしないとはっきりと読みにくい）し、ダウンロードしたらOCRが使えません。説明では、スキャン時にOCR化するので、それを最適化するとOCRが無効になるということでした。画像のみのpdf？ではこれにOCRをかけるには、どのようなソフトがありますか？有償で構いません。よろしくお願いいたします。
- 締切済み
- その他（インターネット・Webサービス）
英文のPDFファイルのOCRソフト
紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。もし、フリーソフトでなければ有料ソフトでもいいのですが、ｅＴｙｐｉｓｔとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。
- ベストアンサー
- フリーウェア・フリーソフト
【PDF】これはOCRなのでしょうか？
エプソンのPX-404A使用です。雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader　Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか？（PX-404Aの取説などではとくにそう説明されていませんが…） (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか？
- 締切済み
- フリーウェア・フリーソフト
【MFC-J6983CDW】PDFをOCRしたい
■製品名を記入してください。【MFC-J6983CDW】 ■どのようなことでお困りでしょうか？　相談したいこと、トラブルに至った経緯、試したこと、エラーなどを教えてください。【OCRされていないPDFファイルに対してMFC-J6983CDWの　OCR機能を利用してOCRできないでしょうか。　つまり、下記はできないでしょうか。　　PDF(OCRなし) → iPrint&Scan → PDF(OCRあり) 　紙を資料をスキャンする際にiPrint&Scanを使用して　OCR化しており、本ソフトのOCRの正確性が非常に　高く満足しています。　ただ、OCR化されていないPDFファイルがあり、　このPDFファイルをどうにかOCR化できないか検討　しています。いろいろフリーソフトなどでOCR化を　試してみたのですが、正確性がいまいちでした。　iPrint&Scan(またはControlCenter4)のOCR機能を　利用して、正確にOCR化されたPDFファイルを　生成できないでしょうか。】 ■お使いの環境について教えてください。・パソコンもしくはスマートフォンのOSは何ですか？（例）Windows10/8.1/7・MacOS・iOS・Android 【Windows10】・どのように接続されていますか？（例）有線LAN・無線LAN・USBケーブル・bluetooth 【有線LAN】・関連するソフト・アプリがあれば教えてください。【iPrint&Scan、ControlCenter4】・電話回線の種類は何ですか？（例）アナログ回線・ISND回線・ひかり回線・IP電話【ひかり回線】 ※OKWAVEより補足：「ブラザー製品」についての質問です。
- ベストアンサー
- プリンター・スキャナー
PDF内の画像文字からテキストを抽出できるOCR
現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20～30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、すこし誤変換が多いような気がしました。このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。
- ベストアンサー
- オフィス系ソフト
PDFファイルの文章を正しく認識させる方法
ある外国製の製品を購入して使用しています。また使用説明書は製品と一緒に同封されてきました。 L版より小さいサイズの説明書で、英語版と中国版の両方で書かれています。最近までインターネットで、この製品のPDFファイル方式の説明書を探していたのですが、結局見つかりませんでした。それで、何とかプリンターで、同府されていた説明書をスキャンしてPDFファイルに変換して、メモ帳やWordにコピーし、貼り付けで、英文で保存して、翻訳ソフトで和訳したいと思って試してみたのですが、結局上手く行きません。 PDFファイルの英文で表示されいる文章をコピーして、貼り付けでも、英文では表示されず、漢字やひらがなで表示されます。意味もなしていません。漠然と思いですが、文字フォントが関係しているのかなと思っています。中国の製品なので、漢字などで表示されてしまうのかなと勝手に思っています。別な方法も一応試してはいます。説明書をスキャンして、BMPファイルやJPEGファイルで保存して、OCRソフトで文字認識させて、メモ帳やWordにコピーし、貼り付けする方法もあるのでしょうが、しかしこの方法だと手間がかかり過ぎます。 OCRで正しい英文で保存するにも、実際のところ手間がかかります。また以前、インターネット上で必要なファイルをダウンロードした英文で書かれたPDFファイルをコピーして、 Wordに貼り付けて保存した事がありました。その時は、文字化けのような症状はありませんでした。英文のままで貼り付ける事が出来ました。スキャンに使用しているプリンターはEPSONのPX-047A で、スキャンしたファイルをPDFファイルに変換して保存出来ます。またPDFファイルを表示させるAdobe" Readerののバージョンは11.0.13です。上記の問題を上手く解決する方法がありましたら、ご指導頂きたく思います。質問の内容を書いてください
- ベストアンサー
- その他(ソフトウェア)
PDFをテキストデータに直ちに変換できなくする方法
ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」の一つです。この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。
- ベストアンサー
- その他Adobe製品
どのようにして一度打ち出した書類を再度ＰＣで認識
お客様からＰＤＦ化された書類が送られてくることが多々あるのですがワードで作った書類をスキャンして送ってくるのですが、そのｐｄｆをCTRL+A→コピーしてエクセルに文字を貼り付けられる場合と貼り付けられない場合があります。「ＯＣＲ」と言うものがキーワードだと思いますが同じような書類でこのように差が出てくるのはなぜですか？スキャンする時の複合機の機能なのかＰＤＦ化したときに何かソフトで読み取れるように設定しているのかどのようにして一度打ち出した書類を再度ＰＣで認識できるようにしているのでしょうか？
- ベストアンサー
- その他（インターネット・Webサービス）
ＰＤＦのＯＣＲ化でファイルサイズが小さくなる理由
すみません。　どなたか、回答よろしくお願いします。　印刷されたドキュメントをスキャンして、ＰＤＦファイルで保存した後、スキャンソフトにＯＣＲ化の機能が付いていたので、ＯＣＲ化すると、ファイルサイズがかなり小さくなりました。　これはなぜでしょうか。　最初は、画像データが文字コードに置き換えられたからだと思っていたのですが（ＯＣＲの原理を調べてもそのようなことが書いてあったので。）、そのファイルの文字をみても、文字の形（フォント等、かすれ具合等）はどうみてもＯＣＲ化される前の画像データ？と変わりません。　そうすると、ＯＣＲ化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。　でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。　そもそもＰＤＦファイルの仕組み（まったくの画像データではないようですね。）や、ＯＣＲの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。　よろしくお願いします。
- 締切済み
- その他（インターネット・Webサービス）
画像とテキストが混在したPDFファイルをOCR認識させる方法
　１ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。　この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。　スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。　できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。　なお、当方のOSはWindowsXPです。　以上よろしくお願いします。
- 締切済み
- その他(ソフトウェア)

OCRが不完全な英文PDFを再度OCR認識させたい

OCRが不完全な英文PDFを再度OCR認識させたい