PDF内の画像文字からテキストを抽出できるOCR

2023/10/23 20:29

このQ&Aのポイント

20～30年前の部品のデータシートのPDFファイルからテキストを抽出する方法を教えてください。
スキャナーで取り込んだデータシートの文字が画像としてしか認識されず、テキストをコピーできません。OCRソフトを使用しましたが、誤変換が多くて困っています。
画像で構成されたPDFファイルから文字を簡単に抽出できるOCRソフトはありますか？

ベストアンサー

PDF内の画像文字からテキストを抽出できるOCR

2012/06/05 14:11

現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20～30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、すこし誤変換が多いような気がしました。このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

diy_sunny
お礼率84% (387/459)

オフィス系ソフト
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

shintaro-2
ベストアンサー率36% (2266/6244)

2012/06/06 16:27 回答No.2

少なくとも読んde!!ココでは文字認識させる画像を回転させることが可能です。自動の場合はかなり傾いていないと修正しませんが、手動であればより少ない傾きでも修正可能です。読取革命にもその機能はあると思います。体験版でお試しください。読んde http://www.epson.jp/download/dms/dl_yondekoko.htm 読取革命 http://panasonic.co.jp/snc/pstc/products/yomikaku/demo.html

質問者

お礼 2012/06/08 09:43

回答頂きありがとうございます。”読んde!!ココ”を使ってみました。複数ページあるPDFを一気に読み込んでテキスト化したPDFにしてくれる機能はものすごく効率が上がって助かりますねｗ　また出力されたPDFのフォントや書式も原本になるべく似せて構成してくれたりと結構びっくりしました！　購入検討してみます。

その他の回答 (1)

某HN クロメート(Chromate)（@CoalTar）
ベストアンサー率40% (705/1742)

2012/06/05 14:54 回答No.1

>少スキャン時にページが傾いている感じがあるくらいで OCRに適すると思われるように加工してはいかがでしょうか？ JTrimやIrfanViewといったフリーソフトでできます。 (カスタム)回転したり、ノイズ除去したり、リサンプリングして拡大処理するなど http://www.woodybells.com/jtrim.html http://www8.plala.or.jp/kusutaku/iview/

質問者

お礼 2012/06/08 09:38

回答頂きありがとうございます。いろいろと、画像の修正で認識率もかわってきたりするようですね。試してみます。

関連するQ&A

画像とテキストが混在したPDFファイルをOCR認識させる方法
　１ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。　この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。　スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。　できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。　なお、当方のOSはWindowsXPです。　以上よろしくお願いします。
- 締切済み
- その他(ソフトウェア)
ＰＤＦのＯＣＲ化でファイルサイズが小さくなる理由
すみません。　どなたか、回答よろしくお願いします。　印刷されたドキュメントをスキャンして、ＰＤＦファイルで保存した後、スキャンソフトにＯＣＲ化の機能が付いていたので、ＯＣＲ化すると、ファイルサイズがかなり小さくなりました。　これはなぜでしょうか。　最初は、画像データが文字コードに置き換えられたからだと思っていたのですが（ＯＣＲの原理を調べてもそのようなことが書いてあったので。）、そのファイルの文字をみても、文字の形（フォント等、かすれ具合等）はどうみてもＯＣＲ化される前の画像データ？と変わりません。　そうすると、ＯＣＲ化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。　でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。　そもそもＰＤＦファイルの仕組み（まったくの画像データではないようですね。）や、ＯＣＲの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。　よろしくお願いします。
- 締切済み
- その他（インターネット・Webサービス）
ＰＤＦのＯＣＲ化でファイルサイズが小さくなる理由
以下の質問に回答して下さった方、有り難うございました。何かの手違いで、お礼を言うおうとしたら、会員ＩＤまたはパスワードが違うといわれ、はねられてしまいます。なので、これを利用してお礼を言わせていただきます。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－暇なときにでもすみません。　どなたか、回答よろしくお願いします。　印刷されたドキュメントをスキャンして、ＰＤＦファイルで保存した後、スキャンソフトにＯＣＲ化の機能が付いていたので、ＯＣＲ化すると、ファイルサイズがかなり小さくなりました。　これはなぜでしょうか。　最初は、画像データが文字コードに置き換えられたからだと思っていたのですが（ＯＣＲの原理を調べてもそのようなことが書いてあったので。）、そのファイルの文字をみても、文字の形（フォント等、かすれ具合等）はどうみてもＯＣＲ化される前の画像データ？と変わりません。　そうすると、ＯＣＲ化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。　でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。　そもそもＰＤＦファイルの仕組み（まったくの画像データではないようですね。）や、ＯＣＲの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。　よろしくお願いします。
- 締切済み
- その他（インターネット・Webサービス）
いきなりPDFで…
いきなりPDF COMPLETEで『画像ファイルに文字認識（OCR）をかける』にチェックして画像ファイル（jpeg）を処理しようとしてもエラーになってしまいます。いきなりｃはできないのでしょうか？いきなりPDF COMPLETE以外のやり方で『画像ファイルに文字認識（OCR）をかける』PDF化ができる方法があるのならば、ぜひご教示下さい。よろしくお願い致します！ ※OKWAVEより補足：「ソースネクスト株式会社の製品・サービス」についての質問です。
- ベストアンサー
- その他(ソフトウェア)
【PDF】これはOCRなのでしょうか？
エプソンのPX-404A使用です。雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader　Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか？（PX-404Aの取説などではとくにそう説明されていませんが…） (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか？
- 締切済み
- フリーウェア・フリーソフト
英文のPDFファイルのOCRソフト
紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。もし、フリーソフトでなければ有料ソフトでもいいのですが、ｅＴｙｐｉｓｔとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。
- ベストアンサー
- フリーウェア・フリーソフト
ＰＤＦ（画像）→日本語ＯＣＲ
画像をＰＤＦにしたものを日本語ＯＣＲ認識するソフトはありますか。探せなかったので情報をお待ちします。
- ベストアンサー
- その他(ソフトウェア)
スキャナを使わずにＰＤＦファイルの文字認識はできないですか？
ＰＤＦファイルで画像として認識された文字を、文字として認識するには、「読んでココ」のようなＯＣＲソフトを使ってスキャナで認識させればいいということは知っています。しかしスキャナが壊れてしまったため、上記のような方法ができません。パソコンの中にある画像として認識しているＰＤＦファイルを何らかのソフトを使って、文字認識できないでしょうか？フリーウェアであれば言うことないですが、２，３万円なら買おうと思っています。スキャナはＡ３読込可能なものを買おうと思っていますが、高いのでもうしばらく待ちたいと考えています。どうかよろしくお願いします。
- ベストアンサー
- その他(ソフトウェア)
pdfのOCR化について
全くの初心者です。代行業者に本のスキャンサービスを頼み、オプションでOCRをつけてもらいました。できたファイルをソニーリーダー用に濃さや余白など最適化（これをしないとはっきりと読みにくい）し、ダウンロードしたらOCRが使えません。説明では、スキャン時にOCR化するので、それを最適化するとOCRが無効になるということでした。画像のみのpdf？ではこれにOCRをかけるには、どのようなソフトがありますか？有償で構いません。よろしくお願いいたします。
- 締切済み
- その他（インターネット・Webサービス）
PDFで読み込んだ画像データから文字列を検索
いつもお世話になっています。 6項目で30行程の表を読み込んだPDFデータが300枚ほどありますが、データが画像化されているのでデータを検索できず困っています。理想はエクセルVBAでPDFの画像化されたデータをテキストデータ化してエクセルに取り込みたいのですが、何か方法はないでしょうか？（こちらは若干VBAが使用できる程度のレベルです） 1枚毎の表と内容（アルファベットと数字のみ）はシンプルなのですが、 OCRソフトを使用しないと無理でしょうか？（OCRソフトは持っておらず、いろいろ誤表記もあるということなんで迷っています）もしくは画像化されたデータから文字列を検索する方法があれば教えていただきたいです。現在、windows7、エクセル2007、AcrobatReader　の環境です。よろしくお願いします。
- 締切済み
- その他MS Office製品

PDF内の画像文字からテキストを抽出できるOCR

PDF内の画像文字からテキストを抽出できるOCR