- 締切済み
画像とテキストが混在したPDFファイルをOCR認識させる方法
1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。 この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。 スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。 なお、当方のOSはWindowsXPです。 以上よろしくお願いします。
- makuro786
- お礼率41% (5/12)
- その他(ソフトウェア)
- 回答数2
- ありがとう数5
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- chieffish
- ベストアンサー率44% (1149/2554)
純粋なテキスト部分を削除するとか・・・・
- mitarashi
- ベストアンサー率59% (574/965)
スキャナーの付録をアップグレードした、e.Typist v11というOCRソフトを所有しておりますが、これはテキスト混じりのpdfファイルであってもテキスト抽出してくれず、すべてグラフィックとして文字認識しますので、ご要求の事ができます。但し、Adobeに遠慮してか、OCR時の解像度は低めで行います(^^;)。下記は、貴方の質問を画面キャプチャーした画像と、テキストをワードに貼り付け、pdf出力後、OCRの実験を行った結果です。実際にはスペースがそこかしこに入りますが、削除してあります。 ●画面キャプチャー部分 「べ一ジの中にテキストと画像が混在する賄rd文書をAomkmt8pmでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールからrQCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するいbdファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 ●テキストで貼り付けた部分 1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」 を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。 スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 以上、ご参考まで。 まともに買うと高価ですが...
お礼
回答ありがとうございました。 OCRソフトは純粋に画像のみかとあきらめかけていましたが、このようなソフトがあることに驚くとともに、実験までしていただいて、大変感謝しています。 結果を見ると画像キャプチャーの認識では誤認識があるものの、テキスト貼り付け部分は問題はないようです。このレベルなら、多分「検索」でも大きな問題は生じないのではと思います。 さっそくe.Typist v11をWebで調べてみましたが、すでにv11はなく、v12になっているようです。 体験版が無料でダウンロードできるので、明日にでも試してみようかと思います。 ただ正式版は確かに「高価」ですね・・・・。
関連するQ&A
- PDF内の画像文字からテキストを抽出できるOCR
現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。
- ベストアンサー
- オフィス系ソフト
- PDFをテキストデータに直ちに変換できなくする方法
ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。
- ベストアンサー
- その他Adobe製品
- OCRが不完全な英文PDFを再度OCR認識させたい
おそらく2000年ごろに作成されたであろう英文のPDFファイルがいくつもあります。元々のテキストデータがあったのではなく、タイプされた文書をOCRスキャンしてPDFにしたのだと思います。印刷して読む分には何の問題もないのですが、テキストファイルをハイライトして抜き出したいときに、文字と文字のスペースや単語間のスペースが広かったりしたため、テキストが例えばWindows is an OSなどとあったときW i n d o w s i s a n O S.と認識されます。 再度OCRスキャンして英単語を英単語として認識させたいのですが、一番簡単にできる方法を教えてください。Microsoft LensというアプリをiPhoneで使ってみましたが、それほど満足できませんでした。最新のiPhoneだとかなり精度が上がっているだろうから試す価値があると思いやってみましたが… 1.Windows上のAdobe Acrobat proで試したが、もともとOCR処理がされているため、再度OCRをかけてくれなかった?2年前のことですが断念しました。 2.PDFをデータファイルとして(再度写真を撮るのではなく)再びOCR処理をしてくれるソフトはあるか? 3.2をMicrosoft Lensでできないか?Windowsでも使えるようですがPDFを読み込むような感じではありませんでした。SnippingToolで画面上の範囲を選択することができればいいですね。 4.iPhoneからMicrosoft Lens を使ってWord化してみたが、実はWordアプリがiPhoneにインストールされていなければWord化されない?Wordにしてあれば自動的にOneDriveにアップロードされるとありましたが、されていません。 使用するソフトはなんでも構いませんが無料もしくは安価でお願いします。PDFはすべて英文です。よろしくお願いいたします。
- ベストアンサー
- iPhone・iPad・iOS
- 英文のPDFファイルのOCRソフト
紙の英文文書をスキャナーで取り込んだ、PDF形式の画像ファイルをOCRソフトで英文の文字認識をさせて、word形式の英文文字ファイルに変換したいのですが、英文の文字認識エンジンを搭載したOCRソフトを紹介してください。 もし、フリーソフトでなければ有料ソフトでもいいのですが、 eTypistとかいろんなメーカーから販売されていて、どの製品が英文の認識率が高いかよくわかりません。どの製品が良いか教えてください。
- ベストアンサー
- フリーウェア・フリーソフト
- PDFファイルからテキストへ
皆様こんにちは。パソコン初心者の者です。 スキャナーでイメージとして読み込んだPDFファイルを、テキストに変換する事は出来るのでしょうか?出来るのであれば、どうすれば良いのでしょうか?そういうことが出来るソフトはあるのでしょうか? ワードで作成した文書等から、PDFに変換した文書であれば、テキストに変換することは出来るようなのですが。
- ベストアンサー
- その他(ソフトウェア)
- OCRソフト「読んdeココ」「やさしくPDF OCR」の認識率
OCRソフト「読んdeココ Ver10」または「やさしくPDF OCR」を持っている方、ぜひ教えてください。 テキストを取り出せないPDFを、スキャナを使わずにテキスト化したいのです。 「読んdeココ Ver10」のクリップOCR機能や、「やさしくPDF OCR」の認識率は、どんなもんでしょうか。 画像から直接読むと精度が落ちたりするのか、それともスキャナでも画像化するのだから同じことなのか? 経験のある方、認識率についての感想をお聞かせください!
- 締切済み
- その他(ソフトウェア)
- PDFファイルから Word 2003 のファイルへの変換の仕方を教え
PDFファイルから Word 2003 のファイルへの変換の仕方を教えてください。 Adobe Acrobat 7.0 Standard で読み込んだPDFファイルを「OCRを使用してテキストとして認識」させた後、「名前を付けて保存」「Word文書*.doc」を選択してやってみたのですが、文字化けしたり、一部が縦書きになるなど、もうむちゃくちゃな文書になってしまいます。 どうすれば、うまく変換できるのでしょうか。教えてください。 また、Adobe Acrobat 7.0 Standard で開いたPDFファイルを編集することはできないのでしょうか。 合わせてそれも教えてください。お願いします。
- 締切済み
- オフィス系ソフト
- pdfファイルをテキストファイルに変換できるソフト
インターネットなどでダウンロードしたpdfファイルで、 あるテキスト部分をドラックしてコピーして、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 pdfファイル上では、そのテキスト部分はドラックすると、ドラックした部分が黒色に変わるので、そのテキスト部分は画像化はされていないと思うのですが、ワードファイルやテキストファイルにペーストしても、そのコピーされません。 なにかセキュリティ設定でもされているかもしれません。 そこで、このようなPDFファイルをワードファイルやテキストファイルに変換できるフリーソフトを教えてください。
- ベストアンサー
- フリーウェア・フリーソフト
- PDFファイルをWordかExcelに変換したい。
PDFファイル中の文字が、なぜか少しにじんで、文字として読めるのですが、テキストとして認識しません。このような状態のPDFファイルをWordに変換するOCRソフトを教えて下さい。できたらフリーがいいですが、なければシェアウェアでもいいです。
- ベストアンサー
- その他([技術者向] コンピューター)
- WORD文書をテキストも含めて画像データとしてPDF化したい
WORD文書をテキスト部分も含めて画像データとしてPDF化したいです。 携帯電話のPDFビュアーの機能が低く表などがうまく表示できないため、画像であればそのまま表示されるので、中身が画像データのPDFを作成したいのです。 PrimoPDFを試してみましたが、そういった設定はなく、テキスト部分はやはりテキストとしてしかPDF化できませんでした。 できれば、フリーソフトで手間なく(PrimoPDFのようにWordの印刷でそのまま出力される等)できればいいのですが。。。
- ベストアンサー
- フリーウェア・フリーソフト
お礼
回答ありがとうございました。 ただ、「テキスト部分を削除」は最終手段と思っています。現在沢山あるPDFのレイアウトを崩さずに、そのままの状態で、画像部分のテキスト認識がができないかと思っています。回答のようにして出来るとは思いますが、加工にかなりの工数がかかり現実的ではないと思います。