締切済み

画像とテキストが混在したPDFファイルをOCR認識させる方法

2007/12/08 10:47

　１ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。　この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。　スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。　できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。　なお、当方のOSはWindowsXPです。　以上よろしくお願いします。

makuro786
お礼率41% (5/12)

その他(ソフトウェア)
回答数2
ありがとう数5

みんなの回答 （2）
専門家の回答

みんなの回答

chieffish
ベストアンサー率44% (1149/2554)

2007/12/09 00:47 回答No.2

純粋なテキスト部分を削除するとか・・・・

質問者

お礼 2007/12/09 20:40

回答ありがとうございました。ただ、「テキスト部分を削除」は最終手段と思っています。現在沢山あるPDFのレイアウトを崩さずに、そのままの状態で、画像部分のテキスト認識がができないかと思っています。回答のようにして出来るとは思いますが、加工にかなりの工数がかかり現実的ではないと思います。

mitarashi
ベストアンサー率59% (574/965)

2007/12/08 20:22 回答No.1

スキャナーの付録をアップグレードした、e.Typist v11というOCRソフトを所有しておりますが、これはテキスト混じりのpdfファイルであってもテキスト抽出してくれず、すべてグラフィックとして文字認識しますので、ご要求の事ができます。但し、Adobeに遠慮してか、OCR時の解像度は低めで行います(^^;)。下記は、貴方の質問を画面キャプチャーした画像と、テキストをワードに貼り付け、pdf出力後、OCRの実験を行った結果です。実際にはスペースがそこかしこに入りますが、削除してあります。 ●画面キャプチャー部分「べ一ジの中にテキストと画像が混在する賄rd文書をAomkmt8pmでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールからrQCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するいbdファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 ●テキストで貼り付けた部分 1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。以上、ご参考まで。まともに買うと高価ですが．．．

質問者

お礼 2007/12/09 21:04

　回答ありがとうございました。　OCRソフトは純粋に画像のみかとあきらめかけていましたが、このようなソフトがあることに驚くとともに、実験までしていただいて、大変感謝しています。　結果を見ると画像キャプチャーの認識では誤認識があるものの、テキスト貼り付け部分は問題はないようです。このレベルなら、多分「検索」でも大きな問題は生じないのではと思います。　さっそくe.Typist v11をWebで調べてみましたが、すでにv11はなく、v12になっているようです。体験版が無料でダウンロードできるので、明日にでも試してみようかと思います。ただ正式版は確かに「高価」ですね・・・・。