- 締切済み
パワーポイントからPDFにするとOCRが化ける
パワーポイントの資料をOCRしたPDFに変換したいのですが、その方法としてOffce2007パワーポイントから印刷出力する時にPDFにしてみました。 すると、OCRしたテキストは埋め込まれているのですが、日本語が文字化けしているようで、まったく役に立ちません。。。 何かうまい解決方法をご存知の方がいらっしゃいましたら、ご教示いただけませんか? どうぞ宜しくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- koko88okok
- ベストアンサー率58% (3839/6543)
回答No.2
> OCRをかけたい理由は、埋め込まれたテキストを使って膨大な書類を全文検索したいからです。 であれば、そのPPTファイルを「名前を付けて保存」で、「ファイルの種類」を「アウトライン/リッチテキスト(*.rtf)」で保存して、Wordかワードパッドなどで開けば、テキストだけが表示されます。 お試し下さい。
- e_16
- ベストアンサー率19% (847/4388)
回答No.1
OCRソフトの識字率は85%です、それ以上の物は無い だから解決法は無い なんで、テキストをOCR(テキスト化)する必要があるんですか?
質問者
補足
回答をありがとうございます。 OCRをかけたい理由は、埋め込まれたテキストを使って膨大な書類を全文検索したいからです。 ご指摘のように、たしかに精度はあると思いますので、若干の誤認は考慮しています。 ですが、試してみたデータは英数字は問題無いのですが、日本語はすべて「%+#=?」という感じで化けてしまっていて、誤認のレベルではないのです。 なにか設定の問題でしょうか。。。
補足
ありがとうございます。 目的について説明が足りなかったようで、申し訳ありません。 目的は、ローカルPCに保存されたすべての文書ファイルに対して、例えばWindowsデスクトップサーチなどで検索するときに、ファイル名やタグとかではなくて、全文検索してヒットする語句や文章を探したいのです。 もちろん、ワードやパワーポイントやテキストファイルならば苦労はないのですが、運用の都合でそれらはPDFに変換しておきたく、PDFではOCRしておかないと前述の全文検索ができない訳でして。。。