• ベストアンサー

PDFから文字化けしないテキスト変換方法は?

スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか?ご教示よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • RandenSai
  • ベストアンサー率54% (305/561)
回答No.1

自炊だとテキスト情報はOCRで生成するわけですが、OCRの認識率が100%じゃない以上は文字化けなどはどうしても発生してしまいます。いまどきのOCRなら99%かそれ以上の認識率はあるでしょうけど、99%だって100文字読んだら1文字は間違える計算になり、まとまった量の文字を読ませれば結構な誤読が発生してしまうことに。 テキストをコピペする方法にかかわらず、元になるテキストに誤読があるわけだから、いかなる方法でコピペしようと文字化けは回避不可能です。気が付いた時点で「必殺・全手動修正」を発動させるしかありません。 出来上がりのファイルサイズを小さくするために、取り込みの時の解像度を下げすぎると誤読が増えやすいので、ここはあまりケチらない方が良いかとは思います。面倒だけど、見た目や認識率、ファイルサイズのバランスを取れる設定を試行錯誤する必要があるでしょう。

1dondon1
質問者

お礼

ご回答ありがとうございます。 そうですよねなかなか難しいですよね もう少しチャレンジしてみます。ありがとうございました

関連するQ&A

  • 【テキスト】文字化けの修正

    雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 しかしPDFのテキストをメモ帳にコピペし、ANSI、UDF-8、Unicode、Unicode big endianという形式のそれぞれのコードで保存し、次にワードに載せてみましたが、やはり文字化けは同じままですした… 他にどのような対処方法があるでしょうか?

  • PDFのデータをテキスト化すると文字化けしてしまいます・・

    あけましておめでとうございます。 PDFの中のデータをテキストファイルに移行しようとしてコピペや、テキストとして保存しようとするのですが、すべての文字が、 ・・・・・・・・に文字化けしてしまいます。 なぜこうなるのか、まったく私にはわかりません。 どなたかお詳しい方、お助けください。 よろしくお願いいたします。

  • 文字化けを正常にするには

    雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 しかしPDFのテキストをメモ帳にコピペし、ANSI、UDF-8、Unicode、Unicode big endianという形式のそれぞれのコードで保存し、次にワードに載せてみましたが、やはり文字化けは同じままでした… 他にどのような対処方法があるでしょうか?

  • PDFをテキストデータに直ちに変換できなくする方法

    ワードで入力した文書をPDFに変換した場合、コピペまたはPDF→ワードへの変換により直ちにテキストデータに変換できますよね。 ワードで入力した文書をPDFに変換した後に、その「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」があれば、お教え下さい。 なお、いったん紙にプリントアウトしてからスキャンしてPDFにする方法も、「PDFから、ワードなどのテキストデータに直ちに変換できないようにする方法」 の一つです。 この場合、「スキャンしたPDF」は、OCRソフトによりテキストデータにできますが、OCRソフトを介すること、又はグーグルドキユメントなどのwebサービスを介することが必要なので、「直ちに変換できる」とは言えません。 このような、いったん紙にしてスキャンしてPDFにするという方法ではない、それ以外の、「PDFを、ワードなどのテキストデータに直ちに変換できないようにする方法」の質問です。

  • PDFファイルをテキスト形式で保存したら文字化けしてしまう

    ドイツ語で作成されたPDFファイルをテキスト形式で保存した所、エンコードされず文字化け(コード?)してしまいます。どなたか外国で作成されたPDFをテキスト形式で保存した場合の文字化け改善方法を教えてください。お願いします!!

  • PDF をワードやエクセルに変換すると文字化けする

    よろしくお願い致します。 PDF をワードやエクセルに変換すると文字化けするのは何故でしょうか? 卒業文集の文章を、ブラザーの複合機でスキャンしpdfにしました。 それを変換ソフトを使って(変換中ocrと表示されます)ワードやエクセルにすると 文字化けしてしまいます。 どうにか文字化けしないようにするにはどうしたら良いでしょうか? ご教授下さいませ。

  • PDFの文字データを外す方法

    早速質問させてください。 文字、写真が記載されている書籍をPDFにしました。 そのPDFには書籍のテキストデータが入ってしまいました。 (OCRというのかな?PDFの文字をコピぺでテキスト貼付けが出来るようになっている) このPDFからテキストデータを抜く方法はないでしょうか。 ちなみに書籍は既に手元にございません。 50ページ~150ページくらいのPDFファイルが 60ファイルくらいあるので、 なるべく簡単な方法をご教授いただきたく存じます。 宜しくお願いいたします。

  • 【PDF】これはOCRなのでしょうか?

    エプソンのPX-404A使用です。 雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか?(PX-404Aの取説などではとくにそう説明されていませんが…) (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか?

  • PDF内の画像文字からテキストを抽出できるOCR

    現在、PDFファイルで英文を翻訳機にかけたいと思っているのですが、20~30年前の部品のデータシートで何かスキャナーからこのデータシート資料を取り込んだらしく、文字が画像としてしか認識されずテキストをコピペすることができないのです。 文字はすべてアルファベットなどで構成されています。多少スキャン時にページが傾いている感じがあるくらいでOCRソフトのRealReader Lite 7.0でjpegファイルから”スマート認識”でとりだそうとしたのですが、 すこし誤変換が多いような気がしました。 このようなすべて画像で構成されているPDFファイルから文字のとりだしやすいOCRソフトなどご存じの方いらっしゃいませんでしょうか? ぜひ、教えて頂きますよう、お願い致します。

  • PDFのテキストコピーを文字化けさせるには

    PDFのテキストコピーを文字化けさせるには ネット上のPDFファイルにはセキュリティのためか 選択コピー後、ペーストをすると文字化けするように 細工をしてあるものがあります。 当方もセキュリティ対策のため同じようにこの 細工をしたいのですが、どのようにすればできるでしょうか? ご存知の方今したらお願いいたします。

専門家に質問してみよう