• ベストアンサー

PDFのデータをテキスト化すると文字化けしてしまいます・・

あけましておめでとうございます。 PDFの中のデータをテキストファイルに移行しようとしてコピペや、テキストとして保存しようとするのですが、すべての文字が、 ・・・・・・・・に文字化けしてしまいます。 なぜこうなるのか、まったく私にはわかりません。 どなたかお詳しい方、お助けください。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • violet430
  • ベストアンサー率36% (27472/75001)
回答No.2

>また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。 やってみましたが文字データは無い様ですね。1バイトの空白だけがコピーされます。 JustPDF変換もやってみましたが、文字データは変換されませんでした。 やさしくpdfOCRで文字認識をした結果、文字認識はされました。 どうも何か仕掛けがしてあるようですね。 Justpdf編集などのpdf編集ソフトを使ってデータを調べてみないと詳細は分からないと思います。

muki1682
質問者

お礼

ご回答ありがとうございました。 PDFのプロパティを見ても、私には解析する知恵を持ち合わせていませんので、わかりませんでした・・・ 残念です。 せっかくの元日のお休みのところ、時間を割いていただき本当にありがとうございました。

その他の回答 (2)

  • U-Seven
  • ベストアンサー率56% (557/986)
回答No.3

うーん、私も無理でした。 これは東洋経済社発行の会社四季報CD-ROMのデータですね。 簡単にコピー出来るようだと出版社としては困りますので、コピーや再配布を防止するために細工がされているようです。 一種の著作権保護と思って下さい。 もしかしたら文字化けではなくて、ダミーで初めから・・・・・・を透明テキストとして付けてあるのかもしれません。

muki1682
質問者

お礼

お察しの通りです。 確かにダミーを入れている可能性がありますね。 OCRで何とか認識しますのでせっせとそこから構築するほかないようです。 東洋経済の了見の狭さには辟易してしまいます。 競争相手が少ない弊害ですね。 テキスト保存する理由は、四季報程度の解析機能じゃ不十分だから自分で解析せざるを得ないからなのに、それを拒むなんて・・という思いはあります。 前よりはめんどくさくなりますがせっせとデータ作成いたします。 ありがとうございました。

  • violet430
  • ベストアンサー率36% (27472/75001)
回答No.1

全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。 しかし、現実にはそういうケースは珍しいですね。 何か他に原因が有るかもしれないです。 どのpdfファイルでも発生するのか? そのpdfファイルを他のパソコンでコピーアンドペーストした場合はどうなるのか? もう少し情報集めをお願いします。

muki1682
質問者

補足

ご回答ありがとうございます。 ほかのパソコンでもできないようです。 また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。 そのファイルをアップロードいたしますので、もしよろしければ見て頂けるとありがたく存じます。(ウイルスチェックはしております) http://stoc.as.wakwak.ne.jp/cgi-bin/d.cgi?c=SorGgom915&b=sample.pdf よろしくお願い申し上げます。

関連するQ&A

  • 【テキスト】文字化けの修正

    雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 しかしPDFのテキストをメモ帳にコピペし、ANSI、UDF-8、Unicode、Unicode big endianという形式のそれぞれのコードで保存し、次にワードに載せてみましたが、やはり文字化けは同じままですした… 他にどのような対処方法があるでしょうか?

  • PDFから文字化けしないテキスト変換方法は?

    スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか?ご教示よろしくお願いいたします。

  • 文字化けを正常にするには

    雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 しかしPDFのテキストをメモ帳にコピペし、ANSI、UDF-8、Unicode、Unicode big endianという形式のそれぞれのコードで保存し、次にワードに載せてみましたが、やはり文字化けは同じままでした… 他にどのような対処方法があるでしょうか?

  • 海外で日本語のテキストデータを文字化けせずに確実に開くには?

    初心者です。 日本からで、海外の外国人に”日本語のテキストデータ”を送り、 文字化けせずに確実に開くにはどうすれば良いのでしょうか? 条件は、テキストデータとしてコピペなど出来る事は必須で。 pdfだとコピペができないみたいなので困っています;;; お時間ある時にでも宜しくお願い致します。m(_ _)m

  • PDFファイルをテキスト形式で保存したら文字化けしてしまう

    ドイツ語で作成されたPDFファイルをテキスト形式で保存した所、エンコードされず文字化け(コード?)してしまいます。どなたか外国で作成されたPDFをテキスト形式で保存した場合の文字化け改善方法を教えてください。お願いします!!

  • PDFファイルのテキスト保存

    PDFからテキストに保存する際、通常ならコピペでできるのですが、↓のファイルの場合、文字化けしてしまいます。何かいい方法はありませんか? http://kokushi.job.affrc.go.jp/H15genkyou/H15syousai/13L.pdf

  • PDFの文字データを外す方法

    早速質問させてください。 文字、写真が記載されている書籍をPDFにしました。 そのPDFには書籍のテキストデータが入ってしまいました。 (OCRというのかな?PDFの文字をコピぺでテキスト貼付けが出来るようになっている) このPDFからテキストデータを抜く方法はないでしょうか。 ちなみに書籍は既に手元にございません。 50ページ~150ページくらいのPDFファイルが 60ファイルくらいあるので、 なるべく簡単な方法をご教授いただきたく存じます。 宜しくお願いいたします。

  • PDFのテキストコピーを文字化けさせるには

    PDFのテキストコピーを文字化けさせるには ネット上のPDFファイルにはセキュリティのためか 選択コピー後、ペーストをすると文字化けするように 細工をしてあるものがあります。 当方もセキュリティ対策のため同じようにこの 細工をしたいのですが、どのようにすればできるでしょうか? ご存知の方今したらお願いいたします。

  • テキストをコピぺすると文字化けが。

    OSXのテキストエディットからイラレ10にテキストのみをコピぺすると全て文字化けしてしまいます。 いろいろ頑張ってみたのですが・・・。 どなたか、ご存じの方、教えてください。

    • 締切済み
    • Mac
  • 【PDF】これはOCRなのでしょうか?

    エプソンのPX-404A使用です。 雑誌を取り込み、その際PDF化して保存したファイルをAdobe Reader Xで開いたテキスト部分をWordにコピペしたところ、文字化けしているところが多く見られます。 (1)PDF化したファイルからテキスト部分をコピペできるということは、保存の際、OCR化されているのでしょうか?(PX-404Aの取説などではとくにそう説明されていませんが…) (2)そのように文字化けしてしまうので、困っています。どのような対処方法があるでしょうか?

専門家に質問してみよう