- ベストアンサー
【PDF】テキスト化できない…
以前にも同じ質問をしていますが、どうにも解決しないので改めて…。 すみません。 とあるPDFの文字をコピーして、Wordなどに貼り付けると文字化けしてしまいます。 試しにここに貼ってみると、「」のように表示されます。 ちなみに、下の画像は検索窓に貼ってみたところです。 ただし、そのまま検索をかけると正しく検索されるため、ダミーテキストではないはずです。 ---------------------- これまでの回答で、 ・PDFの制限 ・フォントの問題 の可能性との指摘をいただきました。 PDFについて、 Adobe Acrobatの「セキュリティプロパティの表示」によると全項目「許可」になっています。 (Readerでは一部「許可しない」になっていますが) フォントについて、 同プロパティの別のタブで「MS-Mincho」などと表示されています。 半ば諦めているので、せめて原因だけでも教えていただけるとスッキリします。 よろしくお願いいたします。
- みんなの回答 (11)
- 専門家の回答
質問者が選んだベストアンサー
こんにちは #4です。 確かによく見ると変換されたファイルに若干誤変換のような ところがありました(一とか)。 わたしの場合TIFではうまく変換できず、jpegにした画像から のテキスト変換と最初のPDFから直接変換した場合と比較しても、 どちらにも誤変換がありました。 何らかのテキストは埋め込まれているが、透明テキストのような 感じかもです。(あまり詳しくないので憶測です) 「JUST PDFデータ変換」では、OCR機能によりあたかも変換できた と言うことになるかもしれません。 なお正規版はupddateがありますが、体験版はよほどのことが なければ無いでしょうから、全く同じでは無いと思います。 では。
その他の回答 (10)
- hatiboo
- ベストアンサー率42% (257/602)
よかったですね(^^ゞ 私も少しスキルあがりました dodemoiiさんが突破口ですね 評価してさしあげてください
お礼
今回は私もいろいろ勉強しました。 hatibooさんにははじめからお世話になりました。 他人事にもかかわらず、いろいろお試しいただきまして恐縮です。 どうもありがとうございました!
- hatiboo
- ベストアンサー率42% (257/602)
連投ですが・・失礼(^^ゞ XPで体験版入れてテストしてみました・ 結果はxでもあり、○でもあります。 1、PDFファイル読み込みだと 全く文字は表示できませんでした。 2、上記、PDFを、Adobe Acrobat 8 Professionalから画像出力でTIFFファイル作成し 、このTIFFから変換すると、文字が表示できました。 ざっとしか見てませんが、誤変換はなそうでした。 この2の方法は、OCR機能だと思います。 他のAdobe Acrobatにも画像出力があると思うので、この方法がいいかもしれません
お礼
連投歓迎です。感謝します。 早速2の方法を試してみました! 確かに、これだとうまく変換できることが納得できます。 #4さんもそうだったのでしょうか。 しかしOCRも精度が上がりましたね。 漢数字の「一」をハイフンやマイナスと混同している箇所はありますが、 ほぼ問題ない水準です。 ありがとうございます。
- hatiboo
- ベストアンサー率42% (257/602)
こんにちは #7さんと同じくサブマシンのvistaにJUSTPDFデータ変換体験版を いれてみましたが、白紙でした 試しにXPに入れてみます
- dodemoii
- ベストアンサー率59% (769/1282)
こんにちは #4です。 VistaにJUSTPDFデータ変換体験版を入れてやって見ましたが おっしゃる通り、白紙になってしまいました。 体験版ではPDFのプレビューが全く表示されていない(白紙)ので 認識ができていないようにもみえます。 XPの正規版では、文字らしきものが出る(図参照)ので、 体験版と正規版による違いかもしれません。 正規版にすれば改善する可能性はありますが、確認していません。 また連絡を取り合うなどの手段はこのQ&Aでは規約上無理ですね。 お役に立てず、無駄なインストール等に終わり、解決に至らず すみませんでした。 # JUSTPDFの正規版を購入してサポートを受ける方法があると # 思いますが、うまく行くかは保証もできないです。 では。
お礼
ありがとうございます。 確かに、プレビュー画面が白紙の状態です。 JUST PDF[データ変換]のページに「機能制限はありません。製品版と同等の機能をご利用いただけます。」 とあるので、製品版にしても日数カウントが外れるだけなのではないかと思っています。 今回の件は、一般的な問題ではなく固有の問題だったので、OS以外にもなんらかの相性があるのだと思います。 それがなにかわかりませんが、そのうち解決しそうな気がしています。 わざわざいろいろお試しいただきましてありがとうございました。
- dodemoii
- ベストアンサー率59% (769/1282)
こんにちは #4です。 > Adobe Readerの検索窓に貼り付けたときに文字化けしますでしょうか? はい。文字化けします。 手持ちの他のPDF-XChange ViewerやBrava! Readerも文字化け しましたのでそういうものなのだと思ったのですが、 「テキスト変換」と言うので試しに「JUSTPDFデータ変換」を 使ったら、いとも簡単に変換できたので、ご回答しました。 現在はXP環境なので、時間が取れればVistaでも試行しても良い ですが、既にXPでも試されたとのことなのでお役に立てないかも しれないです。他の方でも、そういう事例があればまた 何か対応方法があるかもしれません。 ちなみにweb上でのPDF→TEXTで何かうまく行く所が無いものかと ちょっとやって見ましたが、文字化けでうまく行かなかったです。 (その他フリーのPDF→TEXT変換ツールもダメでした) では。
お礼
迅速なご回答に心から感謝します。 また、いろいろお試しいただきありがとうございます。 PDFファイルを右クリック→JUST PDF[データ変換]→テキスト文書に変換 の手順をしたところ、 「テキストファイルを含まないファイルです。OCRエンジンを使って変換します。テキストが正しく変換されない場合があります。」 と出てしまいます。テキストを認識すればきっと正しく変換してくれるのでしょうが…。 ちなみに、他のPDFファイルはJUST PDF[データ変換]にて問題なく変換できました。 変換済みのファイルをください、と言いたいところですが規約違反になってしまうようですね。 んー…どうすればいいのでしょう。
- dodemoii
- ベストアンサー率59% (769/1282)
こんにちは #4です。 おかしいですね。何も特別なことはしていないですけど、 JUSTPDFデータ変換を立ち上げて、sample.pdfを ドラッグ&ドロップするだけなのですけど (テキストに変換した画像を添付しておきます) そういえばOSは?
お礼
わざわざ画像の添付までいただき、ありがとうございます。 確かに問題なくテキスト化できているようですねー。 …となると、元のファイルは壊れてないことになりますね。 OSはVistaです。ほかのVistaのパソコンや、XPのパソコンでも試してみたのですが、同じ結果でした。 dodemoii様が一番答えに近い所にいらっしゃるようです。 誠に申し訳ありませんが、解決までお力添えいただけると幸いです。 dodemoiiは、Adobe Readerの検索窓に貼り付けたときに文字化けしますでしょうか? (質問の添付画像のように) ここで文字化けを起こさないようなら、フォントの問題が考えられます。 文字化けを起こしたなら、それ以外の何らかの要因ということになります。 お手数ですが、お試しいただけませんでしょうか。
- dodemoii
- ベストアンサー率59% (769/1282)
こんにちは ちょっと確認しただけですけどご指摘のsample.pfdを 「JUSTPDFデータ変換」で一太郎に変換してみましたら 問題なく文字化けもありませんでした。 (もちろん、エクセルやテキストへの変換も可能) 何かやり方があると思いますが...ご参考まで 体験版もあるようなので確認してみては http://www.justsystems.com/jp/products/justpdf/download.html では。
お礼
ご回答ありがとうございます。 教えていただいたソフトを早速試してみました。 しかし、文字化けどころかテキストそのものが全く表示されませんでした…。 ついでにATOKの体験版も入れてみましたが、やはりだめでした。 dodemoii様はなにか特殊なフォントを入れておられるのでしょうか?
- hatiboo
- ベストアンサー率42% (257/602)
#2さんの「Foxit Reader」もダメみたいですね JUST SYSTEMの「Justsystem PDF Creator」・・ダメ Adobe Acrobat 8 Professional・・ダメ Adobe Reader 8・・ダメ Adobe Reader 9・・ダメ そんな結果です・・
お礼
わざわざ試していただき、ありがとうございます。 私もやってみましたがやはりダメなようです。 もとファイルが壊れていると考え、作成元に確認をしていますが、 いまのところ返事はありません…
- jklm3456
- ベストアンサー率35% (5/14)
PDFってMS Wordから直接エクスポートできるんですって。 では、本題に移ります。 原因と推測されるプログラム:Adobe Acrobat 原因とされる行動:なし つまり、原因はAdobe Acrobatなわけです。 純正品ではないものを使ってもいい場合は、「Foxit Reader」をお勧めします。 (http://www.forest.impress.co.jp/lib/offc/print/docviewer/foxitreader.html より日本語ナビゲートダウンロード) 初めは英語表記ですが、「Language」より「Japanese」を選択すると、日本語表記になります。 文字選択は、「T」のアイコンをクリックすると、実行できます。
お礼
ありがとうございます。 >PDFってMS Wordから直接エクスポートできるんですって。 あれ、便利ですよね。たまにですが、とても助かります。 なるほど…Adobeですか。 テキスト化して、Excelに貼って整理できればいいのでソフトはなんでもOKです! このパソコンにはインストールできないので、帰宅したらさっそく試してみますね!
- hatiboo
- ベストアンサー率42% (257/602)
回答になっていませんが・・ 文書プロパティを拝見しました adobeのacrobatで作成されていません pdfpdf.comとなっています で検索すると↓のサイトに行きました http://www.pdfpdf.com/jp.html 「デフォルトで日本語非対応。日本語フォントをembbededにしてもよく化ける。」と書いてあります つまり、PDFの作り手側の問題みたいです
お礼
ありがとうございます! 確かに、そう書いていますね。まったく気づきませんでした。 ようやく原因がはっきりしました!かなりスッキリしました!
補足
この場を借りてすみません。 調べてみると、このサイトはファイルなどへの直接リンク禁止のようですね…。知りませんでした。 ファイルをご覧いただけたということは、まだリンクが残っていたんでしょうか。 悪いのは私ですが、質問文を一部削除するなら知らせてほしいものです。 直接ではないリンクを改めて貼っておきます。 http://www.geocities.jp/tanasho08/sample.htm これから回答してくださる方にご覧いただきたく思います。 リンク先には今回問題になっているPDFのファイルが置いてあります。 回答を締め切るまで置いておくつもりですので、よろしくお願いします。
お礼
メーカーに聞いたところ、やはりアップデートするといいようです。 メーカーが検証のためにテキスト化したファイルを送ってくれました。 そのファイルもやはり漢数字の「一」に誤変換が見られました。 dodemoiiさんご指摘の通り、OCR機能なんだろうと思われます。 しかしながら、スキャンするより格段に精度が高く満足しています。 お付き合いいただきましてありがとうございました!