• ベストアンサー

pdfファイルから抽出できるテキストと抽出できないテキスト

Acrobat6.0Prof.を用い、テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと、超拡大表示(例:6400倍)してもエッジがギザギザにならず鮮明に表示されるからで、これは明らかにアウトラインフォントと思われます。 このような「テキスト」を抽出する方法について知りたい。

質問者が選んだベストアンサー

  • ベストアンサー
  • otoutann
  • ベストアンサー率26% (248/933)
回答No.7

通常、フォントのデータは文字コードだけ記されています。 それをシステムに同じフォントがあればその文字コードを 元にして表示します。 同じフォントがシステムにない場合、表示できませんので アプリケーション側で違うフォントに置き換えるようなア ラートが出て違うフォントで表示することになります。 その場合、レイアウトが崩れるので、PDFファイルにする 時にフォントの埋め込みというのをしてPDFファイルを作成 すれば、相手先のシステムにフォントが無くても同じレイ アウトで表示する事ができます。 ただし、フォントによっては埋め込む事を許可しないフォ ントもありますので、その場合、フォントをアウトライン 化して絵として貼り付けます。この絵はビットマップでは ありませんので、拡大してもギザギザにはなりません。 (ドロー系とかベクトル系の絵です)

ubonoti01
質問者

お礼

何回も有り難うございます。 当該pdfファイルは、アドビのInDesignを使ったらしく、仰せのとおりpdf化する前にテキストをアウトライン化している模様です。印刷屋にテキストファイルを求めるか、OCR原理でテキスト化するソフトを利用するか、考えています。

その他の回答 (6)

  • otoutann
  • ベストアンサー率26% (248/933)
回答No.6

同じ文章中でと書かれていなかったので、1の回答となりました。 そのテキストがアウトライン化(文字を絵にするということです) してあるために選択できないと思われます。 (埋め込みができないフォントのため) 結果的に編集できないのは同じですが。

ubonoti01
質問者

お礼

再三有り難うございます。 小生が述べた「アウトラインフォント」とは、 http://e-words.jp/w/E382A2E382A6E38388E383A9E382A4E383B3E38395E382A9E383B3E38388.html に定義されたフォントのことで、現在のフォントは殆どが「アウトラインフォント」と思います。 いずれにしても6400%に拡大してもギザギザにならないのですから、テキストと思いますが・・・・・。

  • usatan2
  • ベストアンサー率37% (163/436)
回答No.5

>このような「テキスト」を抽出する方法について知りたい。 No.1さんと同じですが、「作者がコピー禁止としたためテキスト抽出できない」ためと考えられるので、「作者の意図を尊重して」抽出はあきらめるのがマナーと思います。 意に添えない回答で、ごめんなさい。

ubonoti01
質問者

お礼

有り難うございます。 ANo.1さんへのお礼を参考願います。

  • cockerel
  • ベストアンサー率46% (253/548)
回答No.4

>テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。 実際に作れるか否かを実験してみました。 >選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと・・・ このことから、最初にEPSを疑ったのですが、EPSテキストはPDFテキストとして変換されてしまうため、この事例に該当しませんでした。画像化されたテキストのEPSについては、当然のことながらテキストとして編集できませんが、CTRL+Aで選択できる/できないとは別次元の話になるようです。 次に、セキュリティ関連を疑ってみました。文書全体がパスワード保護されていれば、最初にパスワードの入力が求められるので気付きます。ところが、「権限」に設定を加えていると、その「権限」にアクセスしない限りパスワードの入力が求められません。たとえば、変更を許可しないにしておくと、CTRL+Aでの選択が無効になりました(すべてを選択解除は有効)。このほかにもいくつかの設定方法があると思いますがご参考まで。

ubonoti01
質問者

お礼

いろいろと実験をいただき有り難うございます。 ANo.1さんへのお礼を参考願います。なお、当該pdfファイルは、印刷屋が印刷物と一緒に納入したファイルで、使ったDTPソフトが何か、明日聞いてみようと思っています。

  • mokonoko
  • ベストアンサー率33% (969/2859)
回答No.3

PDF形式ファイルは文字情報、画像情報、レイアウト情報等で構成されています。 テキスト選択できるものは文字情報としてそのPDFファイル自身が認識しています。 それが出来ない文字は文字情報としてではなく、画像情報としてPDFファイルが処理しているため、直接テキスト文字として拾い出すことは出来ません。 カメラで撮影した新聞の文字はあくまで画像というのと同じです。

ubonoti01
質問者

お礼

有り難うございます。 最大(6400%)に拡大しても輪郭がシャープに描画される画像化された文字が存在するのでしょうか?

noname#113190
noname#113190
回答No.2

「TouchUpテキストツール」でも選択できませんか。 私もPDFのフォントには苦労しており http://oshiete1.goo.ne.jp/kotaeru.php3?q=1924149 こちらで質問させていただき、いろいろ試しているところです。 参考に、私の質問も読んでいただくと、何かピントになるかも知れません。

ubonoti01
質問者

お礼

有り難うございます。 [ツール]→[高度な編集]→[TouchUpテキストツール(U)]を設定しても選択できません。

  • otoutann
  • ベストアンサー率26% (248/933)
回答No.1

印刷の許可とかテキストコピーの許可とかはpdfファイルを書き出す時に 設定されるものですので、作成者にパスワードを聞かないと編集できない と思います。 印刷可能なら、いきなりPDFとかで読み込めますが(OCRと同じ原理で)。

ubonoti01
質問者

お礼

有り難うございます。 もちろん[文書の印刷および編集とセキュリティ設定にパスワードが必要(U)]にチェックは入っていません。印刷は平常にできますし、ページの分割などもできます。 そもそも、ご回答の内容は、同一のファイル(ページ)のなかに《ctrl+Aで選択できるテキストと選択できないテキストがある》ことと矛盾していませんか?

関連するQ&A

専門家に質問してみよう