- ベストアンサー
pdfファイルから抽出できるテキストと抽出できないテキスト
Acrobat6.0Prof.を用い、テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと、超拡大表示(例:6400倍)してもエッジがギザギザにならず鮮明に表示されるからで、これは明らかにアウトラインフォントと思われます。 このような「テキスト」を抽出する方法について知りたい。
- みんなの回答 (7)
- 専門家の回答
質問者が選んだベストアンサー
通常、フォントのデータは文字コードだけ記されています。 それをシステムに同じフォントがあればその文字コードを 元にして表示します。 同じフォントがシステムにない場合、表示できませんので アプリケーション側で違うフォントに置き換えるようなア ラートが出て違うフォントで表示することになります。 その場合、レイアウトが崩れるので、PDFファイルにする 時にフォントの埋め込みというのをしてPDFファイルを作成 すれば、相手先のシステムにフォントが無くても同じレイ アウトで表示する事ができます。 ただし、フォントによっては埋め込む事を許可しないフォ ントもありますので、その場合、フォントをアウトライン 化して絵として貼り付けます。この絵はビットマップでは ありませんので、拡大してもギザギザにはなりません。 (ドロー系とかベクトル系の絵です)
その他の回答 (6)
- otoutann
- ベストアンサー率26% (248/933)
同じ文章中でと書かれていなかったので、1の回答となりました。 そのテキストがアウトライン化(文字を絵にするということです) してあるために選択できないと思われます。 (埋め込みができないフォントのため) 結果的に編集できないのは同じですが。
お礼
再三有り難うございます。 小生が述べた「アウトラインフォント」とは、 http://e-words.jp/w/E382A2E382A6E38388E383A9E382A4E383B3E38395E382A9E383B3E38388.html に定義されたフォントのことで、現在のフォントは殆どが「アウトラインフォント」と思います。 いずれにしても6400%に拡大してもギザギザにならないのですから、テキストと思いますが・・・・・。
- usatan2
- ベストアンサー率37% (163/436)
>このような「テキスト」を抽出する方法について知りたい。 No.1さんと同じですが、「作者がコピー禁止としたためテキスト抽出できない」ためと考えられるので、「作者の意図を尊重して」抽出はあきらめるのがマナーと思います。 意に添えない回答で、ごめんなさい。
お礼
有り難うございます。 ANo.1さんへのお礼を参考願います。
- cockerel
- ベストアンサー率46% (253/548)
>テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。 実際に作れるか否かを実験してみました。 >選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと・・・ このことから、最初にEPSを疑ったのですが、EPSテキストはPDFテキストとして変換されてしまうため、この事例に該当しませんでした。画像化されたテキストのEPSについては、当然のことながらテキストとして編集できませんが、CTRL+Aで選択できる/できないとは別次元の話になるようです。 次に、セキュリティ関連を疑ってみました。文書全体がパスワード保護されていれば、最初にパスワードの入力が求められるので気付きます。ところが、「権限」に設定を加えていると、その「権限」にアクセスしない限りパスワードの入力が求められません。たとえば、変更を許可しないにしておくと、CTRL+Aでの選択が無効になりました(すべてを選択解除は有効)。このほかにもいくつかの設定方法があると思いますがご参考まで。
お礼
いろいろと実験をいただき有り難うございます。 ANo.1さんへのお礼を参考願います。なお、当該pdfファイルは、印刷屋が印刷物と一緒に納入したファイルで、使ったDTPソフトが何か、明日聞いてみようと思っています。
- mokonoko
- ベストアンサー率33% (969/2859)
PDF形式ファイルは文字情報、画像情報、レイアウト情報等で構成されています。 テキスト選択できるものは文字情報としてそのPDFファイル自身が認識しています。 それが出来ない文字は文字情報としてではなく、画像情報としてPDFファイルが処理しているため、直接テキスト文字として拾い出すことは出来ません。 カメラで撮影した新聞の文字はあくまで画像というのと同じです。
お礼
有り難うございます。 最大(6400%)に拡大しても輪郭がシャープに描画される画像化された文字が存在するのでしょうか?
「TouchUpテキストツール」でも選択できませんか。 私もPDFのフォントには苦労しており http://oshiete1.goo.ne.jp/kotaeru.php3?q=1924149 こちらで質問させていただき、いろいろ試しているところです。 参考に、私の質問も読んでいただくと、何かピントになるかも知れません。
お礼
有り難うございます。 [ツール]→[高度な編集]→[TouchUpテキストツール(U)]を設定しても選択できません。
- otoutann
- ベストアンサー率26% (248/933)
印刷の許可とかテキストコピーの許可とかはpdfファイルを書き出す時に 設定されるものですので、作成者にパスワードを聞かないと編集できない と思います。 印刷可能なら、いきなりPDFとかで読み込めますが(OCRと同じ原理で)。
お礼
有り難うございます。 もちろん[文書の印刷および編集とセキュリティ設定にパスワードが必要(U)]にチェックは入っていません。印刷は平常にできますし、ページの分割などもできます。 そもそも、ご回答の内容は、同一のファイル(ページ)のなかに《ctrl+Aで選択できるテキストと選択できないテキストがある》ことと矛盾していませんか?
お礼
何回も有り難うございます。 当該pdfファイルは、アドビのInDesignを使ったらしく、仰せのとおりpdf化する前にテキストをアウトライン化している模様です。印刷屋にテキストファイルを求めるか、OCR原理でテキスト化するソフトを利用するか、考えています。