• ベストアンサー

pdfファイルから抽出できるテキストと抽出できないテキスト

Acrobat6.0Prof.を用い、テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと、超拡大表示(例:6400倍)してもエッジがギザギザにならず鮮明に表示されるからで、これは明らかにアウトラインフォントと思われます。 このような「テキスト」を抽出する方法について知りたい。

質問者が選んだベストアンサー

  • ベストアンサー
  • otoutann
  • ベストアンサー率26% (248/933)
回答No.7

通常、フォントのデータは文字コードだけ記されています。 それをシステムに同じフォントがあればその文字コードを 元にして表示します。 同じフォントがシステムにない場合、表示できませんので アプリケーション側で違うフォントに置き換えるようなア ラートが出て違うフォントで表示することになります。 その場合、レイアウトが崩れるので、PDFファイルにする 時にフォントの埋め込みというのをしてPDFファイルを作成 すれば、相手先のシステムにフォントが無くても同じレイ アウトで表示する事ができます。 ただし、フォントによっては埋め込む事を許可しないフォ ントもありますので、その場合、フォントをアウトライン 化して絵として貼り付けます。この絵はビットマップでは ありませんので、拡大してもギザギザにはなりません。 (ドロー系とかベクトル系の絵です)

ubonoti01
質問者

お礼

何回も有り難うございます。 当該pdfファイルは、アドビのInDesignを使ったらしく、仰せのとおりpdf化する前にテキストをアウトライン化している模様です。印刷屋にテキストファイルを求めるか、OCR原理でテキスト化するソフトを利用するか、考えています。

その他の回答 (6)

  • otoutann
  • ベストアンサー率26% (248/933)
回答No.6

同じ文章中でと書かれていなかったので、1の回答となりました。 そのテキストがアウトライン化(文字を絵にするということです) してあるために選択できないと思われます。 (埋め込みができないフォントのため) 結果的に編集できないのは同じですが。

ubonoti01
質問者

お礼

再三有り難うございます。 小生が述べた「アウトラインフォント」とは、 http://e-words.jp/w/E382A2E382A6E38388E383A9E382A4E383B3E38395E382A9E383B3E38388.html に定義されたフォントのことで、現在のフォントは殆どが「アウトラインフォント」と思います。 いずれにしても6400%に拡大してもギザギザにならないのですから、テキストと思いますが・・・・・。

  • usatan2
  • ベストアンサー率37% (163/436)
回答No.5

>このような「テキスト」を抽出する方法について知りたい。 No.1さんと同じですが、「作者がコピー禁止としたためテキスト抽出できない」ためと考えられるので、「作者の意図を尊重して」抽出はあきらめるのがマナーと思います。 意に添えない回答で、ごめんなさい。

ubonoti01
質問者

お礼

有り難うございます。 ANo.1さんへのお礼を参考願います。

  • cockerel
  • ベストアンサー率46% (253/548)
回答No.4

>テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。 実際に作れるか否かを実験してみました。 >選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと・・・ このことから、最初にEPSを疑ったのですが、EPSテキストはPDFテキストとして変換されてしまうため、この事例に該当しませんでした。画像化されたテキストのEPSについては、当然のことながらテキストとして編集できませんが、CTRL+Aで選択できる/できないとは別次元の話になるようです。 次に、セキュリティ関連を疑ってみました。文書全体がパスワード保護されていれば、最初にパスワードの入力が求められるので気付きます。ところが、「権限」に設定を加えていると、その「権限」にアクセスしない限りパスワードの入力が求められません。たとえば、変更を許可しないにしておくと、CTRL+Aでの選択が無効になりました(すべてを選択解除は有効)。このほかにもいくつかの設定方法があると思いますがご参考まで。

ubonoti01
質問者

お礼

いろいろと実験をいただき有り難うございます。 ANo.1さんへのお礼を参考願います。なお、当該pdfファイルは、印刷屋が印刷物と一緒に納入したファイルで、使ったDTPソフトが何か、明日聞いてみようと思っています。

  • mokonoko
  • ベストアンサー率33% (969/2859)
回答No.3

PDF形式ファイルは文字情報、画像情報、レイアウト情報等で構成されています。 テキスト選択できるものは文字情報としてそのPDFファイル自身が認識しています。 それが出来ない文字は文字情報としてではなく、画像情報としてPDFファイルが処理しているため、直接テキスト文字として拾い出すことは出来ません。 カメラで撮影した新聞の文字はあくまで画像というのと同じです。

ubonoti01
質問者

お礼

有り難うございます。 最大(6400%)に拡大しても輪郭がシャープに描画される画像化された文字が存在するのでしょうか?

noname#113190
noname#113190
回答No.2

「TouchUpテキストツール」でも選択できませんか。 私もPDFのフォントには苦労しており http://oshiete1.goo.ne.jp/kotaeru.php3?q=1924149 こちらで質問させていただき、いろいろ試しているところです。 参考に、私の質問も読んでいただくと、何かピントになるかも知れません。

ubonoti01
質問者

お礼

有り難うございます。 [ツール]→[高度な編集]→[TouchUpテキストツール(U)]を設定しても選択できません。

  • otoutann
  • ベストアンサー率26% (248/933)
回答No.1

印刷の許可とかテキストコピーの許可とかはpdfファイルを書き出す時に 設定されるものですので、作成者にパスワードを聞かないと編集できない と思います。 印刷可能なら、いきなりPDFとかで読み込めますが(OCRと同じ原理で)。

ubonoti01
質問者

お礼

有り難うございます。 もちろん[文書の印刷および編集とセキュリティ設定にパスワードが必要(U)]にチェックは入っていません。印刷は平常にできますし、ページの分割などもできます。 そもそも、ご回答の内容は、同一のファイル(ページ)のなかに《ctrl+Aで選択できるテキストと選択できないテキストがある》ことと矛盾していませんか?

関連するQ&A

  • PDFの透明化テキストを抽出したい。

    Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • pdfの文字がギザギザになるのですが

    いつもお世話になってます。 イラストレータをpdfに変換するのですが、フォントをアウトラインすると文字のエッジがギザギザに表示されてしまいます。アウトラインしないとフォントがないマシンでは化けてしまうようなのでそれでは確認にはならないし…。どうするのが正しいpdfデータの作り方なのでしょうか?お願いします。

    • ベストアンサー
    • Mac
  • pdfファイルのhtmlファイル化

    企業のHPの中にサイズの大きなpdfファイル(1~5MB)が多数あり、「表示に時間がかかる」と評判が悪いので、ファイルを複数のhtmlファイルに分割し、目次を付けてリンクさせては、と思っています。 画像はAcrobatの「名前を付けて画像を抽出」で何とかなりそうですが、テキストは、 ・「テキスト選択ツール」でコピー/ペーストするのでは非常に手間がかかる。(画像/テキスト/表等が入り交じっているため) ・リッチテキストフォーマットで「名前を付けて保存」では、思いもかけないフォントコードになってしまいます。(明朝体が草書体になったり) 名案がありましたらご教示ください。

  • 韓国語PDFファイルからのテキスト抽出

    韓国語のPDF書類をなんとか翻訳したいのですが、良い方法をご存知の方、是非ご教示お願いします! 翻訳サイトで翻訳するために、以下のことにトライしてみました。 1.丹念にPDFからテキストのコピペ 2.PDFからテキストを抽出 3.PDF⇒text(他html,word etc..)に変換 いずれも英語部分は可能ですが、韓国語部分は不可です。 1.コピぺでは貼り付けると「・・・」という表示になる。 2.3.アクロバットやその他変換・抽出ソフトを試しましたが、やはり韓国語の部分は変換されません。 よろしくお願いします。

  • PDFをテキストにすると化けてしまいます

    Windows2000、Adobe Acrobat 5.0です。 英語のドキュメントなのですが、テキストにしてワード数をカウントしたいのです。 「別名で保存」でWordにしてみましたが 化けてしまいます。フォントがおかしいようです。 一部を選択してコピーしても同様です。 解決法ご存知の方、ヘルプいただけると大変助かります。

  • フリーハンドのテキストの扱いについて

    はじめまして。 マクロメディアがアドビに買収されると知らずに買収1週間前にSTUDIO-MX2004を購入してしまいました(笑) 他のソフトは徐々に使い慣れてきましたが、フリーハンドはテキストの扱い方で分からない点があり、いろいろ調べているのですが分からなかったので質問なのですが、 文字(特に小さい文字)は、毎回アウトライン化しないと、自分の選択したフォントを反映しないのでしょうか? 他のソフト(FLASH,FIREWORKS等)では、テキストの状態(アウトライン化)しなくても 文字の大きさに関わらず、選択したフォントで表示するのですが、、、、 初心者的な質問で申し訳ございませんが、アウトライン化せずにフォントが正しく表示される方法があったら教えてください。 宜しくお願い致します。

  • AcrobatとReaderで表示フォントが違う

    pdfファイルを、Adobe Acrobat と Acrobat Reader11 とで開くと、表示フォントが異なります。 Readerで見ると、スムージングが崩れているというか・・・ ズームを500%くらいにすると、フォントのふちのギザギザが目立ってきます。 また文書によっては、100%のときから明らかにフォントが違うように見えるのもあります。 Acrobatの方では、1000%拡大してもスムージングされています。 なぜでしょうか? 無料ソフトの限界ですか。

  • 【PDF】テキスト化できない…

    以前にも同じ質問をしていますが、どうにも解決しないので改めて…。 すみません。 とあるPDFの文字をコピーして、Wordなどに貼り付けると文字化けしてしまいます。 試しにここに貼ってみると、「􁏒」のように表示されます。 ちなみに、下の画像は検索窓に貼ってみたところです。 ただし、そのまま検索をかけると正しく検索されるため、ダミーテキストではないはずです。 ---------------------- これまでの回答で、 ・PDFの制限 ・フォントの問題   の可能性との指摘をいただきました。 PDFについて、 Adobe Acrobatの「セキュリティプロパティの表示」によると全項目「許可」になっています。 (Readerでは一部「許可しない」になっていますが) フォントについて、 同プロパティの別のタブで「MS-Mincho」などと表示されています。 半ば諦めているので、せめて原因だけでも教えていただけるとスッキリします。 よろしくお願いいたします。

  • PDFのテキストのコピーが「・・・」に化けてしまいます

    PDFファイルで「テキスト選択」はできるのですが、 EXCELでもテキストファイルでも、貼り付けると、 すべて「・・・・」としか表示されません。 どうも、文字数はあっているようなのですが、 文字としてコピーできていません。 バージョンは、Adobe Reader 6.0 で、 OSは、ウィンドウズ98SEです。 文字ではなく、アウトライン=絵として保存されているの なら諦めますが、何が何だかわからなくて、非常に困って います。 どなたかアドバイスをお願い致します。

  • pdfファイルがうまく表示されません

    インターネット上にあるpdfファイルを開くと、 下記のエラーが出てしまい、文字化けしてしまいます。 Acrobat Reader7で開こうとしています。 ちなみに「Acrobat Distiller 5」がインストールされている違うパソコンもあります。 <エラーメッセージ> 【埋め込みフォント「JDKGNB+MSMincho」を抽出できません。一部の文字を正しく表示できない場合や、印刷できない場合があります。】 どうやったら文字化けせずに開きますか? どなたが教えてください。 よろしくお願いします。

専門家に質問してみよう