• ベストアンサー

テキスト情報が生きたPDF作成をするには?

http://okwave.jp/kotaeru.php3?q=1767319 ↑ 以前こちらに、アクロバット系の話題なのでカテゴリーはDTPが適切かと思って投稿してみたのですが、ちょっと解決には至りませんでした。 他のOSにも関連しますが。やはりマックカテゴリーでお伺いすべきだったと反省しています。 PDFでフォントがビットマップになってしまいテキスト情報内容が死んでしまう場合と、そのまま生きてコピー&ペーストで使い回しできる場合とで色々なので悩んでいます。 前回DTPカテゴリではMS書体で極小サイズにするとビットマップ化することは教えて頂きました。 しかし、大きなサイズでも「ダメな時はダメ」、「平気な時は平気」という感じで、これが一体何が原因かわからず毎回設定を試行錯誤してますが私自身は路頭に迷っています。 どんな条件を守れば、テキスト情報の生きたpdf をいつでも作ることができますでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • Tq-bay
  • ベストアンサー率50% (5/10)
回答No.6

フォントの話は、私自身、ちょっと苦手で間違っていることがあるかもしれません。もし、間違っているようなら、ぜひ指摘してください。 さて、「死んでしまった文字」について説明するには、フォントの仕組みを整理すると良いと思います。 フォントは、文字セットと文字コードでできています。 文字セットは、文字の形とか文字の種類とかです。 文字コードは、コンピュータが理解できるように字形に与えられた符号体系です。 「死んでしまった文字」は、文字コードと文字セットがうまく一致していない状態だと思われます。 逆に、altosaxさんが言う「テキスト情報」というのは、文字コードと文字セットがきちんと維持された状態だと思います。 まず、ビットマップ化されてしまうことと、「フォント情報」がなくなってしまうことは、関係ありません。 DTPのフォントは、通常解像度に依存しないベクトルデータ=アウトラインフォントです。だから、大きさを変えても、同じように滑らかな形で表示されます。 しかし、ある程度の大きさよりも小さくなると、アウトラインフォントだと返って見づらくなってしまいます。そこで、ある一定以下のフォントについては、ビットマップフォントを使うのです。 ただし、「アウトラインフォント+ビットマップフォント」という構成はTTFやCID、OCFなどで、OTFはアウトラインフォントだけです。 いずれにしても、ビットマップ化については表示されてる字形の問題なので、文字化けとは関係ありません。 文字が「死んでしまう」のもう1つの理由は、エンコードが違うなどなんらかの理由でフォント情報が失われるということです。 フォントは、字形との対応のデータベースを背後に持っています。このデータベースとの対応が、文字コードごとに異なります。だから、文字コードが違うと、データベースでは同じ場所を指していても、表示される字形は違うということになるのです。 異なる文字コードでエンコードされる理由としては、レイアウトやPDF化に使うアプリケーションがその文字コードに対応していないことが考えられます。 たとえば、日本ではまだシフトJISが一般的で、それ以外の文字コードに対応していないものも少なくありません。Illustratorは、CS以前はシフトJISですし、Quark6.5もシフトJISです。QXがOTFの異体字に対応できないというのは、Unicodeに対応していないからです。 また、Acrobat4(PDF1.3)以降であれば、和文フォントのエンベッドに対応しています。それ以前のバージョンは対応していません。 Illustrator 8.0は、日本語にきちんと対応していません。 PostScriptフォントを使ったデータを8で作り、IllustratorのPDFLibraryを使って書き出すと、エンコーディングが83pvから90pvに変わってしまいます。 ですから、もっとも信頼性の高いPDF化の方法としては、PS書き出し→Acrobat Distillerなのです。 次に、PDFのフォントエンベッドについてですが、基本的には、レイアウトデータで使用されているフォント(文字コード+文字セット)のデータを、PDFのデータに付与する(埋め込む)ということです。だから、基本的にはフォントが埋め込まれたPDFならば、文字化けは起こらないと思います。 ただし、フォントによっては、PDFの埋め込みに対応していなかったり、使用許諾権で許可していないものもあります。そうした対応はフォントベンダーごとに違います。 また、アプリケーションや設定によっては、PDF化する際にフォントをアウトライン化してしまうものもあります。そうなると、文字は画像と同じになってしまうので、文字コードは失われてしまいます。でも、一部の文字だけがアウトライン化されるというのはちょっと考えられませんね。 無理やりまとめると、以上のことから、私はエンコーディングが違うせいだと推測しているのです。

altosax
質問者

お礼

新年おめでとうございます。 IllustratorでPDFが読み込みと配置できることを知り、試しにやってみた所、次のような警告窓が出てくれました。 Type3フォントまたはユーザ設定フォントを使ったテキストは無視されました。 所在不明媚のType1フォントは初期設定フォントで代用します。 特殊なエンコーディングのフォントは再エンコードされました。 これを強行突破した結果、「死んでいるフォント」(ビットマップ化したと思っているフォント)は、無視されたようで全く表示されませんでした。 …ということは、「死んだ」とか「ビットマップ」などと表現していた文字は、「ユーザー設定フォント」だったことになりそうですが、これも釈然としません。 なぜなら、アクロバットではきちんとした字形と文章内容で可読できるからです。 (これまでの教えて頂いた知識だと、フォントの埋め込みがされていないとこのようにはならないのだと思っていました) (実態はアクロバットで読めて(しかし文章のコピペは不可能)イラレで完全に無視される、という状態だということが判りました!) (これらで自作のものはType3にはならないようにPDF作成時のPS設定は全部Type1を選んである元文書でした) …このへんが解明の糸口になりませんでしょうか。 どうか今年も引き続き宜しくお願いします!

altosax
質問者

補足

Tq-bayさん、いつも本当にありがとうございます!! >まず、ビットマップ化されてしまうことと、「フォント情報」がなくなってしまうことは、関係ありません。 >DTPのフォントは(以下略しますね^^) なるほど、マックOSの画面表示処理とアクロバットでの処理は完全に同一だったのですね? #以前私が聞いて納得してしまった「ビットマップ化」のからくり種明かしの話は、多分普通のマックファンで詳しい方だと思うのでアドビの仕様をきっちり知っているDTPの方ではなさそうでした^^; そこでは、アクロバットpdfになる時には条件により「字の形をした絵になる」という説明を受けましたので、FAX文字用のTIFFとかアウトライン化した文字と似たように「pdfにおける文字のビットマップ化=もはやそれは絵の情報」と理解して納得した気になってしまってました。これがそもそも間違いだったというのが鍵ですね! >IllustratorのPDFLibraryを使って書き出すと、エンコーディングが83pvから90pvに変わってしまいます。 なんと!そうなんですねー、これはとてもありがたい情報で助かりました! 同じアドビ商品なのに困ったことをしてくれますね^^ 必ず綺麗に文字が抽出できるクセロPDFのようなマガイモノのほうが正直だったりするのかもしれませんね? >アプリケーションや設定によっては、PDF化する際にフォントをアウトライン化してしまうものもあります。そうなると、文字は画像と同じになってしまうので、文字コードは失われてしまいます。でも、一部の文字だけがアウトライン化されるというのはちょっと考えられませんね。 この伝が、多分、冒頭の以前私が教わった予備知識のことになりそうですね? 「一部の文字」というのは、同一原稿内にある「一部の書体」のこともありますので、これは充分あり得るかもしれませんね? はたしてあれは単なるマックファンの方のアドバイスに過ぎなかったのか、Tq-bayさんのようにadobePS仕様を熟知した方の判断だったのか、微妙ですね^^; ※理解不足なので系統立ったきちんとした検証ができないのが自分でもどかしいのですが、Windows用のまがいもの互換pdf作成が連戦全勝なのが一番気になるポイントです… >私はエンコーディングが違うせいだと推測しているのです。 これがユニコードとEUCとS-JISとJISのいずれに変換しても「謎の文字」のままだとすると、未検証の選択肢として他にどんな文字コードが残っていますでしょうか? 年明けになってからでも結構ですので、ぜひ解明にご協力よろしくおねがいします! じっくり構えて犯人をつきとめてみたいです!

その他の回答 (5)

  • Tq-bay
  • ベストアンサー率50% (5/10)
回答No.5

補足への回答です。 またまた遅くなってすいません。 PDFからテキストを抜く方法で、一番簡単なのは、Acrobatで、別名保存→Textです。 ただ、PDFは、文章構造をそのまま持っているわけではないので、表組とか段組みされたドキュメントなどの場合、テキストが行ごとにばらばらになってしまうことがあります。 ちゃんと抜くためには、「リッチテキストPDF」などのツールを使うしかないと思います。 企業からのPDFで「死んだ文字」(この表現は誤解をまねくので、どうも好きになれませんが…)があるということですが、これは、PDFにフォントが埋め込まれていないため、開いた環境によって文字化けしてしまった状態だと思います。 フォントの埋め込みの設定で、「フォント」の中の「埋め込み」で、「常に埋め込まないフォント」に入っているフォントは埋め込まれません。「Standard」などの設定では欧文を中心に埋め込まれないフォントがデフォルトで入っています。 また、TTFは、埋め込まれないフォントもあります。 さて、コピーしたときの文字化けについてですが、PDF上でそのまま「コマンド+C」とかでコピーすると、いったんクリップボードにコピーされます。このときに、デフォルトの文字コードに変換されます。もし、テキストの文字コードが違っていると、文字化けします。 文字コードの扱いについては、アプリケーションによっても異なるため、同じドキュメントでもPDF生成ソフトが違うと、テキストのエンコードが変わってくると思います。 前述したAcrobatからのPDF→TEXTであれば、そのままテキスト化されるので、テキストのエンコードを変えながら開いてみるといかがでしょう。 JeditとかWordとかなら、テキストを開く際に文字コードを選べると思います。 もし、Acrobatを使って出力したテキストが化け化けだったら、「環境設定」→「PDFからの変換」で、「TEXT」の変換の設定を編集し、「出力ファイルの設定」でエンコーディングを変えるとよいと思います。デフォルトでは、マッピングテーブルのデフォルトを使用」となっています。 とりとめもなくなってきました。 これで回答になっていますか?

altosax
質問者

補足

どうもありがとうございます!!! どの本を読んでも、誰のお話を伺ってもピンと来ないキーワードが「フォントの埋め込み」なのです・・・ この際、すっきりしたいと思いますので是非教えて下さい。 (多分、私は「フォント埋め込み」の本当の意味を間違えて理解しているから本件のような質問をしているのだと気付きました) >企業からのPDFで「死んだ文字」(この表現は誤解をまねくので、どうも好きになれませんが…)があるということですが、これは、PDFにフォントが埋め込まれていないため、 ・・・という同様の主旨の説明に複数回接しているのですが、 「フォントを埋め込む」=書体の形が代替されずに維持される、 という意味ではないかと思うのですが、テキスト情報が維持される、という意味にもなるのでしょうか? ∴「すべてのフォントを埋め込む」で作成したにもかかわらずわたしが変だな?と思った例は >また、TTFは、埋め込まれないフォントもあります。 ・・・という事例に運悪く当ってしまったことになりますでしょうか? (この運悪い例がMSTTFの極小ポイントになりますか?) >もし、テキストの文字コードが違っていると、文字化けします。 これは「死んでしまった」文字は、テキストエンコーディングをJISやEUCなどありったけに変更してみてもやはり謎の記号(無理やりバイナリファイルをテキストエディタに読み込んだのと同様の状態です)のままです。 ・・・なので、その点では、以前にマックの先輩から「それはテキストデータではなくて文字の形をしたビットマップデータだからだよ」と教えてもらった話が納得出来てしまったんです・・・ そもそもPDFで「文字がビットマップになる」という事態はありえなくて、「エンコーディングの違い」にすぎないのでしょうか? この辺の基本原理が明解に載っている本がなかなか無いので誤解してしまいがちです。 どうぞゆっくりで結構ですので、引き続きよろしくお願いします^^

  • Tq-bay
  • ベストアンサー率50% (5/10)
回答No.4

ちょっと遅いかもしれませんが、ちと興味を引かれたので……。 「PDFからテキストをコピーすると文字化けしてしまうことがある」ということですよね。 まず、確認したいことがいくつかあります。 1)環境について。Mac OS9ということなので、Acrobat 5ですね。複数のPDFライターと言うことですが(Macだと他にはハーレクインとかJawsとかですか)、他にどのようなものを使っていますか? レイアウトソフトは何をお使いですか? 2)Macで作ったときと、Winで作ったときだとどちらのほうで問題が起こるのでしょうか? あるいは両方? 3)問題が起こるフォント(TTフォントだということですが)は、決まっていますか? どのTTフォントでも問題が起こるのですか? 文字化けする文字は特定できますか? 4)フォントはPDFに埋め込まれていますか? このあたりがわからないとはっきり答えるのは難しいのですが、可能な限りで私の考えをお伝えします。 まず、文字化けですが、これはテキストのグリフセットが異なっているのが原因かもしれません。フォントによっては、同じフォントでもバージョンの違いによってグリフセットが違うことがあり、その違いによって文字化けが起こることがあります。 また、シフトJISの場合、MacとWinでは、同じフォントでもグリフセットが83pvと90msと異なるため、文字化けの可能性があります。 特にお使いの環境がOS9と古いため、プラットフォームとフォントのグリフセットの違いが原因ではないかと感じます。 解決法ですが、グリフセットが異なることが原因ならば、どうしようもないと思います。グリフセットを合わせれば、正しくエンコードはできますが、それだけの手間をかけるよりも、他の方もおっしゃっているように、テキストはテキストデータでもらったほうがよいと思います。 そのほうが正確で手間もかからないのではないでしょうか。 最後にちょっと実験していただきたいのですが、PDF生成環境でコピーした場合はどうなりますか? もし、PDF生成時に「テキスト情報が死んでしまう」ということならば、PDFを生成した同じ環境で開いてコピーしてもうまくいかないと思います。 もし、うまくいったら、やはりグリフセットが原因だと考えられると思います。

altosax
質問者

お礼

>3)問題が起こるフォント(TTフォントだということですが)は、決まっていますか? これは検証が覚束なくて恐縮なんですが、同じフォントの同じポイントで同じ原稿を、PrimoPDFに流すと必ず全文字がビットマップになるのですが、クセロPDFに流すといつも成功してくれるんです。 ∴クセロPDFは上手な設定の選び方に仕組んであるのだろうな?という推論です。 マックのほうはPDFライターでWebの記事をPDF化したりすると「良かったり悪かったり」の乱打状態です。 ∴ディスティラーを使えばよいのだという方向性は何となくわかるのですがジョブオプションの個別の意味が難しすぎて頓挫しています。 >4)フォントはPDFに埋め込まれていますか? 「全てのフォントを埋め込み」にすれば、かならずフォント情報は生き埋め?になるはずだろうと思っているのですが、どうやら死んでる時があるようなので(色々やり過ぎて特定の再現ができない状態です^^;)混乱中です。 >グリフセットが異なることが原因ならば、どうしようもないと思います そうですね… グリフセットのちゃんとした意味がまだ私には会得できてないんですが、同じ90msのMSTTFの原稿が、通す互換生成機?が違うことで片やビットマップになり、片や生きる、という謎に迫ることができれば嬉しいです! >PDF生成環境でコピーした場合はどうなりますか? これ是非実験したいのですが、ここでのコピーする、という動作は、おはずかしながら手取り足取りの手順ではどんな方法でのコピーをすればよろしいでしょうか? やっと光が見えてきた気がしますので、どうかよろしくお願いします!!

altosax
質問者

補足

> ちょっと遅いかもしれませんが、ちと興味を引かれたので……。 ひやぁあたすかりましたー^^; okwebの本部から締め切りにしろ!と督促状が来ていたので、またも釈然としないまま点数つけて形だけ終わりにしなきゃならないのか…と悶々してたところに王子様の到来です!! 字数制限で補足とお礼にまたがりますが、どうかよろしくおねがいします。 >Acrobat 5ですね これは質問文が不足ですみませんでした。 マックOS9=アクロバット4(ライター&ディスティラー)/AdobePS8.5.2/ATM4.5.2 ウインドウズ98=読み環境はアクロバットリーダー5、         作成環境はPrimoPDFまたはクセロPDFまたはOpenOfficeOrgのPDF書出し(フォントはTTFのみ)         アプリはMSオフィス98またはOOo1.1.4またはIE6です。 Windows3.1=AdobePS3.1.2からAlladinGhostScript7.0.4にディスティラー代用流し込み ・・・という3つの環境でいろいろやりながら、「生きた文字」と「死んだ文字」が出来ることに気付きました。 また企業からもらう電子カタログCDROMのPDFにも、死んだ文字があることを見つけて、これは一体?と関心が強くなりました。 Win3.1では極小ポイントのTTFでビットマップになるのが、前回DTPカテゴリで教えてもらって納得できました。 ※不思議に互換のクセロとOOoがほぼ百発百中で文字情報が生きてくれるんです。 これはアドビ仕様の何かを上手に利用した組合せになってるに違いないと踏んでるんですが、ではそういった要素は何だろう?というのが質問の趣旨です。 ディスティラーやアドビPSの詳細設定の意味がまだよくわからないので、Winの互換PDFが成功してくれる要素をヒントに必勝の鍵を探りたいと考えました。

  • futa3
  • ベストアンサー率14% (82/577)
回答No.3

そもそもPDFってお互いのチェック機能で校正とかで相手の営業さんに確認してもらうものではないのでしようか??それを使ってテキストを使うとか無理があるのではないのでしょうか?ディステラー使ってイラレデータもすべてアウトラインフォントepsにしないとPDFにもっていけないんじゃないでしょうか?アウトラインかけずにすると、エラーとかできれいに開けないんじゃないですか?私はそうでしたけど。ライターさん→デザイナーさんですとテキストデータもらえば済むことですし、デザイナー→デザイナーさんではイラレ同士でやりとりではないですか?その方が早いんでしないですか?

altosax
質問者

お礼

おはようございます、忙しい朝に心温かいお話をほんとにありがとうございます。 >それを使ってテキストを使うとか無理があるのではないのでしょうか? そうすると、アクロバットリーダーのテキストコピーツールの意味がなくなってしまうので変だと思っているんです。 (これはアドビの前提として、当たるも八卦ぐらいの設計思想なんでしょうか?) >すべてアウトラインフォントepsにしないとPDFにもっていけない この辺、わたしもいろんなテキストを買いこんで勉強中なのですが、よくわからない状態です。 アプリが何であっても、AdobePSドライバを選んで「Distil」ボタンをクリックすれば一括流れ作業でアプリ>ドライバ>ディスティラー>アクロバットリーダー表示、と自動でやってくれてしまいますので。。。 (かなめはジョブオプションの意味の理解につきると思うのですが、この辺に詳しい本がなかなか見当たらず困っています) 前提をきちんと書かない私が悪く済みません。 これは印刷所入稿のDTPの仕事ではなくて、TTFを積極的に使いたい(個人使用または単なる文書配布に限った用途で)という目的です。 PDF作成にTTFでうまく行ってくれるケースがたくさんありますので、その成功条件(ジョブオプションなど)をさぐりたい、という趣旨です。 お差し支えなければ、どうかまた何かヒントになることでも結構ですのでよろしくおねがいします。 m(__)m

noname#40524
noname#40524
回答No.2

ビットマップと言われていますが、これは以前のフォント形式(ビットマップフォント)と間違えやすいので、『画像』の表現としては異なります。 利用可能なフォントがある程度決まっていて、今利用されている、 ATMフォント、オープンフォントはテキストとして処理出来る様です。 作成するPDFのバージョンにも関係が有りそうです。 英語は始めから埋め込みも可能ですね。

altosax
質問者

お礼

kiyomacさん、すみません>< 補足欄でとんまなことを書いてしまいました^^; PSの仕様はすべてアドビ社の仕様だからあたりまえでしたよね^^; つまりTTFで文字情報が生きるPDFが生成できた、ということは互換pdfの設定がアドビ社仕様を上手に利用してTTFでも成功させているという証しになると思うんです。 ディスティラーなどのあまりに複雑な設定のどれがどう関係しているのか把握できていないので混乱しています。 この辺の意味で、ぜひどうかまたよろしくご教授お願いします!

altosax
質問者

補足

kiyomacさんにはいつも大変お世話になります。 ちょっと難しすぎるので、もう少しかみくだいていただけますでしょうか? >利用可能なフォントがある程度決まっていて ・・・というのはアドビ社の仕様でしょうか? (互換他社PDF作成環境ではばっちりうまく行ったりします。例えば具体例ではOOoのPDF書き出しやクセロPDFが大抵成功してくれました) いずれもPSを作る中間処理をしていることは間違いないと思いますので、その過程でどんな点に注意すれば成功できるのか、という鍵をぜひ教えてくださいませ。

  • cockerel
  • ベストアンサー率46% (253/548)
回答No.1

PSフォントを使用するとあまり問題がないようです。 次のような記事を見付けましたのでよろしければ参考にしてください。

参考URL:
http://support.adobe.co.jp/faq/faq/qadoc.sv?216073+002
altosax
質問者

お礼

どうもありがとうございます。 たしかに経験上も「マックDTP環境」ならば大丈夫なんですが、TTFで成功したり、しなかったり、と色々なのが気になる焦点です。 TTFは使ってはいけないのだ、という論議よりも、なぜ成功するのか、使えるものは積極的に使っていこうじゃないか^^という論点でどうぞよろしくおねがいしますm(__)m (印刷所への入稿ではありませんのでTTFでも構わない前提です)

altosax
質問者

補足

記事によりますと、どうやらタイプ3は避けたほうがよさそうですね。 強制的にタイプ2しか選べないものもあるので、なぜだろう?と気になっていましたがエラーの多い3を避ける意味もありそうですね。 ありがとうございました。 また引き続きTTFで成功できる鍵で何か情報がみつかりましたら是非教えてください☆

関連するQ&A

専門家に質問してみよう