オートパイロットで文字化けページをDLする方法

このQ&Aのポイント
  • オートパイロットを使用して文字化けするページをダウンロードする場合、対応言語パックを先にインストールする必要があります。
  • 特にGetHTMLWはプロキシー機能を持っており、キャッシュとして保存しているため、対応言語パックを後からインストールしても正常に表示されない可能性があります。
  • 対応言語パックがインストールされていない状態でGetHTMLWを使用してダウンロードし、後から対応言語パックをインストールしても、ファイルの表示は同じです。
回答を見る
  • ベストアンサー

文字化けするページをオートパイロットでDLする時に

韓国語や中国語のページなどをみると文字化けしていることがありますよね。 これに関して以前した質問でいただいた回答によると、このようなページをブラウザで保存する際には、「保存するよりも先に対応言語パックをインストールすべき」のようです。 なぜなら保存する際、(対応言語パックがない状態なので)間違った言語のコードに「エンコード」してしまうからのようなのです。 保存した後、対応言語パックをインストールしても、正常に表示される保証は無いようなのです。 では、GetHTMLWなどオートパイロットでDLする場合はどうなのでしょう。 オートパイロットは保存の際エンコードしていないように思えるのですが。(特にGetHTMLWはプロキシー機能を持ち、キャッシュとして保存しているようなのでいっそう) 具体的には 1. まず対応言語パックをインストールします。 その後GetHTMLWなどオートパイロットを使いDLします。 そしてDLしたhtmlファイルなどを開きます。 2. まず「対応言語パックがインストールされていない状態」でGetHTMLWなどオートパイロットを使いDLします。 その後対応言語パックをインストールします。 そして先程「対応言語パックがインストールされていない状態」でDLしたhtmlファイルなどを開きます。 1、2で開いたファイルは、両方とも同じように表示されるのか(もっといえば同じファイルか?)という事です。どうかご教授ください。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない」 「可能性もある」と付け加えてください。 つまり,「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない可能性もある」と言うことです。 ファイル(htmlファイルや画像ファイルなど)を参照するタグ(リンクや画像表示のためのタグなど)に間違いがありますと,正しくダウンロード出来なくなってしまいますが,例えば,文字表示に関するタグに間違いがあっても,ダウンロードそのものには影響がありませんので・・・。 >ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。 申し訳ありません。 「ただし,ダウンロードしたhtmlファイルを表示した場合,どちらも文字化けしません」に修正します。 と言うのも,質問中の1の部分「まず対応言語パックをインストールします」を読み飛ばしていたからです。(本当に,申し訳ないです) これについて説明します。 要は,ブラウザが表示される前に,キャラクターセット(対応言語パック)がパソコン内に入っていればいいのです。 そして,キャラクターセットを使用するのは,ブラウザだけです。 GetHTMLWなどオートパイロット機能を持っているアプリケーションは,先の回答で説明しているように,「タグ」を探し出し,そのタグを参考にして,ファイルをダウンロードして,パソコン(ハードディスク)の中に保存しているだけです。 そして,タグはキャラクターセットの影響を受けません。 例えば,「Yahoo! JAPAN」を開き,HTMLソースを表示させてみてください。 日本語部分については,900916さんがWindowsを使用している限り,文字化けしているはずです。 しかし,タグについては,文字化けしていません。 また,900916さんが「教えて!goo」を利用されているのでしたら,今見ているページのHTMLソースを表示させてみてください。 やはり,900916さんがWindowsを使用しているのでしたら,HTMLソースの日本語部分が文字化けしているはずです。(「OKWeb」などの場合は,キャラクターセットが違いますので,正常に表示されるはずです) これは,Yahoo! JAPANも教えて!gooも「EUC-JP」というキャラクターセットを使用しているからです。 しかし,Windowsは,「Shift_JIS」と言うキャラクターセットを使用していますので,どうしても文字化けをしてしまうのです。(日本語だけを取ってもそうですが,外国語でも同じことが言えます。また,すべてではないかもしれませんが,Linuxを使用している場合は,これとは逆の現象が起きるようです) でも,タグの部分はどうでしょうか? 文字化けを起こしていないはずです。 まぁ,900916さんがと言うのではないのですが,初心者の方の中には,実は正しいタグなのに文字化けしているように感じてしまう部分もあるかもしれません。 でも,ファイルの参照先などを見れば,文字は消していないことがわかってもらえると思います。 つまり,ブラウザの表示で文字化けしていても,タグは文字化けすることはありませんので,1と2,どちらの場合でも文字化けしないと言うことになります。 なお,どうにかすると,キャラクターセットをきちんとインストールしているにも係わらず,ブラウザで表示した際,文字化けしてしまうことがあります。 これは,例えばInternet Explorerの場合,Shift_JISを優先するように出来ているようで,もし,表示したページ(htmlファイル)にキャラクターセットの指定が無く,かつ,EUC-JPと言うキャラクターセットを使用していますと,ちょくちょく文字化けしてしまうと言うことがあります。 そして,このようなことは,海外サイトのページをダウンロードしても同じです。 「DLする時点では文字を読む必要がないページは、とりあえず文字化けしたままでも保存しておく。 もし、後に文字を正常に表示したくなる事があればその時に言語パックをインストールすればいい。」 もちろん,このスタイルを取っても構いませんが,どちらかと言えば,たいてい同じ場所(ページ)から対応言語パックをダウンロードすることになるはずですので,「もしかしたら必要になるかもしれない」というものを先に,必要になったものと一緒にダウンロードしておく方が賢いかもしれませんね。 と言うのも,ダウンロード先を探し出すのに,意外と手間がかかってしまうこともあるためです。 まぁ,簡単に探し出せる場所にあれば,900916さんが書かれたスタイルでも良いと思いますよ。 > またその事は、GetHTMLWのProxyMode2(ブラウザで閲 > 覧したページが、プロキシーソフトGetHTMLWのキャッ > シュとして逐次溜まっていく機能)で保存した場合で > もいえることでしょうか? 正直に言って,「GetHTMLW」と言うアプリケーションを使用したことはありません。(「波乗り野郎」や「HELEN」を使用しています) ですから,わかりかねるのですが,キャッシュ方法として,thmlファイルそのままの状態でキャッシュしているのであれば,そのように考えて良いですよ。 しかし,読み込んだファイルに,GetHTMLW独自の暗号をかけるとか圧縮するなどしてキャッシュされたファイルだった場合は,元の状態に戻し,かつ,ブラウザで表示させなければ,つまり,キャッシュファイルを直接開いてしまいますと,下手すると全体が文字化けしたように見えてしまうかもしれません。

900916
質問者

補足

詳しいご回答、まことにありがとうございます。ソースを表示したところOKWebでは普通に表示され、YahooやGOOではところどころ文字化けしておりましたが、タグの部分はしていなかったようです。 >GetHTMLWなどオートパイロット機能を持っているアプリケーションは, >先の回答で説明しているように,「タグ」を探し出し,そのタグを参考にして, >ファイルをダウンロードして,パソコン(ハードディスク)の中に保存しているだけです。 >そして,タグはキャラクターセットの影響を受けません。 キャラクターセットがインストールされている状態でも、されていない状態でも、HDに保存されるhtmlはバイナリ的には同じ物というわけですね。 ちなみに、GetHTMLWはhtmlをそのままの状態でキャッシュしているようです。 ■以上の事は、仰るようにタグがキャラクターセットの影響を受けないという条件下での事でしたが、 <a href="http://aaa.bbb.com/韓国語.midi"> のようにタグの中のリンクが、キャラクターセットの影響を受けるような文字で記述されている事はないのでしょうか? 以下それに関して ■「韓国語.midi」をオートパイロットがHDに保存する時のファイル名は、キャラクタセットがインストールされているか否かによって「韓国語.midi」になったり「○★△.midi」になったりするのでしょうか?(「韓国語」の文字化けが「○★△」になるとすると) それともキャラクタセットがインストールされている場合でも、オートパイロットはタグ内のリンクを「http://aaa.bbb.com/○★△.midi」 と解釈し、HDに保存されるファイル名も「○★△.midi」になるのでしょうか? なぜこのように申し上げるのかといいますと、うろ覚えですが日本語の漢字が混じっているURLを見た事がある気がするのです。

その他の回答 (1)

回答No.1

表示されている文字は,GetHTMLWなどのアプリケーションでは,無視しています。 ですから,表示の際に文字化けしていても問題ありません。 要は,htmlタグを読み込んで,「ファイル」を保存しているだけですので・・・。 ですから,1,2のどちらでも,ダウンロードは正常に行われます。(もちろん,タグに間違いがない場合のみですが・・・) なお,もし,ダウンロード出来ないファイルがあったとしましたら,たいていの場合,それは,JAVAスクリプトを使用してリンクされているファイルなどです。 ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。

900916
質問者

補足

ご回答くださりありがとうございます。いただいた回答の中で、いくつか確認させていただけないでしょうか。 ■>(もちろん,タグに間違いがない場合のみですが・・・) これは外国のページに限らないわけですよね。 つまり 「日本語のページならタグに間違いがあるか否かに関わらず正常にDLが行われる。しかし外国語ページはタグに間違いがある場合は正常に行われない」 のではなく 「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない」 ということですよね。 ■>ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。 1と2は逆ではないでしょうか? 融通が利かなくてすみません。 ■基本的に 「文字化けするページに遭遇するごとに言語パックをインストールする」 というスタイルはできれば避け、 「DLする時点では文字を読む必要がないページは、とりあえず文字化けしたままでも保存しておく。 もし、後に文字を正常に表示したくなる事があればその時に言語パックをインストールすれば いい。」 というスタイルにしたいのですが、基本的にオートパイロットでDLした場合、「2.」のようにDLした後から言語パックをインストールしても問題ないのですね。 ■またその事は、GetHTMLWのProxyMode2(ブラウザで閲覧したページが、プロキシーソフトGetHTMLWのキャッシュとして逐次溜まっていく機能)で保存した場合でもいえることでしょうか?

関連するQ&A

  • 文字化けするページを保存後、言語パックをインストールすると

    韓国語や中国語のページなどをみると文字化けしていることがありますよね。 それをそのまま「対応言語パックがインストールされていない状態」で保存したとします。 その後言語パックをインストールし、先ほど保存したhtmlを開いても正常に表示されるのでしょうか。 つまり、相手から送られてくるhtmlファイル自体は、自分のPCに「対応言語パックがインストールされていない状態」と「対応言語パックがインストールされた状態」で同じものなのでしょうか。

  • 中国のサイトを閲覧したいのですが文字化けします

    はじめまして 中国のサイトを閲覧したいのですが文字化けします エンコードで中国語を選択するのですが 言語パックのインストールという 画面が出るのですが そのようなファイルがありません どうしたら良いでしょうか ちなみにOSはWIn2000です 詳しい方よろしくお願いします

  • 文字化けについて

    基本的な質問で申し訳ありませんが、xamppで一括インストールをしてapacheサーバを立てて C:\apachefriends\xampp\htdocs\web_cartにphpファイル、htmlファイルをアクセスしたところ、実行されているのですが文字化けしており、ブラウザの「表示」→「エンコード」を見ると西ヨーロッパ言語(ISO)になっています。ここの設定は日本語(シフト JIS)にしたいのですが、どこを設定したらよいのでしょうか? どなたかアドバイスお願いします。

    • ベストアンサー
    • PHP
  • あるHPだけ文字化けします。

    初心者でわからないです。 今まで普通に見れいたHPがいきなり文字化けします。エンコードを"日本語(シフト JIS)"にすると見れます。前は何になっていたのかは見てなかったのでわからないのですが、文字化けしてる状態の時にエンコードが何故か"西ヨーロッパ言語(Windous)"になってました。特に何も触ってはないと思うのですが。何でこうなったのか意味がわかりません。教えて下さい。 あと、今あるエンコードが"自動選択・日本語(自動選択)・日本語(EUC)・日本語(シフト JIS)・ユーザー定義・中央ヨーロッパ言語(Windous)・その他"になってます。見れないHPでは中央ヨーロッパ言語が西ヨーロッパになってます。元々はユーザー定義とヨーロッパ言語はなかったと思うのでこのユーザー定義とヨーロッパ言語の消し方も教えて欲しいです。宜しくお願いします。 WinXP IE6.0です。

  • WORD 2007で文字化けについて

    WORD 2007で作成した文章を、会社のPC(Office2003)でも開けるようにWORD 97~2003形式で保存しました。 ところが、会社のPCで開くとエンコードの選択画面が出て開けません。 また自宅のPC(Office 2007)で開いてみると、同じようにエンコードの選択画面が出ます。 いろいろ調べてみてOffice互換パックをインストールしましたが、改善しませんでした。 Office2003形式で保存するには、どうしたらいいですか?

  • Vista対応のオートパイロットソフトをご存じの方

    ホームページを自動で巡回し指定したWebページを保存するソフトで『オートパイロットソフト』というものが以前にありましたがVista対応のソフトをご存知の方がおられましたら教えてください。

  • SQLiteManagerが文字化け

    PHP5で、SQLiteManager1.0.6を起動して、初期画面で言語をJapaneseを選択すると、2バイトコードの部分が文字化けしてしまいます。入門書には、Version1.0.1から日本語に対応しているので、言語に日本語を選択すればOKとありますが、ブラウザのエンコードなどいろいろいじってみても、一向に解決しません。この件に関してご存知の方がいましたら教えてください。

    • 締切済み
    • PHP
  • プログラム内の化け文字

    XP日本語バージョン使用しております。 フランス語の会計ソフトをインストールしました。 テキスト内のeにアクセントのある文字がおかしな漢字になってでます。プログラムにはエンコードはありません。地域と言語の設定をいろいろ変更しましたが、変わりません。何か方法はありませんでしょうか?

  • UserAgent名やOSにより、送られてくるhtmlファイルが異なる?

    Web閲覧の際に送られてくるファイルについて、以下の何点か教えていただけないでしょうか。 Webページを閲覧する際、相手に送られるこちらの情報(UserAgent名やOS名)により、こちらに送られてくるファイル(特にhtml、テキストファイル)が異なる事があるのしょうか。 そうだとしたらオートパイロットで保存する場合、のちのことをかんがえてUserAgent名はIEあたりにしておくのが無難でしょうか。 GetHTMLなどのオートパイロットでは、テキストファイルをDLする時、自分のPCの環境により文字、改行コードを勝手に変更して保存してしまうのでしょうか。 そうだとしたら、相手のマシンに置いてあるテキストと同じ文字コードのまま、DLする事は出来ないのでしょうか。

  • OUTLOOK2010 送信メールで文字化け

    英語版 WINDOWS 10に英語版OUTLOOK2010をインストールしていますが、日本語での送信メールが文字化けして読めないと受信側から言われます。日本語言語パックはインストール済みです。いろいろインターネットで設定方法を調べて、OUTLOOKのオプション→詳細設定→文字設定オプションの送信メッセージで優先使用するエンコード方法で日本語(JIS)を選べばいいようですが、ドロップダウンに何も入っていないため選ぶことができません。コンピューターにあまり詳しくないため、何が原因なのか、よくわかりません。よろしくお願いいたします。

専門家に質問してみよう