- ベストアンサー
オートパイロットで文字化けページをDLする方法
- オートパイロットを使用して文字化けするページをダウンロードする場合、対応言語パックを先にインストールする必要があります。
- 特にGetHTMLWはプロキシー機能を持っており、キャッシュとして保存しているため、対応言語パックを後からインストールしても正常に表示されない可能性があります。
- 対応言語パックがインストールされていない状態でGetHTMLWを使用してダウンロードし、後から対応言語パックをインストールしても、ファイルの表示は同じです。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない」 「可能性もある」と付け加えてください。 つまり,「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない可能性もある」と言うことです。 ファイル(htmlファイルや画像ファイルなど)を参照するタグ(リンクや画像表示のためのタグなど)に間違いがありますと,正しくダウンロード出来なくなってしまいますが,例えば,文字表示に関するタグに間違いがあっても,ダウンロードそのものには影響がありませんので・・・。 >ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。 申し訳ありません。 「ただし,ダウンロードしたhtmlファイルを表示した場合,どちらも文字化けしません」に修正します。 と言うのも,質問中の1の部分「まず対応言語パックをインストールします」を読み飛ばしていたからです。(本当に,申し訳ないです) これについて説明します。 要は,ブラウザが表示される前に,キャラクターセット(対応言語パック)がパソコン内に入っていればいいのです。 そして,キャラクターセットを使用するのは,ブラウザだけです。 GetHTMLWなどオートパイロット機能を持っているアプリケーションは,先の回答で説明しているように,「タグ」を探し出し,そのタグを参考にして,ファイルをダウンロードして,パソコン(ハードディスク)の中に保存しているだけです。 そして,タグはキャラクターセットの影響を受けません。 例えば,「Yahoo! JAPAN」を開き,HTMLソースを表示させてみてください。 日本語部分については,900916さんがWindowsを使用している限り,文字化けしているはずです。 しかし,タグについては,文字化けしていません。 また,900916さんが「教えて!goo」を利用されているのでしたら,今見ているページのHTMLソースを表示させてみてください。 やはり,900916さんがWindowsを使用しているのでしたら,HTMLソースの日本語部分が文字化けしているはずです。(「OKWeb」などの場合は,キャラクターセットが違いますので,正常に表示されるはずです) これは,Yahoo! JAPANも教えて!gooも「EUC-JP」というキャラクターセットを使用しているからです。 しかし,Windowsは,「Shift_JIS」と言うキャラクターセットを使用していますので,どうしても文字化けをしてしまうのです。(日本語だけを取ってもそうですが,外国語でも同じことが言えます。また,すべてではないかもしれませんが,Linuxを使用している場合は,これとは逆の現象が起きるようです) でも,タグの部分はどうでしょうか? 文字化けを起こしていないはずです。 まぁ,900916さんがと言うのではないのですが,初心者の方の中には,実は正しいタグなのに文字化けしているように感じてしまう部分もあるかもしれません。 でも,ファイルの参照先などを見れば,文字は消していないことがわかってもらえると思います。 つまり,ブラウザの表示で文字化けしていても,タグは文字化けすることはありませんので,1と2,どちらの場合でも文字化けしないと言うことになります。 なお,どうにかすると,キャラクターセットをきちんとインストールしているにも係わらず,ブラウザで表示した際,文字化けしてしまうことがあります。 これは,例えばInternet Explorerの場合,Shift_JISを優先するように出来ているようで,もし,表示したページ(htmlファイル)にキャラクターセットの指定が無く,かつ,EUC-JPと言うキャラクターセットを使用していますと,ちょくちょく文字化けしてしまうと言うことがあります。 そして,このようなことは,海外サイトのページをダウンロードしても同じです。 「DLする時点では文字を読む必要がないページは、とりあえず文字化けしたままでも保存しておく。 もし、後に文字を正常に表示したくなる事があればその時に言語パックをインストールすればいい。」 もちろん,このスタイルを取っても構いませんが,どちらかと言えば,たいてい同じ場所(ページ)から対応言語パックをダウンロードすることになるはずですので,「もしかしたら必要になるかもしれない」というものを先に,必要になったものと一緒にダウンロードしておく方が賢いかもしれませんね。 と言うのも,ダウンロード先を探し出すのに,意外と手間がかかってしまうこともあるためです。 まぁ,簡単に探し出せる場所にあれば,900916さんが書かれたスタイルでも良いと思いますよ。 > またその事は、GetHTMLWのProxyMode2(ブラウザで閲 > 覧したページが、プロキシーソフトGetHTMLWのキャッ > シュとして逐次溜まっていく機能)で保存した場合で > もいえることでしょうか? 正直に言って,「GetHTMLW」と言うアプリケーションを使用したことはありません。(「波乗り野郎」や「HELEN」を使用しています) ですから,わかりかねるのですが,キャッシュ方法として,thmlファイルそのままの状態でキャッシュしているのであれば,そのように考えて良いですよ。 しかし,読み込んだファイルに,GetHTMLW独自の暗号をかけるとか圧縮するなどしてキャッシュされたファイルだった場合は,元の状態に戻し,かつ,ブラウザで表示させなければ,つまり,キャッシュファイルを直接開いてしまいますと,下手すると全体が文字化けしたように見えてしまうかもしれません。
その他の回答 (1)
- gakushaneko
- ベストアンサー率68% (2350/3407)
表示されている文字は,GetHTMLWなどのアプリケーションでは,無視しています。 ですから,表示の際に文字化けしていても問題ありません。 要は,htmlタグを読み込んで,「ファイル」を保存しているだけですので・・・。 ですから,1,2のどちらでも,ダウンロードは正常に行われます。(もちろん,タグに間違いがない場合のみですが・・・) なお,もし,ダウンロード出来ないファイルがあったとしましたら,たいていの場合,それは,JAVAスクリプトを使用してリンクされているファイルなどです。 ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。
補足
ご回答くださりありがとうございます。いただいた回答の中で、いくつか確認させていただけないでしょうか。 ■>(もちろん,タグに間違いがない場合のみですが・・・) これは外国のページに限らないわけですよね。 つまり 「日本語のページならタグに間違いがあるか否かに関わらず正常にDLが行われる。しかし外国語ページはタグに間違いがある場合は正常に行われない」 のではなく 「日本語のページも外国語のページもタグに間違いがある場合は正常にDLが行われない」 ということですよね。 ■>ただし,ダウンロードしたhtmlファイルを表示した場合は,1では文字化けしますし,2では文字化けしません。 1と2は逆ではないでしょうか? 融通が利かなくてすみません。 ■基本的に 「文字化けするページに遭遇するごとに言語パックをインストールする」 というスタイルはできれば避け、 「DLする時点では文字を読む必要がないページは、とりあえず文字化けしたままでも保存しておく。 もし、後に文字を正常に表示したくなる事があればその時に言語パックをインストールすれば いい。」 というスタイルにしたいのですが、基本的にオートパイロットでDLした場合、「2.」のようにDLした後から言語パックをインストールしても問題ないのですね。 ■またその事は、GetHTMLWのProxyMode2(ブラウザで閲覧したページが、プロキシーソフトGetHTMLWのキャッシュとして逐次溜まっていく機能)で保存した場合でもいえることでしょうか?
補足
詳しいご回答、まことにありがとうございます。ソースを表示したところOKWebでは普通に表示され、YahooやGOOではところどころ文字化けしておりましたが、タグの部分はしていなかったようです。 >GetHTMLWなどオートパイロット機能を持っているアプリケーションは, >先の回答で説明しているように,「タグ」を探し出し,そのタグを参考にして, >ファイルをダウンロードして,パソコン(ハードディスク)の中に保存しているだけです。 >そして,タグはキャラクターセットの影響を受けません。 キャラクターセットがインストールされている状態でも、されていない状態でも、HDに保存されるhtmlはバイナリ的には同じ物というわけですね。 ちなみに、GetHTMLWはhtmlをそのままの状態でキャッシュしているようです。 ■以上の事は、仰るようにタグがキャラクターセットの影響を受けないという条件下での事でしたが、 <a href="http://aaa.bbb.com/韓国語.midi"> のようにタグの中のリンクが、キャラクターセットの影響を受けるような文字で記述されている事はないのでしょうか? 以下それに関して ■「韓国語.midi」をオートパイロットがHDに保存する時のファイル名は、キャラクタセットがインストールされているか否かによって「韓国語.midi」になったり「○★△.midi」になったりするのでしょうか?(「韓国語」の文字化けが「○★△」になるとすると) それともキャラクタセットがインストールされている場合でも、オートパイロットはタグ内のリンクを「http://aaa.bbb.com/○★△.midi」 と解釈し、HDに保存されるファイル名も「○★△.midi」になるのでしょうか? なぜこのように申し上げるのかといいますと、うろ覚えですが日本語の漢字が混じっているURLを見た事がある気がするのです。