• ベストアンサー

wgetでのダウンロードについて

wgetでのダウンロードについて はじめまして。 HPのバックアップを取ろうと思い、wgetというものを使おうと思うのですが 取得できる物と、できない物があり、何故かがわからずに困っているので 理由、もしくは解決方法を御存じの方がいらっしゃいましたら、是非お教え下さい。 パソコンは、windows xpです。 (例) www.hoge.co.jp   L css(フォルダ)  L photo(フォルダ)  L image(フォルダ) index.html aaaaa.html という様な構造なのですが、cssフォルダの中の いくつかのファイルしか取得できませんでした。 (同じ様なスタイルシートで、拡張子は全て.cssです。) コマンドプロンプトで wget -r www.hoge.co.jp -P C:\wget という感じで実行しています。 全部DLできない訳ではないので、余計に悩んでいます。 みなさま、よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • mtaka2
  • ベストアンサー率73% (867/1179)
回答No.1

wget の -r オプションは、指定したファイル(今回の質問者さんの場合は index.html)から辿れるを全てダウンロードする、という機能です。 index.html および aaaaa.html で使われていない css ファイルや画像ファイルはダウンロードされません。 (index.html 中に aaaaa.html へのリンクが無かったりしたら、aaaaa.html もダウンロードされません) おそらく、index.html およびaaaaa.html を表示するのに必要なファイルはダウンロードできているはずです。

jalanja
質問者

お礼

ご回答ありがとうございます。 確かに使用している外部スタイルシートへHTMLファイルのソースにリンク設定しているもの (<link rel="alternate stylesheet" type="text/css" href="css/aaa.css" title="aaa">) は、ダウンロードできていましたが ( @import "css/bbb.css";)の様に、importしているものはできていないようです。 違いがよくわからないのですが、このファイルもダウンロードする方法があれば、ご教授お願い致します。

その他の回答 (1)

  • taka37777
  • ベストアンサー率30% (166/544)
回答No.2

簡単に操作できる巡回ソフトを使われた方が良いと思います。HPをローカルディスクに 保存してオフラインで閲覧できるという紹介がされているソフトであれば、ほぼすべて ダウンロードできると思います。 古いソフトですが、「まいダウン」http://www009.upp.so-net.ne.jp/midown/があります。

jalanja
質問者

お礼

ご回答ありがとうございます。 ご紹介頂いたソフトを早速試してみたのですが .cssと指定しても、includeしているcssファイルは 抽出できていないようでした・・・ もう少し悩んでみます^_^; ありがとうございました。

関連するQ&A

  • wgetコマンドの精度と取得階層数

    centos5 wgetコマンドを使って、WEBサイトのデータを丸ごと取得しました。 $ wget -r ftp://ftp.xxxxxx.co.jp/ ところが、下位階層のファイルやフォルダが取れていない事に気付きました。 ftpルート +-www   +-htdocs     +-content1     | +-file     | | +-image     | | | +-image1.png     | | +-css     | |   +-css1.css     | +-content1-1     | | +-file     | | | +-image     | | | | +-image1.png     | | | +-css     | | |   +-css1.css     | | +-index.html     | +-index.html     +-content2     +-image     | +-image1.png     +-css     | +-css1.css     +-js     | +-js1.css     +-index.html $ wget -r ftp://ftp.xxxxxx.co.jp/ で取得すると、下位階層のファイルが取得できていませんでした。 上記の例で言うと www/htdocs/content1/content1-1/file までは取れていて、 www/htdocs/content1/content1-1/fileの中身が空っぽです。 $ wget -r ftp://ftp.xxxxxx.co.jp/www や $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs で取得しても状況は変わらず。 $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 まで指定すると、 www/htdocs/content1/content1-1/file/image www/htdocs/content1/content1-1/file/css と、その中のファイルまで取得できました。 これは、どういう事? wget自体が、単に調子悪いとドンドン取りこぼしていく信頼のおけない機能なのか? 取得階層数のデフォルトが5になっていて、それ以上は明示的に指定が必要なのか? 試しに $ wget -r -l 99 ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 で99階層を指定してみると、最後までキッチリ取れました。 やっぱり、取得階層数のデフォルトが5なのか? それとも、通信が、たまたま調子良いか悪いかだけなのか? 取得階層数のデフォルトが5だとすれば、 $ wget -r ftp://ftp.xxxxxx.co.jp/ の時と $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/ の時がダメで $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 の時が取れる意味が分からない。 謎です。

  • wgetのヴァージョン?

    最近連続でお世話になっております(汗。。) 二以上のURLを指定したファイルを指定しwgetで取得しています。 url.csvには以下のようにurlが改行で記述されています。 ttp://aaa.jp/ ttp://bbb.jp/ ttp://ccc.jp/ 以下のコマンドで成功します。 オプションは(index.htmlを省いたhtmlファイルだけを取得) wget -nc -r -A html -R index.html -i url.csv しかし、違うそれもスペックが高い(cpu、メモリ、しかもデュアルコア)サーバで実行すると1件目はオプション通りにファイル群を取得しますが、2件目以降のurlはindex.htmlだけを取得してしまいます。 ちなみに、wgetのヴァージョンは成功するほうが1.8.2で失敗するほうが1.10.2です(後者のほうがヴァージョンも高いですよね) 何かお気づきの方がいればご教授下さい。

  • wgetで指定したURLの背景画像等の取得方法

    wgetを使ってファイルの階層構造を保ったまま、 指定したURLの関連ファイルだけ保存したいのですが CSSで指定された背景画像、JSでリンクされてるロールオーバーなどの画像を取得するには コマンドはどう記述したら良いのでしょうか? 保存したいのは、あくまで指定したURLを正常に表示する為に使用されてる関連ファイルだけです。 ちなみにFLASH等で外部ファイル化してるjsや画像も取得できる方法があれば教えていただけますでしょうか。

  • wgetのコマンドでは不可能?

    はじめまして、こんにちは。 wgetでpdfをダウンロードしようと試しているのですが、上手くいかず困っている為質問させて頂きます。「ttp://www.***.jp」というサイトの中の「/yuho/」より下のディレクトリにあるpdfファイルをダウンロードしようとしています。 ttp://www.***.jp ↓ ttp://www.***.jp/list/s1000.htm (s1000はs2000,s3000,,,s9000まである) ↓ ttp://www.***.jp/code/1301.htm (1301は1000,1001,,,9999まである) ↓ ttp://www.***.jp/yuho/1301.htm (1301は1000,1001,,,9999まである) ↓ ttp://www.***.jp/mark/20141114/S1003FL5.htm (20141114とS1003FL5はそれぞれ変動、このページにpdfファイルへのリンクがある) 上記の様にリンクが繋がっていて、 ディレクトリ「list」「code」「yuho」「mark」を取得対象とすれば良いのだろうと考え、wgetで -I オプションでディレクトリを list/,code/,yuho/,mark/と指定してみたのですが、上手く働きませんでした。 これはやはり階層構造になっていない為でしょうか? 余計なページのpdfをダウンロードせず、ディレクトリ「yuho」以下の階層にあるpdfをダウンロードする場合はどのようなwgetのコードを書けば良いのでしょうか? wgetでは不可能なのでしょうか? Irvineというダウンローダーで ttp://www.***.jp/yuho/1301.htm の「1301」の部分を1000から9999にして、ダウンロードする拡張子をpdfに指定、階層を2にして実行しましたがこれも失敗でした。 現在も色々調べておりますが、知恵が足りず大変困っております。 こういった分野に造詣が深い方がいらっしゃいましたら、どうかご教授下さい。 宜しくお願い致します。

  • [Dreamweaver8]テンプレートに外部CSSを適用→HTMLドキュメントにCSSが適用されないのは何故?

    Dreamweaver8初心者で、現在勉強中の者です。 Dreamweaverのテンプレート機能を使った、外部CSSの設定方法についてお尋ねします。 ディレクトリは現在、以下のような状態です。 [サイト -SampleWebSiteFolder-]    |―[Templates]    |   |―[style.css]    |    L―[template.dwt]    |     L[index.html] ※拡張子の無いものはフォルダを表します。 index.htmlファイルへCSSを適用させたいのですが、適用されないで困っています。 cssは、外部スタイルシートファイルを用意(style.css)し、テンプレート(template.dwt)に対して、CSSスタイルパネルの[スタイルシートを添付]ボタンより設定しています。 結果、テンプレート(template.dwt)に対してはCSSが適用されるのですが、HTMLドキュメント(index.html)にはCSSが適用されていない状態です。 テンプレートを用いて外部スタイルシートにてサイトを管理する場合、上記のケースにおける問題の原因は何でしょうか。 ちなみに、テンプレート[template.dwt]及び、HTMLドキュメント[index.html]の<head></head>内には、以下のソースが記述されています。 <link href="style.css" rel="stylesheet" type="text/css" />

  • wgetでSegmentation fault

    wgetでリンク先を1階層取得するのがうまくいかなくて困っています。 URLとIPは書き換えていますが、 $ wget -x -r -l 1 http://hoge.com/index1.html --2015-11-20 07:43:50-- http://hoge.com/index1.html hoge.com (hoge.com) をDNSに問いあわせています... ???.???.???.??? hoge.com (hoge.com)|???.???.???.???|:80 に接続しています... 接続しました。 HTTP による接続要求を送信しました、応答を待っています... 200 OK 長さ: 23494 (23K) [text/html] `hoge.com/index1.html' に保存中 hoge.com/inde 100%[=====================>] 22.94K --.-KB/s 時間 0.06s 2015-11-20 07:43:50 (372 KB/s) - `hoge.com/index1.html' へ保存完了 [23494/23494] robots.txtを読み込んでいます、エラーは無視してください。 --2015-11-20 07:43:50-- http://hoge.com/robots.txt hoge.com (hoge.com)|???.???.???.???|:80 に接続しています... 接続しました。 HTTP による接続要求を送信しました、応答を待っています... 404 Not Found 2015-11-20 07:43:50 エラー 404: Not Found。 `UTF-8' から `UTF-8' への変換はサポートしていません Segmentation fault といった感じになります。 http://hoge.com/robots.txt をブラウザのアドレスバーに入力しても 「Not Found The requested document was not found on this server. Web Server at hoge.com」 と表示されるだけです。 最後の 「`UTF-8' から `UTF-8' への変換はサポートしていません Segmentation fault」 が鍵になってるかなと思ったのですが、どうすればよいでしょうか?

  • FTPサーバ(IIS)のファイルをwgetで取得することができません。

    FTPサーバ(IIS)のファイルをwgetで取得することができません。 ※IISの既定のFTPサイト(通常C:\Inetpub\ftproot)直下にftpuser1 というフォルダを作成しておくと、このFTPサイトに ftpuser1でログオンした際、 カレント・フォルダが「/ftpuser1」となります。 1.DOS窓から次のコマンドを入力します。 d:\wget\wget.exe ftp://○.○.○.○/ftpuser1/test.txt --debug --append-output=d:\wget\log.txt --tries=3 --wait=60 --directory-prefix=d:\wget\test --ftp-user=ftpuser1 --ftp-password=ftpuser1 2.失敗したのでログを確認します。 「ftp://○.○.○.○/ftpuser1/」にあるファイルを取得したいのですが、 「ftp://○.○.○.○/ftpuser1/ftpuser1/」を参照しに行ってました。 ↓ログ Logging in as ftpuser1 ... 220 Microsoft FTP Service --> USER ftpuser1 331 Password required for ftpuser1. --> PASS ftpuser1 230 User ftpuser1 logged in. Logged in! ==> SYST ... --> SYST 215 Windows_NT done. ==> PWD ... --> PWD 257 "/ftpuser1" is current directory. done. ==> TYPE I ... --> TYPE I 200 Type set to I. done. changing working directory Prepended initial PWD to relative path: pwd: '/ftpuser1' old: 'ftpuser1' new: '/ftpuser1/ftpuser1' ==> CWD /ftpuser1/ftpuser1 ... --> CWD /ftpuser1/ftpuser1 550 /ftpuser1/ftpuser1: The system cannot find the file specified. No such directory `ftpuser1'. Closed fd 908 ちなみにフォルダ「ftp://○.○.○.○/ftpuser1/ftpuser1/」を作成したところ、 ファイルは取得できました。 なぜ「ftp://○.○.○.○/ftpuser1/ftpuser1/」を参照しに行くのか分かりません。 原因等分かりましたらご教授お願いします。 環境 ・接続先FTPサーバ  Windows Server 2003 R2  IIS 6.0 ・接続元  Windows 2000  wget 1.11.4

  • ファイル名の一部を一括変更 コマンドプロンプト

    先ほど 【拡張子のみ一括変更したい コマンドプロンプト】 http://okwave.jp/qa/q8862743.html で質問させていただき無事解決いたしました! どうもどうもありがとうございました! 更に同じような内容になるのかとは思いますが、 どうぞこの素人にご指導くださいます様お願いします。 あるフォルダに入っている下記のようなjpg画像があります。 コマンドプロンプトを使用して『photo』部分のみを削除したいのですが、 可能でしょうか?    ・    ・    ・ 『2014_1215photo.jpg』→『2014_1215.jpg』 『2014_1216photo.jpg』→『2014_1216.jpg』 『2014_1217photo.jpg』→『2014_1217.jpg』 『2014_1218photo.jpg』→『2014_1218.jpg』    ・    ・    ・ *フォルダ内のファイルはすべてjpg *すべて上記の規則にのったファイル名 *windoews8 どうぞよろしくお願いいたします。

  • コマンドプロンプトでhtml

    競馬.htmlというファイルとそのcssがはいった競馬.filesというフォルダがあり、競馬.htmlのファイル名を001.htmlに変換したら、cssがきかなくなり、htmlそのままの状態になったのですが、 コマンドプロンプトのcopyコマンドで別のhtmlファイルと結合させたらなぜか、001.htmlのcssが復活していたのですが、これはなぜでしょうか?

  • サイトを丸ごとダウンロードできるダウンローダーを探しています。

    やりたいことは次のようなことです。 サイトのトップページを与えると、リンクをたどってそのサイト内のファイル、画像、スタイルシート、flash、jsなど全てをディレクトリ構造ごと保存したいです。 いままでIrvineを使用していたのですが、(たとえば)cssで背景に設定された画像が取得できないので、別のソフトを探しています。。 特に、スタイルシートで背景に設定された画像の取得をできるものがあれば教えてください