ベストアンサー

wgetの使い方

2007/04/16 09:34

mauraの回答

maura
ベストアンサー率46% (48/104)

2007/04/16 10:23 回答No.2

wget --spider --output-file=out.log http://www.hoge.com/

参考URL：: http://www.geocities.jp/horiuchimasaru/wget.html

質問者

お礼 2007/04/16 14:02

ありがとうございます。一歩前に進めました！さらに再帰的にチェックをかけようとして次のようにしたところ、 wget --spider --output-file=out.log -r -l 3 http://www.hoge.com/ 下記のエラーメッセージが出てきました。スパイダーモードでは再起チェックはできないのでしょうか？ -----（ここから）----- hoge.com/index.html: No such file or directory FINISHED --13:57:49-- Downloaded: 0 bytes in 0 files -----（ここまで）-----

この回答がついた質問に戻る

回答全件

ベストアンサー

spiderとは、 HEAD Method でリクエストしています。…

- maura
2007/04/16 15:21

PHPでしたいという質問でしょうか？それとも単にwgetのspid…

- yambejp
2007/04/16 10:05

関連するQ&A

外部のphpファイルをブラウザ表示させるコマンド
外部のphpファイル(自分以外のサーバーにあるphpファイル)を、ある程度間隔を空けつつも、次々にアクセス（ブラウザ表示と同じ動作）していきたいと思っています。試しに下記のようなシェルスクリプトを作成して、cronで動かしてみたのですが、うまくいきませんでした。また、目的はアクセス(ブラウザで表示するのと同じ動作)するだけなので、wgetを使わなくても良いような気がするのですが、他に何を使うべきなのか分かりませんでした。 #!/bin/sh wget --spider http://example.com/index.php sleep 5 wget --spider http://example.com/index.php?p=2 sleep 5 wget --spider http://example.com/index.php?p=3 sleep 5 wget --spider http://example.com/index.php?p=4 sleep 5 wget --spider http://example.com/index.php?p=5 exit 根本的に何か間違っているのでしょうか、あるいは、他にどのような方法があるでしょうか？
- ベストアンサー
- Linux系OS
wgetのオプション
いつもお世話になります。 wgetを使ってサイトの取得を色々試しています。例：あるブログを取得。ブログは毎日更新されている。昨日wgetでブログを取得。今日もブログを取得した場合、更新又は新規ファイルだけを取得したい。条件で言えば『取得済みのファイルは取得しないが、タイムスタンプが変更している場合は取得する。勿論新規ファイルも取得』オプションの-nc(取得済みファイルは取得しない)、-N(タイムスタンプを見る)を同時に指定すると以下のエラーが出ます。「-Nと-ncとを同時には指定できません。」何か方法はないのでしょうか？宜しくお願いします。
- 締切済み
- Linux系OS
PHPで動的に生成されるCSVをサーバーに保存
業務処理を自動化するためにPHPで動的に生成されるCSVファイルを、WEBサーバーに保存したいと思っています。 wgetコマンドを使って保存しようと思っていますが、リンクにGETパラメータ？（http://hogehoge.com/hoge.php?hoge=1&hoge=2）が設定されているためかcsvが生成さずPHPページ（hoge.php）が保存されてしまいます。実行したwgetコマンド /usr/local/bin/wget /home/useraccount/www/hoghog/hog.csv 'http://hogehoge.com/hoge.php?hoge=1&hoge=2' -O - また、phpファイルを生成し、 <?php $file = 'http://hogehoge.com/hoge.php?hoge=1&hoge=2'; $newfile = 'test.csv'; if (!copy($file, $newfile)) { echo "failed to copy $file...\n"; } ?> と上記のようにやっても同じ結果でした。ブラウザ上のURLバーでhttp://hogehoge.com/hoge.php?hoge=1&hoge=2とするとCSVファイルの保存画面が出てくるページなのですが、何か良い方法はありませんでしょうか。よろしくお願いします。
- ベストアンサー
- PHP
wgetでサイトダウンロード時のトラブル
サイトまるごとダウンロードしようと思い（自己サーバ、自己コンテンツ） wget -r -l 0 http://example.com しましたが、どうも行儀悪いCMSで書きだされているHTMLらしく <img src=1234 .jpg> のように画像タグ途中に改行が入っており wget は改行も含めたURLに画像を取りに行くためNOT FOUNDなります。何かしら良い手は無いでしょうか？
- ベストアンサー
- Linux系OS
wgetでファイル名を指定してページを保存するには
wgetでページを保存したいのですが、ローカル側に保存するページ名を自分の好きな名前にしたいです。どうしたら良いでしょうか？たとえば次のような感じです。 ○リモートファイル名：「http:www.test.com/test_page.htm」 ○ローカルファイル名：「hoge1.htm」
- 締切済み
- その他（プログラミング・開発）
VISTAでのwgetのタスク登録方法
wgetで、テキストファイルに羅列したurlのサイトを自動でダウンロードしたいのですが、 XPで使っていたときは、タスクに D:\wget\wget.exe -i url.txt と入力して、うまくいっていました。しかし、vistaで同じことをしたいのですが、うまくいきません。 D:\wget\wget.exe 引数　-i url.txt としているのですが、間違っているでしょうか？コマンドプロンプトで直接 D:\wget\wget.exe -i url.txt と入力すると、狙い通りの動作をしてくれるのですが、タスクに登録しても、時間がくると一瞬コマンドプロンプトの画面が映るだけでダウンロード等せずに終了してしまいます。どうかアドバイスをお願いします。
- ベストアンサー
- Windows Vista
wgetで指定したファイルだけダウンロードするには？
wgetのファイル収集ツールで指定したファイルだけをダウンロードする方法はどうしたら良いのでしょうか？イメージとしてはこのサイトの http://shupla.w-jp.net/items/wget.html 『３．使い方』を応用したいのですが、余計なファイル、ディレクトまでダウンロードしていまい上手くいかないのです。例えばテキストファイルに http://www.yahoo.co.jp/index.html http://k.yimg.jp/images/top/sp/logo.gif http://k.yimg.jp/images/sh/recommend/84_84_0053.gif こんな感じで書いて、この“３ファイルだけ”を差分ファイルとしてダウンロードしたい場合です。ちなみに仕様してるOSはWindowsXPです。ご教示いただきたくお願いいたします。
- 締切済み
- Windows系OS
kshでのNULLの比較
以下のスクリプトを作成し、変数に格納された値がNULLか調べたいと思っていますが、エラーが出力されてしまいます。 ■スクリプトの中身 #!/usr/bin/ksh HOGE="" if [ ${HOGE} != "" ]; then echo "${HOGE}" fi if [ -n ${HOGE} ]; then echo "${HOGE}" fi ■エラー + HOGE= + [ != ] hoge[5]: test: 0403-004 このコマンドにはパラメーターを指定してください。 + [ -n ] hoge[8]: test: 0403-004 このコマンドにはパラメーターを指定してください。変数の中身がnullの場合、どのような比較条件を記述すればよいのでしょうか?
- 締切済み
- その他（プログラミング・開発）
エスケープしたくない、けど、したいのもある
とあるテキストデータ(.txt)を読み込み、それを表示するスクリプトをPHPで作りました。その際、もしテキストデータにHTMLタグが入っている場合、そのまま出力させて、タグが有効になるようにしています。 (というかテキストを何も処理せずそのまま出力するだけ) (セキュリティ的には、テキストデータは信頼できる自サイトの同一ディレクトリに置いてあるものからしか読み込ませないようになっています) しかし、今度は逆に、もしそのテキストデータに「<hoge>」などの文字がふくまれていた場合、ブラウザはそれをタグと認識し、見えない表示になります。本当は見えるようにそこは「<hoge>」と出力してほしいわけです。かと言って、 echo htmlspecialchars($txt, ENT_QUOTES|ENT_HTML5, "UTF-8"); などエスケープして出力すると、今度はHTMLタグとして出力させたい「<br>」なども「<br>」として出力されてしまい都合が悪いです.. ようは、「こんにちは<hoge><br>ほげ」という文字列のテキストを、「こんにちは<hoge><br>ほげ」と出力してほしい.. もちろんテキストは「hoge」であるとは限りません。何かよい解決方法はないでしょうか? ご教示頂けましたら幸いです。
- ベストアンサー
- PHP
wgetコマンドの精度と取得階層数
centos5 wgetコマンドを使って、WEBサイトのデータを丸ごと取得しました。 $ wget -r ftp://ftp.xxxxxx.co.jp/ ところが、下位階層のファイルやフォルダが取れていない事に気付きました。ｆｔｐルート＋－www 　　＋－htdocs 　　　　＋－content1 　　　　｜　＋－file 　　　　｜　｜　＋－image 　　　　｜　｜　｜　＋－image1.png 　　　　｜　｜　＋－css 　　　　｜　｜　　　＋－css1.css 　　　　｜　＋－content1-1 　　　　｜　｜　＋－file 　　　　｜　｜　｜　＋－image 　　　　｜　｜　｜　｜　＋－image1.png 　　　　｜　｜　｜　＋－css 　　　　｜　｜　｜　　　＋－css1.css 　　　　｜　｜　＋－index.html 　　　　｜　＋－index.html 　　　　＋－content2 　　　　＋－image 　　　　｜　＋－image1.png 　　　　＋－css 　　　　｜　＋－css1.css 　　　　＋－js 　　　　｜　＋－js1.css 　　　　＋－index.html $ wget -r ftp://ftp.xxxxxx.co.jp/ で取得すると、下位階層のファイルが取得できていませんでした。上記の例で言うと www/htdocs/content1/content1-1/file までは取れていて、 www/htdocs/content1/content1-1/fileの中身が空っぽです。 $ wget -r ftp://ftp.xxxxxx.co.jp/www や $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs で取得しても状況は変わらず。 $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 まで指定すると、 www/htdocs/content1/content1-1/file/image www/htdocs/content1/content1-1/file/css と、その中のファイルまで取得できました。これは、どういう事？ wget自体が、単に調子悪いとドンドン取りこぼしていく信頼のおけない機能なのか？取得階層数のデフォルトが５になっていて、それ以上は明示的に指定が必要なのか？試しに $ wget -r -l 99 ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 で９９階層を指定してみると、最後までキッチリ取れました。やっぱり、取得階層数のデフォルトが５なのか？それとも、通信が、たまたま調子良いか悪いかだけなのか？取得階層数のデフォルトが５だとすれば、 $ wget -r ftp://ftp.xxxxxx.co.jp/ の時と $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/ の時がダメで $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 の時が取れる意味が分からない。謎です。
- ベストアンサー
- その他（プログラミング・開発）

wgetの使い方

mauraの回答

お礼 2007/04/16 14:02

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

wgetの使い方

mauraの回答

お礼 2007/04/16 14:02

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

カテゴリ
一覧

専門家に質問してみよう
専門家登録