• ベストアンサー

wgetの使い方

mauraの回答

  • maura
  • ベストアンサー率46% (48/104)
回答No.2

wget --spider --output-file=out.log http://www.hoge.com/

参考URL:
http://www.geocities.jp/horiuchimasaru/wget.html
kumar
質問者

お礼

ありがとうございます。一歩前に進めました! さらに再帰的にチェックをかけようとして次のようにしたところ、 wget --spider --output-file=out.log -r -l 3 http://www.hoge.com/ 下記のエラーメッセージが出てきました。スパイダーモードでは再起チェックはできないのでしょうか? -----(ここから)----- hoge.com/index.html: No such file or directory FINISHED --13:57:49-- Downloaded: 0 bytes in 0 files -----(ここまで)-----

関連するQ&A

  • 外部のphpファイルをブラウザ表示させるコマンド

    外部のphpファイル(自分以外のサーバーにあるphpファイル)を、ある程度間隔を空けつつも、次々にアクセス(ブラウザ表示と同じ動作)していきたいと思っています。 試しに下記のようなシェルスクリプトを作成して、cronで動かしてみたのですが、うまくいきませんでした。 また、目的はアクセス(ブラウザで表示するのと同じ動作)するだけなので、wgetを使わなくても良いような気がするのですが、他に何を使うべきなのか分かりませんでした。 #!/bin/sh wget --spider http://example.com/index.php sleep 5 wget --spider http://example.com/index.php?p=2 sleep 5 wget --spider http://example.com/index.php?p=3 sleep 5 wget --spider http://example.com/index.php?p=4 sleep 5 wget --spider http://example.com/index.php?p=5 exit 根本的に何か間違っているのでしょうか、あるいは、他にどのような方法があるでしょうか?

  • wgetのオプション

    いつもお世話になります。 wgetを使ってサイトの取得を色々試しています。 例:あるブログを取得。ブログは毎日更新されている。 昨日wgetでブログを取得。今日もブログを取得した場合、更新又は新規ファイルだけを取得したい。 条件で言えば『取得済みのファイルは取得しないが、タイムスタンプが変更している場合は取得する。勿論新規ファイルも取得』 オプションの-nc(取得済みファイルは取得しない)、-N(タイムスタンプを見る)を同時に指定すると以下のエラーが出ます。 「-Nと-ncとを同時には指定できません。」 何か方法はないのでしょうか? 宜しくお願いします。

  • PHPで動的に生成されるCSVをサーバーに保存

    業務処理を自動化するためにPHPで動的に生成されるCSVファイルを、WEBサーバーに保存したいと思っています。 wgetコマンドを使って保存しようと思っていますが、リンクにGETパラメータ?(http://hogehoge.com/hoge.php?hoge=1&hoge=2)が設定されているためかcsvが生成さずPHPページ(hoge.php)が保存されてしまいます。 実行したwgetコマンド /usr/local/bin/wget /home/useraccount/www/hoghog/hog.csv 'http://hogehoge.com/hoge.php?hoge=1&hoge=2' -O - また、phpファイルを生成し、 <?php $file = 'http://hogehoge.com/hoge.php?hoge=1&hoge=2'; $newfile = 'test.csv'; if (!copy($file, $newfile)) { echo "failed to copy $file...\n"; } ?> と上記のようにやっても同じ結果でした。 ブラウザ上のURLバーでhttp://hogehoge.com/hoge.php?hoge=1&hoge=2とするとCSVファイルの保存画面が出てくるページなのですが、何か良い方法はありませんでしょうか。 よろしくお願いします。

    • ベストアンサー
    • PHP
  • wgetでサイトダウンロード時のトラブル

    サイトまるごとダウンロードしようと思い(自己サーバ、自己コンテンツ) wget -r -l 0 http://example.com しましたが、どうも行儀悪いCMSで書きだされているHTMLらしく <img src=1234 .jpg> のように画像タグ途中に改行が入っており wget は改行も含めたURLに画像を取りに行くためNOT FOUNDなります。 何かしら良い手は無いでしょうか?

  • wgetでファイル名を指定してページを保存するには

    wgetでページを保存したいのですが、ローカル側に保存するページ名を自分の好きな名前にしたいです。どうしたら良いでしょうか? たとえば次のような感じです。 ○リモートファイル名:「http:www.test.com/test_page.htm」 ○ローカルファイル名:「hoge1.htm」

  • VISTAでのwgetのタスク登録方法

    wgetで、テキストファイルに羅列したurlのサイトを自動でダウンロードしたいのですが、 XPで使っていたときは、タスクに D:\wget\wget.exe -i url.txt と入力して、うまくいっていました。 しかし、vistaで同じことをしたいのですが、うまくいきません。 D:\wget\wget.exe 引数 -i url.txt としているのですが、間違っているでしょうか? コマンドプロンプトで直接 D:\wget\wget.exe -i url.txt と入力すると、狙い通りの動作をしてくれるのですが、 タスクに登録しても、時間がくると一瞬コマンドプロンプトの画面が映るだけで ダウンロード等せずに終了してしまいます。 どうかアドバイスをお願いします。

  • wgetで指定したファイルだけダウンロードするには?

    wgetのファイル収集ツールで 指定したファイルだけをダウンロードする方法はどうしたら良いのでしょうか? イメージとしてはこのサイトの http://shupla.w-jp.net/items/wget.html 『3.使い方』 を応用したいのですが、 余計なファイル、ディレクトまでダウンロードしていまい上手くいかないのです。 例えばテキストファイルに http://www.yahoo.co.jp/index.html http://k.yimg.jp/images/top/sp/logo.gif http://k.yimg.jp/images/sh/recommend/84_84_0053.gif こんな感じで書いて、この“3ファイルだけ”を差分ファイルとしてダウンロードしたい場合です。 ちなみに仕様してるOSはWindowsXPです。 ご教示いただきたくお願いいたします。

  • kshでのNULLの比較

    以下のスクリプトを作成し、変数に格納された値がNULLか調べたいと思っていますが、エラーが出力されてしまいます。 ■スクリプトの中身 #!/usr/bin/ksh HOGE="" if [ ${HOGE} != "" ]; then echo "${HOGE}" fi if [ -n ${HOGE} ]; then echo "${HOGE}" fi ■エラー + HOGE= + [ != ] hoge[5]: test: 0403-004 このコマンドにはパラメーターを指定してください。 + [ -n ] hoge[8]: test: 0403-004 このコマンドにはパラメーターを指定してください。 変数の中身がnullの場合、どのような比較条件を記述すればよいのでしょうか?

  • エスケープしたくない、けど、したいのもある

    とあるテキストデータ(.txt)を読み込み、それを表示するスクリプトをPHPで作りました。 その際、もしテキストデータにHTMLタグが入っている場合、そのまま出力させて、タグが有効になるようにしています。 (というかテキストを何も処理せずそのまま出力するだけ) (セキュリティ的には、テキストデータは信頼できる自サイトの同一ディレクトリに置いてあるものからしか読み込ませないようになっています) しかし、今度は逆に、もしそのテキストデータに「<hoge>」などの文字がふくまれていた場合、ブラウザはそれをタグと認識し、見えない表示になります。 本当は見えるようにそこは「&lt;hoge&gt;」と出力してほしいわけです。 かと言って、 echo htmlspecialchars($txt, ENT_QUOTES|ENT_HTML5, "UTF-8"); などエスケープして出力すると、今度はHTMLタグとして出力させたい「<br>」なども「&lt;br&gt;」として出力されてしまい都合が悪いです.. ようは、 「こんにちは<hoge><br>ほげ」 という文字列のテキストを、 「こんにちは&lt;hoge&gt;<br>ほげ」 と出力してほしい.. もちろんテキストは「hoge」であるとは限りません。 何かよい解決方法はないでしょうか? ご教示頂けましたら幸いです。

    • ベストアンサー
    • PHP
  • wgetコマンドの精度と取得階層数

    centos5 wgetコマンドを使って、WEBサイトのデータを丸ごと取得しました。 $ wget -r ftp://ftp.xxxxxx.co.jp/ ところが、下位階層のファイルやフォルダが取れていない事に気付きました。 ftpルート +-www   +-htdocs     +-content1     | +-file     | | +-image     | | | +-image1.png     | | +-css     | |   +-css1.css     | +-content1-1     | | +-file     | | | +-image     | | | | +-image1.png     | | | +-css     | | |   +-css1.css     | | +-index.html     | +-index.html     +-content2     +-image     | +-image1.png     +-css     | +-css1.css     +-js     | +-js1.css     +-index.html $ wget -r ftp://ftp.xxxxxx.co.jp/ で取得すると、下位階層のファイルが取得できていませんでした。 上記の例で言うと www/htdocs/content1/content1-1/file までは取れていて、 www/htdocs/content1/content1-1/fileの中身が空っぽです。 $ wget -r ftp://ftp.xxxxxx.co.jp/www や $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs で取得しても状況は変わらず。 $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 まで指定すると、 www/htdocs/content1/content1-1/file/image www/htdocs/content1/content1-1/file/css と、その中のファイルまで取得できました。 これは、どういう事? wget自体が、単に調子悪いとドンドン取りこぼしていく信頼のおけない機能なのか? 取得階層数のデフォルトが5になっていて、それ以上は明示的に指定が必要なのか? 試しに $ wget -r -l 99 ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 で99階層を指定してみると、最後までキッチリ取れました。 やっぱり、取得階層数のデフォルトが5なのか? それとも、通信が、たまたま調子良いか悪いかだけなのか? 取得階層数のデフォルトが5だとすれば、 $ wget -r ftp://ftp.xxxxxx.co.jp/ の時と $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/ の時がダメで $ wget -r ftp://ftp.xxxxxx.co.jp/www/htdocs/content1 の時が取れる意味が分からない。 謎です。