• 締切済み

wgetのヴァージョン?

最近連続でお世話になっております(汗。。) 二以上のURLを指定したファイルを指定しwgetで取得しています。 url.csvには以下のようにurlが改行で記述されています。 ttp://aaa.jp/ ttp://bbb.jp/ ttp://ccc.jp/ 以下のコマンドで成功します。 オプションは(index.htmlを省いたhtmlファイルだけを取得) wget -nc -r -A html -R index.html -i url.csv しかし、違うそれもスペックが高い(cpu、メモリ、しかもデュアルコア)サーバで実行すると1件目はオプション通りにファイル群を取得しますが、2件目以降のurlはindex.htmlだけを取得してしまいます。 ちなみに、wgetのヴァージョンは成功するほうが1.8.2で失敗するほうが1.10.2です(後者のほうがヴァージョンも高いですよね) 何かお気づきの方がいればご教授下さい。

みんなの回答

回答No.2

GNUのmanpageを見ると http://www.gnu.org/software/wget/manual/wget.html Note that these two options do not affect the downloading of html files (as determined by a ‘.htm’ or ‘.html’ filename prefix). This behavior may not be desirable for all users, and may be changed for future versions of Wget. と書いていますね。なお、ファイル名を指定すること自体は可能で、ワールドカードも使用できます。 バージョンによって、htmlファイルを指定したときの挙動が違うのかもしれません。 あと、url.csvの1行めと2行めを入れ替えると、1件めがindex.htmlだけを取得して、2件めがオプション通りにファイル群を取得するてことないですか? .htmlじゃなく.htmだったりして? wget -nc -r -A html,htm -R "index.htm*" -i url.csv

gogovamos
質問者

補足

シェル内に以下を追記することで、現象を解消できました。 export LANG=C export LC_ALL=C しかし、コマンドを直打ちの場合は上手く良くのですが、cronで実行させると再び2件目移行はinde.htmlだけの取得となります。 こちらは締め切りますが、上でも質問させて頂きましたので引き続きご教授をお願いいたします。

  • tk_uc
  • ベストアンサー率68% (33/48)
回答No.1

手元のマシンで1.10.2のhelpを見ると、 -R, --reject=LIST ダウンロードしない拡張子をコンマ区切りで指定する とありますので、「-R index.html」の指定がおかしいのでは?

gogovamos
質問者

補足

wgetのヴァージョンが関係あるのかは定かではありませんが、 1.8.2があるサーバでは期待通りに取ってくれるのですよね。。。 しかし、1.10.2でも1件目はindex.html以外のhtmlを全て取得しますが、2件目以降は反対にinde.htmlだけを取得します??? >とありますので、「-R index.html」の指定がおかしいのでは? index.html以外の全てのhtmlファイルだけを取得オプションってどう書くのでしょうか?

関連するQ&A

専門家に質問してみよう