検索ロボットが更新日を知る方法は?
- 検索ロボットが更新日を知る方法は?自分のサイトのページを更新すると、サーチエンジンのロボット(クローラ)が「見に来る」ようですが、更新されたことをどうやってチェックしているのでしょうか?
- 検索ロボットがサイトの更新をチェックする方法について教えてください。自分のサイトのページを更新すると、サーチエンジンのロボット(クローラ)がアクセスしてくるそうですが、具体的にはどのようにチェックしているのでしょうか?
- 自分のサイトの更新を検索ロボットがどのようにチェックしているのか知りたいです。ページを更新すると、サーチエンジンのロボット(クローラ)がアクセスしてくることがありますが、その仕組みについて詳しく教えてください。
- ベストアンサー
検索ロボットが更新日を知る方法は?
自分のサイトのページを更新すると、サーチエンジンのロボット(クローラ)が「見に来る」ようですが、更新されたことをどうやってチェックしているのでしょうか? まずアクセスして更新されたかどうか内容をチェックするのだろうと思っていたのですが、更新しないとクローラのアクセスがなく、更新するとそれっとばかりに「見に来る」ようなのですが⋯。 とりあえずアクセスして内容が変わっているかどうか調べるのであれば、更新していなくてもアクセスログに残りますよね? ブラウザがファイルを要求してダウンロードするようなデータの流れなしで、ネット上のサイトのファイルのタイムスタンプを読みとれるものなのでしょうか? どなたかご存知の方、教えてください。
- maomao55
- お礼率89% (59/66)
- HTML
- 回答数5
- ありがとう数3
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
取れますよ。 普段ブラウザには表示されませんが、実はブラウザは内部で「HTTPヘッダ」と呼ばれる情報を受け取っています。 このヘッダにはサーバー情報や接続情報などのほかに、「これから受信しようとしているファイルの情報」も含まれています。 それを見て、ファイルサイズとそのファイルの最終更新日付を知ることができます。 通常ロボットは、現在手元にあるファイルの情報と比較し、「ヘッダに日付があればそれを見て更新されたかどうかを判断。日付が渡ってこなければサイズを見て判断」というロジックで、サーバー上のファイルの更新状況を判断します。 更新されていなければ、アクセスを中止すればいいんです。 ただし、それを知るためには「サーバー側がそういう情報を返すように設定されている」ことが条件です。 中には、プロバイダのポリシーなどにより、ファイルサイズも日付もどっちも返さないようなサーバーもあります(滅多にないですけどね)。 そういうサーバー上にあるファイルにアクセスする場合、更新されたかどうかをあらかじめ知ることはできません。
その他の回答 (4)
更新日付の話を書き忘れてました(^_^; 滅多に返ってこないのは、お手持ちのチェックツールが悪いわけではありません。 サーバーの設定をするプログラマが悪いのです。 まぁ、端的に言って面倒くさいんですな。 実際、どういう「日付形式」にすればいいのかという仕様が決まっているわけではないので、仮にあったとしても「クローラが解析しやすい形式」になかなかできないんですよ(^_^; だもんで、「ああ、もういいや! メンドくさ!」って感じで、手間を省くために日付を返さないように設定するんです。
補足
> たまたまそういうふうに見えるだけです。 やっぱりそうなんですか。私が管理しているある通販サイトで、15ある商品カテゴリの中で(それぞれ10~30ページくらい商品ページがあります)商品入れ替えや価格改定などの変更があったカテゴリのページだけにアクセスしてくるように思えたものですから…。 Googleなども最近データ収集の方法を大幅に変更したらしいですし、おっしゃるように「実際にはもっと複雑」なんでしょうね。 ただ、ひとつ疑問が残ります。 > 中には、プロバイダのポリシーなどにより、ファイルサイズも日付もどっちも返さないようなサーバーもあります(滅多にないですけどね)。 ということですが、実際に5ヵ所ほどあのツールでチェックしてみたら、どこも.htmlファイルの更新日を返しませんでした。 ひょっとして、「サーバーの設定をするプログラマが悪い」というのは自分のことかなと…。 今までSSIを.htmlで使えるようにするとか、ファイルリスト取得禁止やエラー画面のカスタマイズなどを.htaccessで設定してきましたが、更新日を返すかどうかも.htaccessで設定できるのでしょうか? すみません、「.htaccessで設定できることは?」みたいな質問を別にするべきですかね…。
>更新したときだけクローラが「見に来る」 これはたまたまそういうふうに見えるだけです。 以前の更新頻度から、だいたいの次回更新時期を察知してその想定のもとにデータを取りに来ます。 無意識のうちに定期的に更新している人には、クローラがあらかじめ別の方法で更新を察知しているように見えるのです。 (実際にはもっと複雑ですが) 俺は最近自分ちのログチェックにハマってるから分かるんですけど、あなたの更新作業を目で見て「あ、行かなきゃ」って思ってるわけじゃないのですよ。
>HTTPヘッダを見るツールなんてものはないんでしょうか あー。あってもよさそうですね。 今ベクター見たらいくつかあるみたいですよ。 「HTTP ヘッダ」で探せば出てきます。
お礼
自分で探さなきゃだめですよね、すみません。 補足にも書きましたが、「HTTPヘッダを見るツール」で見た限りでは、ほとんどのサイトが更新日を返さないようでした。でも、お答えには「滅多にないですけどね」とあります、このツールがだめなんでしょうか? あ、それも自分で調べないといけないですね。
補足
> 「HTTP ヘッダ」で探せば出てきます。 ご親切にありがとうございます。早速「httpRequest Ver.1.01」というのを使ってみました。 はじめてのことで、かなり戸惑いましたが、分かったことは、 ●独自ドメインのサイトではほとんどタイムスタンプは読みとれない(.css、.js、.gif、.jpgは可能なところもある) ●いわゆるプロバイダのホームページスペースにある.htmlはOK。 というところです。となると、またまた振り出しに戻ってしまうんですが、独自ドメインのサイトで(レンタルサーバですが)更新したときだけクローラが「見に来る」のは、どうやって更新を知るのでしょうか?
- Dpop
- ベストアンサー率51% (279/544)
想像ですが。。。 前回見に行った時の、ファイルサイズを持っているんじゃ無いでしょうか? ファイルサイズに変化があったら更新されている。と言う一つの判断になると思います。 サイズが変わらない更新(文字数を変えずに、内容を変更したとか。)の場合、この方法では取り出せませんが。
お礼
ご意見ありがとうございました。
関連するQ&A
- ロボット型サーチエンジンにも登録できない
先日、ドメインを取りましてホームページを作りUPし、各サーチエンジンに登録しましたが、ロボット型のサーチエンジンにも登録できない状況です。アクセスログをみても検索サイトからのアクセスはありません。こんなことってあるのでしょうか?ちなみに登録してから2週間ほどたちます。どなたか解る方がおりましたらお願いします。
- ベストアンサー
- その他(インターネット・Webサービス)
- 検索サイトのクローラー(ロボット)
中国やロシアの検索サイト「百度」、「Yandex」のクローラー(ロボット)は、なぜアクセス元ホストやユーザーエージェントを偽装してアクセスしてくるのでしょうか。 検索サイトが身元を隠してアクセスしてくる理由、メリットとはなんでしょうか。
- ベストアンサー
- その他(ITシステム運用・管理)
- ロボット検索登録
ロボット検索エンジン(任意)に自分で登録は出来ますでしょうか?サーチエンジン会社にかまわず、ファイルをアップした後すぐに自分で登録したいのです。ソフトやCGIプログラム等で出来るのであれば教えていただけないでしょうか?
- 締切済み
- その他(インターネット・Webサービス)
- ロボット型検索エンジンの検索方法
ロボット型検索エンジンは、一体どういう仕組みで検索されているのでしょうか? サイトによっては、METAタグを拾っているようですけど、 私はMETAタグは一切入れていません。 それでもアクセス解析を見るとGoogleやYahoo、Infoseekなどなどの検索サイトから とんできている人が結構います。 (各サイトに登録もしていません) また、私は全ページをPHPで作成をし、 MySQLからデータを取って表示するという動的ページにしています。 私の認識では、動的ページは、検索エンジンに引っかからなかったと思うのですけど、 どうやら、ログを見ると、動的ページすら引っかかっているようなのですけど…。 (さすがに引数が必要なページでは引数は拾ってませんが) 単なる素朴な疑問ですので、 詳しい方、お時間のある時にでも教えてください。 又は、詳しいサイトがあったらURLを教えてください。
- 締切済み
- その他(インターネット・Webサービス)
- サイト内検索をしたい ロボット検索を拒否していても
仲間内での掲示板の書き込みの過去ログを、自分のHPスペースに保管しています。仲間内の秘密を守りたいので、すべてのログはロボット検索エンジンを拒否する設定にしています。 しかし過去ログが増え過ぎて、サイト内検索をする必要が出てきました。高額な企業用のサイト内検索を導入することはできません。 無料のサイト内検索では、ロボット検索エンジンで検索する所ばかりです。ページにロボット検索エンジン拒否の設定meta name="robots" content="noindex,nofollow"にしていても、なおかつ自分のページの中だけはサイト内検索をしたい。そういう我儘を聞いてくれるところがないでしょうか。
- 締切済み
- その他(インターネット・Webサービス)
- ロボット型検索エンジンについて詳しく知りたいです。また、ロボット型でアクセス数を増やす為にはどうすればいいのでしょうか?
自分のサイトをロボット型検索エンジンに登録したりしているのですが、いまいち詳しくわかりません。また、ロボット型で、アクセス数を増やすにはどうすればいいのでしょうか?教えて下さい。
- ベストアンサー
- その他(インターネット・Webサービス)
- サーチエンジンのロボット検索回避
サーチエンジン(CGIのリンク集)を開設しています。 事情あって、内容等をYahoo!やGoogleなどの自動ロボット検索に探し当てて欲しくありません。 ホームページの作成の際には<meta name="robots" content="noindex,nofollow">タグの挿入をしましたが、CGIの場合の回避方法があったらご教授下さい。 一応、CGIセットの中のHTMLファイル内には全て挿入してありますが、それでロボットアクセス回避は可能でしょうか。
- ベストアンサー
- CGI
- PHPでタイムスタンプ以外の更新日を取得する方法は
filemtimeで更新日を取得できますが、これはタイムスタンプですよね。 2038年問題を考えると、タイムスタンプを使うものは極力避けたいと思っております。 DateTimeみたいに、タイムスタンプ以外のもので、ファイルの更新日を取得できるものはありませんか?
- ベストアンサー
- PHP
- 検索エンジンロボットはPHPタグが見えるのか?
検索エンジンロボットはPHPタグが見えるのか? googleやMSNなどの検索エンジンロボットは、PHPのタグを読んでプログラムを見ているのでしょうか、それともサーバ側でPHPのプログラムが処理された結果しか見れないのでしょうか? たとえば下記のようなページを用意したとして、 ----------- A. webページHTML index.php <p>鉛筆</p> <p>ノート</p> <p><?php include("file.php"); ?></p> ----------- ----------- B. fine.php 秘密のファイル ----------- ----------- C. ブラウザで見えるindex.php 鉛筆 ノート 秘密のファイル ----------- 人間がブラウザでアクセスする時も、検索エンジンロボットのキャッシュも、Cのように見えます。 検索エンジンロボットが、index.phpのpタグ3行目が外部PHPファイルを読み込んでいると分かっているのかどうか知りたいです。 お分かりの方、よろしくお願いいたします。
- ベストアンサー
- ハードウェア・サーバー
- ASPファイルをロボット型の検索にかけるにはどうするのでしょうか?
作成したASPファイルがロボット型の検索エンジン(gooやフレッシュアイなど)にかかりません。ASPファイルはロボット型にかからないのかとあちこち検索してみると、ちゃんと拾っているサイトもありました。何かコツがあるのでしょうか?
- ベストアンサー
- Microsoft ASP
お礼
いや~、疑問が氷解しました、ありがとうございました!!
補足
メールのヘッダを見るように、HTTPヘッダを見るツールなんてものはないんでしょうか?