• 締切済み

グーグルの検索エンジンについて

グーグルの検索エンジンについて質問があります。 このエンジンはロボットがクロールする際、あらゆるURLにGETリクエストをおこない 膨大なHTMLのキャッシュをかき集めていくと思いますが、 その際、ロボットはリクエストを投げてHTTPレスポンスを受け取るのだとおもいますが 質問1. このときレスポンスコードが200,300,400,500系それぞれ問わずキャッシュを行っている のでしょうか?一般的にドメインの永久転居の場合301ヘッダーを返すため、300系はキャッシュするのだろうなと想像できます、が400系500系もキャッシュしているのでしょうか? 質問2. また、レスポンス200を受け取り、さあHTTPリクエストのボディ部分・・つまり肝心の HTMLデータを取得する際、完全にHTMLノ読み込みが完了するまでそのURLに滞在しているのでしょうか? 言い換えると,ロボットはかならずJavaScriptの【onload】イベントが発生後の コンテンツをキャッシュしているのでしょうか? 上記2点について、検索エンジンにお詳しいかたご教授ください。 よろしくお願いします。

みんなの回答

回答No.1

Googleの検索エンジンについては、公開されていない情報が多く、推測しかできませんが 前何処かで聞いた話ですと、「有名なPageRankの他に数百種類のアルゴリズムを組み合わせてユーザーに最適な検索結果を届けている」そうですので、そのくらいはやっていそうです。

関連するQ&A

専門家に質問してみよう