• ベストアンサー

ホームページのログ集計 Google クロールについて

ホームページのログ集計をしています。 純粋な閲覧件数を確認しているのですが、下記ホストの件数が桁違いに 多くなっています。 crawl-66-249-66-***.googlebot.com 自分で調べてみたのですが、Googleのクロールと言われているもの というところまではわかりました。 純粋に人が閲覧した件数を集計する場合は、Googleのアクセス数は 除いた方がいいのでしょうか? よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • agharta
  • ベストアンサー率52% (54/103)
回答No.1

明らかにロボットと分かるものはロボットとしてカウントすると良いのではないでしょうか。 そもそも、ログ集計を行う理由は『人が閲覧した件数』となっていますね。 どのようにしてロボットか人かを見分ける手段は非常に難しいのです。 例えば、http://www.robotstxt.org/にあるようなUserAgentを集めているサイトもありますが、これらを使用しても100%とはいきません。 なぜなら世界中に勝手にUserAgentを変更してプログラムを世に送り出しているからです。 後は、運用上でその都度見直す必要が出てくる部分で、いつも頭を悩ます部分ではあり…  だんだん、愚痴っぽくなってすいません。

wavewave2
質問者

お礼

ユーザーエージェントを検索していたら、"bot"系のもはGoogleだけではありませんでした。確かに今後頭を悩ますことになりそうです。。。 ありがとうございます。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • aqucent
  • ベストアンサー率39% (78/200)
回答No.2

「純粋な閲覧件数」ということなので、googlebotは除外してカウントしてよいのではないでしょうか。 既にご存じかと思いますが、googlebotはクロールが目的なので、実際にWebページを閲覧しているわけではありません。 「Lynx」というブラウザをインストールして、質問者さんのWebサイトを閲覧してみると、違いがわかると思います。 googlebot のリモートホストは非常に分かり易いので、リモートホストが googlebot.com で終わるログは除外してカウントするのがスマートかと思います。 私のサイトではカウンターは設けていませんが、ログを見ると、****.inktomisearch.com はYahooのbotっぽいです。 ログから見て怪しいUser-Agentを見つけて、リモートホストで特定していけば、他のbotも除外できると思います。

wavewave2
質問者

お礼

ユーザーエージェントで”bot”を含むものを除外してみました。 数字的にすっきりしました。とても参考になりました。ありがとうございます。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 自分のホームページをGoogleに未登録なのに…

    最近、自分のホームページ(ブログではない)を作りました。 Googleなどの検索サイトには、URLを登録していないのに、アクセス解析を見ると、 ホスト名「crawl-66-249-69-55.googlebot.com」 ユーザエージェント「Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)」や「Googlebot-Image/1.0」などが、アクセスしにきます。 未登録でも、巡回しにくるなんてことがあるのでしょうか? また自分でも調べてみましたら、「ボットになりすまして、人間が閲覧している可能性もある」とのこと。そんなことも、一般的によくあるのでしょうか? 詳しい方がいらっしゃいましたら、回答よろしくお願い致します。

  • アクセス解析

    現在アクセス解析をしているのですが、下記のアクセスを良く見かけます。 crawl-66-249-70-188.googlebot.com crawl-66-249-70-193.googlebot.com crawl-66-249-70-198.googlebot.com crawl-66-249-72-114.googlebot.com これはgoogleの検索エンジンロボット?が徘徊した跡でしょうか? それともスパム類のものでしょうか? 検索ロボットの場合、ヤフーのロボットはあるのでしょうか? アクセス解析では初心者ですので、何かいい無料のツールなどがございましたらご紹介頂ければ幸いです。

  • 4ヶ月経ってもgoogleへインデックスされない

    11月始めに独自ドメインを取得し、HPを作成しました。 Yahoo,MSNにはインデックスされているのですが、googleにはまったくインデックスされません。 何度かgoogleへのURL登録は行っています。 サーバーのアクセスログを見ると、一ヶ月前にも3日前にも、crawl-66-249-72-98.googlebot.comが来ています。これってgoogleのロボットですよね!? HTMLソース上で、何かスパムになり得る要素がある場合はあるのでしょうか!? クロールされてから、インデックスされるまで時間がかかるとは言いますが、まだ待つしか方法がないのでしょうか? ある程度自分でもSEO関連、google関連で調べましたが、具体的な対策がわかりません。 どうかご教授よろしく願います。

    • ベストアンサー
    • HTML
  • FC2のアクセス解析を見たら

    FC2のアクセス解析を見たら ホスト crawl-66-249-79-161.googlebot.com は プロバイダ googleクローラー となっているのですが ホスト google-proxy-66-102-6-201.google.com プロバイダ google となっています。 この プロバイダ google は何なのでしょうか? クローラーとはまた別の者ですよね?

    • ベストアンサー
    • SEO
  • googelbot.comについて

    掲示板に問題となる投稿があり、 その投稿のホストやユーザーエージェントを見たところ、以下のようでした。 (一部〇〇と伏せました) ホスト: crawl-66-249-69-〇〇.googlebot.com ブラウザ: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) これを調べてみるとgooglebot.comとはロボットの巡回プログラム(クローラー)のようですが クローラーが投稿するなどありえるのでしょうか?

  • グーグルサイトマップ で robots.txt が勝手に作成される。

    グーグルウェブマスターツールでモバイルサイトマップを登録し、 数日後、サイト設定 → クローラーのアクセス を見てみると、 robots.txt を作成していないにもかかわらず、 行 4: Crawl-delay: 8 Googlebot によりルールが無視されました 行 7: Crawl-delay: 5 Googlebot によりルールが無視されました 行 10: Crawl-delay: 5 Googlebot によりルールが無視されました 行 13: Crawl-delay: 8 Googlebot によりルールが無視されました 行 16: Crawl-delay: 8 Googlebot によりルールが無視されました 行 19: Crawl-delay: 8 Googlebot によりルールが無視されました 行 22: Crawl-delay: 5 Googlebot によりルールが無視されました 行 25: Crawl-delay: 5 Googlebot によりルールが無視されました 行 28: Crawl-delay: 8 Googlebot によりルールが無視されました 行 31: Crawl-delay: 5 Googlebot によりルールが無視されました 行 34: Crawl-delay: 5 Googlebot によりルールが無視されました 行 37: Crawl-delay: 8 Googlebot によりルールが無視されました 行 40: Crawl-delay: 10 Googlebot によりルールが無視されました という文字列が解析結果に記載されておりました。 また、http://●●●.com/robots.txt というURLがクリック出来るようになっており、クリックするとアクセスが出来、 User-agent: Slurp Crawl-delay: 8 User-agent: msnbot Crawl-delay: 5 User-agent: nutch Crawl-delay: 5 User-agent: yeti Crawl-delay: 8 User-agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/) Crawl-delay: 8 User-agent: naverbot Crawl-delay: 8 User-agent: googlebot Crawl-delay: 5 User-agent: dotbot Crawl-delay: 5 User-agent: twiceler Crawl-delay: 8 User-agent: yandex Crawl-delay: 5 User-agent: Teoma Crawl-delay: 5 User-agent: BoardReader Crawl-delay: 8 User-agent: Exabot Crawl-delay: 10 このようなテキストファイルが表示されました。 自分では作成しておらず、もちろんサーバーにはアップしておりません。 FTPでサーバー内を探してもそのような txtファイルは存在しておらず、削除も出来ず困っております。 普通に全部のページにクローラーに巡回してほしく、制限をかけるつもりもありません。 いろいろ調べたのですが、 行 4: Crawl-delay: 8 Googlebot によりルールが無視されました この文章の意味も良く理解が出来ず、クローラーの制限がかけられていたら嫌だなと思い、早急に対処法が知りたく思っております。 どうぞよろしくお願い致します。

  • アクセスログの見方

    ホームページのアクセスログ解析ソフトで、私のWebサイトの場合 ●リクエスト成功件数: 6,587 ●ページリクエスト成功件数: 424 となっているのですが、このリクエストとページリクエストはどう違うものなのですか? ちなみに、それ以外に ●異なるリクエストファイル数: 4,205 ●異なるサービスホスト数: 146 ●不必要ログ項目数: 1,365 というのもあるのですが、もひとつなんの数値か意味がわからないです。

  • Google Analyticsについて

    現在、会社にてGoogle Analyticsを使用して、ホームページの集客・閲覧件数等を集計してます。 今までは、PCサイトのみの運営していて、つい先月スマホサイトを立ち上げました。 すると、ユーザー・モバイル・サマリーで検索するtablet・mobileの件数が、激減してしまいました。 全体の閲覧数も減ってるみたいです。 注文・確認の件数から見て、上記件数は、増えることはあっても減ることはないと思うのですが... おそらくスマホサイト立ち上げが原因と思いますが、URLは、一緒です。 スマホサイトが原因なのであれば、スマホサイト・PCサイトを合わせた形で集計したいのですが、方法を教えてください。

  • ホームページがgoogleで検索されなくなりました

    ホームページを作成し、Yahooに登録しました。 約1カ月後、アクセス数が増えたので確認したら、Googleで検索されるようになっていました。 その後、急にアクセス数が減ったので調べてみたところ、 googleでは検索されなくなっていました。 以前は検索されていたものが検索されなくなるというのは、よくあることなのでしょうか。 最近、googleにも登録してみたのですが、今のところ何の変化もありません。 ホームページの内容は旅行関連で、特に怪しいページを作っているわけではありません。よろしくお願いいたします。

  • webalizerのログを再集計したいのですが・・

    知人に頼んで、サイトのアクセスログ解析にwebalizerを使用して毎日決まった時間に集計するよう設定してもらいました。 ある日うまくログ解析できなかったため、自分なりに調べてwebalizerを実行した所、一部の集計データが消えてしまいました! 具体的な状況は以下になります。 8月9日に8月8日のログが集計されていない事を確認 ※この時点で8月1日~7日の集計データは表示されていました。 ↓ webalizerの再実行 ↓ 8月8日の集計データは表示されたが、8月1日~7日の集計データが消失。 ↓ 現在は正常に作動中。但し8月1日~7日は消えたまま、8日以降のデータしか表示されない。 なんとかログを再集計して、8月1日~7日のデータを表示したいのですが どのようにすればよいでしょうか? webalizerはぜんぜん理解していないため、非常に困っております・・・。