• 締切済み

Baidu(バイドゥ)のアクセス制限を設定したが

自前のHPをもって5年になります。   Baiduのクローラの嫌がらせと思われるHP訪問が他社のクローラと比べても異常な状態が続いていました。 非常に迷惑でしかも不愉快なので、robots.txtに拒否の設定をおこないました。 (HPの拒否の設定例の通りなので間違いありません) BaiduのHPでは、最大48時間以内に訪問しないと記載がありました。 すでに1週間以上がすぎましたが、まだ訪問しています。   これって異常な事だとおもいますが、Baidu(バイドゥ)の場合にはこれが当たり前の対応なんでしょうか?。    

みんなの回答

noname#252929
noname#252929
回答No.1

>非常に迷惑でしかも不愉快なので、robots.txtに拒否の設定をおこないました。 これは、法律などで決まって居る物でも在りません。 無視しても、何も不都合な事は事は起こりませんので、無視して居るだけの話です。 接続させたく無いなら、サーバーの設定て、百度からのアクセスをせない様に設定すれば良いだけに成ります。

furoshiki
質問者

お礼

ありがとう。 ログを見てこいつの嫌なところは、robots.txt行には、Baiduspider+とログを残しながら、 それ以外の行のログには、一般客の振りをしたログを残していくことです。 IPアドレスは、119.63.196.1 ~ 119.63.196.255 の範囲で毎回変えてきます。 他の検索サイトのクロ-クは、収集目的に応じてIPを変えるが、連続して収集する時はIPを固定しています。 収集間隔も最短、5~10秒です。 Baiduは、ひどいときは1秒間隔です。 OKwabeに質問後に、Baiduにクレームの電話をしました。 クレームなれしているのか、やる気のない回答でした。 現在も、3分1秒間隔で訪問しているようなので、ルータでストップします。

furoshiki
質問者

補足

ありがとう。 ログを見て、こいつの悪意を感じる点は、robots.txtの行にだけ、Baiduspider+とログを残しながら、たの行には一般ユーザを装ったログを残していくことです。 しかも、IPアドレス 119.63.196.1 ~255 の範囲で、毎回IPアドレスをかえてきます。ひどいときには、1秒間隔できます。   たの検索クロークは、収集目的別にIPを固定して、収集間隔も最短で5~10秒間隔程度です。   OKWabe質問後に、Baiduにクレームの電話をしました。 クレームには、なれているようでした。 現在、3分1秒ごとにご訪問しています。 なので、ルータではじきます。  

関連するQ&A

  • .htaccess の検索除けで、

    .htaccess の検索除けで、 CGIディレクトリをクロール巡回されたくないのです。 まずは、ルートにrobots.txtで、 User-agent: * Disallow: /cgi/ バイドゥが無視するらしいので、/cgi/内にも.htaccess で、 SetEnvIf User-Agent "Baidu" deny_ua SetEnvIf User-Agent "Baiduspider" deny_ua order allow,deny allow from all deny from env=deny_ua と書きました。こうで、バイドゥは排除できると思うのですが、 「バイドゥはダメですよ」と書いてあるのでしょうか? それとも 「他は許可するけどバイドゥはダメですよ」 と書いてあるのでしょうか? 頭が混乱して良く分からなくなりました。 バイドゥ以外のクローラーが、/cgi/に来ちゃいますか? 回答お願いします<(_ _)>

  • 「robots.txt による URL 制限」

    所有するHP(Googleでドメインを取得し、Google Appsで管理しています)について、Googleのウェブマスターツールを使用し、クローラのアクセスをしたところ、「サイトをクロールした際に検出されたクロールエラー」として、「robots.txt により URL が制限されています」、という結果が4件現われました。 素人なので、その意味するところもよく理解できていないのですが、ここ数日、HPへの訪問者数が大きく減少していることと関連している気がします。 なお、robots.txt により URL が制限されています、という4件のURLは、いずれも所有するHPのメインのサイトそのものです。 本件はどのように判断すべきなのでしょうか。 Google社に質問を出そうにも、同社は利用者からダイレクトに質問を受けることをしておらず、連絡の取りようがありません。 なお、所有するHPへの最大Traffic Sourceは、米国人サイト利用者一般への閲覧情報提供・閲覧マネジメントサービスを提供する米国会社ですが(URLを調べた結果です)、このURLをGoogleの解析機能でチェックしたところ、「このWebサイトは、有害なプログラムを転送するか、オンライン詐欺に関係していることが確認されています。この画面を閉じてください。」という表示が出てきます。 私のHPが、クローラアクセスのクロールエラーで「robots.txt により URL が制限されています」とされているのも、このことと無関係ではないような気がします(私のHPが有害なサイトとして扱われているのではないかと。なおHPは全て英語のサイトです)。 上記の現象をどう解釈したらいいのか、robots.txt によるURL制限を外すにはどうしたらいいのか、またGoogle社に個別質問を出す方法などについて、どなたかお教えいただけませんでしょうか。 ある特定の日を境にHP閲覧者数の極端な減少が発生しており、非常に困っていますので、どうかよろしくお願いいたします。

  • robots

    baidu(百度)のクローラーをはじきたいのですが robots.txtではじく方法を教えてください 下記のようにしていますがもっと良い書き方はありますか? user-agent: Baiduspider disallow: / user-agent: BaiduImagespider disallow: / user-agent: BaiduMobaider disallow: /

    • ベストアンサー
    • HTML
  • HPをリニュアルしUPして、Googleサイトに登録し、Sitemap

    HPをリニュアルしUPして、Googleサイトに登録し、Sitemap.Xmlも作成UPして robots.txtで検索エンジンのクロールを設定しようと思い、ウェブマスターツールから robots.Txtをみると 私のHPアドレスが http://www.eonet.ne.jp/~nmsougouなのに robots.txtのアドレスが http://www.eonet.ne.jp/robots.txtとなっていて 404エラーを返します。http://www.eonet.ne.jp/~nmsougou/robots.txtとならないといけないと思いますが、ウェブマスターツールからの変更および更新の仕方がわかりません。 このままでは、ロボット検索がされないのではないか心配です。 どなたか心やさしい方、この初心者を救ってください。よろしくお願いします。 追伸 Sitemap.Xmlは正常に見ることが出来ます。

    • 締切済み
    • SEO
  • 共有SSLでのクロール拒否

    共有SSLでのクロール拒否 レンタルサーバー(chicappa)で、お問い合わせ等の一部のページで共有SSLを使用しています。 同じhtmlファイルですが、共有SSL(https://~)の方をrobots.txtでクロールを拒否すると、通常(http://~)の方も拒否されることになるのでしょうか。 つまりhttps://secure~.jp/sample.htmlをrobots.txtで拒否する設定をすると、http://~.jp/sample.htmlも拒否になりますか? 両方ともhtmlファイルは同じです。

  • クローラーについて

    私の名前をグーグルやヤフーに入れて検索すると、関係した記事が出てきます。 しかし、どれも嫌な文章ばかりで、名前を入れても出てこないようにすることはできないでしょうか? 何でもクローラーという巡回機能が関係していると言うことですが、説明文を読んでも良く分かりません。 【robots.txtで登録拒否をするには】 robots.txtを置いて登録を拒否する方法は以下のとおりです。 ・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身(Y!J-SRD/1.0を拒否する場合の例) User-agent: Y!J-SRD/1.0 Disallow: / ・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身 User-agent: * Disallow: / これ一体どこにどう貼り付けろと言うのですか? とにかく (1)今までに特定の投稿された文章を、検索されても表示できないようにしたい。 (2)私の名前を検索されても、今後一切関連した文章が表示されないようにした。 以上の2点、どなたか分かりやすくご説明して頂けませんか? 誹謗中傷ばかりで困っています。

  • 【緊急】Googleウェブマスターツールのエラー

    Googleのウェブマスターツールで7/18付けで「Googleがサイトにアクセスできません」とのエラーが出ていました。 エラー全文↓ --------------------------- Googlebot が robots.txt へのアクセスを試みましたが、過去 24 時間で 41 件のエラーが発生しました。このファイルに指定されているページをクロールしないようにするため、クロールを延期しました。このサイト全体での robots.txt エラー率は 100.0% です。 --------------------------- FTPを確認し、2年前に前任者が設置したhtaccessが、 特定のIPアドレスを50ほど拒否する設定になっていました。 (2年前はスパムアクセスの多いサイトだった為?前任者が退職しているので詳しい理由が分からず) ◆対処した事 1.IP拒否のhtaccessを削除 →htaccessの拒否IPの中にGooglebotのアドレスが含まれていないとも限らないため 2.robots.txtがなかったので、下記の内容にして設置  User-agent: *  Allow: /  Sitemap: http://○○○.jp/sitemap.xml 3.念のためサーバ管理会社に連絡し、 サーバエラーや、サーバ側でのアクセス拒否設定など無いことを確認 その後、ウェブマスターツールに書いてあった通り、Fetch as Googleにてホームページの取得およびrobots.txtへのアクセスを試みましたが、2日経った今日現在も「robots.txt にアクセスできません」エラーが起きています。 Googleの下記フォーラムも確認してみましたが http://productforums.google.com/forum/#!topic/webmaster-ja/8J_0eFCW0tE サーバ側の問題でない場合、robots.txtのAllowとDisallowの違いくらいだと思うのですが・・・・ 上記のウェブマスターツールのエラーは7/11にも出ていたらしく、見逃してしまったせいで現在Googleからインデックスを削除されているようです。(ドメイン名で検索しても出てこない) robots.txtにアクセスできないエラーが解除されないことにはどうしようもないのですが、対処法がありましたら教えて下さい。宜しくお願いします。

  • 海外からのアクセス拒否について

    忍者を使用して趣味のHPを運営しています。 訪問数などの解析などできて便利なのですが、最近やたら海外からのアクセスが気になります。 何かされた訳ではないのですが、なんだか気味が悪くて・・・。 ネット上に公開しているので、そんなこと言っていたらキリがないのは分かっているのですが、どうしても気になるのです。 国外からのアクセス拒否できる.htaccessを入れているはずなのですが・・・ やり方が間違っているのかというのも分かりません。 .htaccessシートは下記サイト様からダウンロードさせてもらいました。 http://www.cgis.biz/tools/access/ また、転送はFFFTPを使用しています。 ダウンロードしたとき、.htaccess[1].txtになっていてHP用のフォルダにはhtaccess.txtで保存しています。 転送時にサーバー上でファイル名を.htaccessに変えるとファイルが消えてしまいます。 これは効果を成していないのでしょうか・・・? どうぞ宜しくお願いします。

  • アクセスが激減した理由をアナリティクスで調べたい

    今年の1月に、クライアントのホームページをリニューアルしました。 これまで5年以上、Movable Typeを使って運用されてきたサイトです。 ドメインの変更は無く、ホームページ全体の構成を変え、 デザインのリニューアルとシステムのCMS化を行い、 これまでの記事は過去1年分だけを移動しました。 そこまでで業務は終了なのですが、 2ヶ月ほど経過し、何気にGoogle Analyticsでアクセス状況を確認したところ、 なんと前年比90%減まで落ち込んでいました。 これまで1ヶ月で5,000件ほどの"訪問者"があってたのですが、 リニューアルの当日から急激にアクセスが減っていて、 1ヶ月で500件しか"訪問者"がありませんでした。 「しまった!ロボットを拒否した記述が.htaccessに残っているのではないか!?」と思い、 慌てて確認しましたが、そのような記述は残っておりませんでした。 次に、ウェブマスターツールで確認したところ、 sitemapが以前のMTの時のままになっていたので、 リニューアルしたホームページのsitemapに作り変えました。 また、robots.txtがありませんでしたので、作成してサーバーにアップしました。 meta keywordも、meta descriptionも、間違いなく全ページ記載されており、 各ページで別の文言が入るようにプログラムで制御するようにしており、 何も問題はないように思えます。 その状態から3ヶ月が経ちますが、アクセスが元に戻る傾向が全くありません。 Googleで検索しても、トップページは検索されるのですが、 中の記事に関しては検索されるものもあれば、検索されないものもあります。 ロボットを迎え入れる状態はできていると思うのですがロボットが来ていないような感じもします。 Googleのペンギンアップデートに引っかかるような悪どいコンテンツでもありません。 通常であれば、sitemapやrobots.txtをきれいに書けば、 ロボットも順当にアクセスしてくれると思っていましたが、 全くアクセスが増える傾向になく、 ここまでくると去年までのアクセス数は不正なものだったのではないか?とさえ思えます。 しかしそれすらも、私のアナリティクスの解析力では調べる方法が分かりません。 (1)これ以上何か対策する事はありますでしょうか?もしくは、見落としている点はありますでしょうか? (2)また、アクセスの激減を調査するにあたり、Google アナリティクスでどのように調べたらよいものか? どうか、ご教授をお願い致します。

  • バイドゥを標準で立ち上がるよう設定したい。

    現在、PCに日本語変換ソフトとして ・バイドゥ ・ATOK2014 ・MicrosoftIME の3種が入っていますが、いつもPCを起動すると、自動的にATOK2014が立ち上がってしまいます。 どこかでデフォルトに設定したのだと思いますが、 バイドゥが標準設定になるようにしたいのですが、どのようにすればよろしいでのしょうか。 因みに、OSはWindows8.1です。