• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:.htaccess の検索除けで、)

.htaccessの検索除け方法とは?

このQ&Aのポイント
  • CGIディレクトリをクロール巡回されたくない場合、.htaccessの検索除けを使用することができます。
  • バイドゥが無視するため、バイドゥのクローラーを排除するためには、.htaccessファイルに特定のUser-Agentを指定してdenyする設定を追加します。
  • バイドゥ以外のクローラーは/cgi/に来る可能性があるため、他のクローラーのアクセスを許可する設定を追加する必要があります。

質問者が選んだベストアンサー

  • ベストアンサー
  • Yeti21
  • ベストアンサー率47% (396/830)
回答No.3

>ここに他のクロールが来ないのでしょうか? そこが気になります。 そういうことにはなりません。 バイドゥ以外は.htaccessで何も指定せず、robots.txtのみを置いたのと同じ状態ということです。 もしバイドゥ以外のロボットがrobots.txtを無視すれば、当然収集していく可能性があります。

takumana20
質問者

お礼

他のクローラーをrobots.txtで拒否していたのに、 .htaccessで許可になっては意味がなくなると悩んでしまいました・・・ これで一般クローラーをrobots.txtで拒否し、 バイドゥは更に二重で拒否って事で理解できました。 大変、ありがとうございました。

その他の回答 (2)

  • Yeti21
  • ベストアンサー率47% (396/830)
回答No.2

この場合は全てを許可して拒否する条件を個別に指定しますので、 意味合いとしてはバイドゥは拒否、それ以外は許可するという設定ですね。 これはrobots.txtへの影響はありませんので問題ないかと思います。 でも、私のサイトではバイドゥもちゃんとrobots.txtを見てくれていましたけどね。

takumana20
質問者

お礼

ご回答ありがとうございます。 この場合、他が許可になっていますよね? robots.txtで他の検索クローラーを拒否していますが、 .htaccessで許可しているので、この場合は、 ここに他のクロールが来ないのでしょうか? そこが気になります。

  • arlquin
  • ベストアンサー率23% (3/13)
回答No.1

私の捉え方が間違えていたら失礼します。 そもそもクローラーのIP情報を調べて主要なIPを弾く仕様にしたらいいと思います ━━━━━━━━━━━━━━━━━━━━ order allow, deny allow from all #Google 2010/05/20 deny from 72.14.199.0/25 deny from 209.85.238.0/25 ・ ・ ・ ━━━━━━━━━━━━━━━━━━━━ みたいな形式です。 主要所のIP情報なら http://www.dspt.net/tools/mobile_ip/ こちらのサイト簡単に.htaccessを作成する事が出来ます。 ただこれは許可の為のなので2点修正します。 修正点1 ========= order deny,allow deny from all ↓ 修正 order allow, deny allow from all ========= 修正点2 ========= #Google 2010/05/20 allow from 72.14.199.0/25 allow from 209.85.238.0/25 ・ ・ ・ ↓ 修正 #Google 2010/05/20 deny from 72.14.199.0/25 deny from 209.85.238.0/25 ========= バイドウなど他の検索エンジンも調べればIP情報が出てくると思うので こちらを確認してアクセスを遮断すれば良いと思います。

takumana20
質問者

お礼

勉強になりました。ご回答ありがとうございます。

関連するQ&A