検索エンジンロボットの制御方法とは?
- マンションの住人以外の閲覧を避けるために、ロボット検索を回避しようと思っています。
- ロボットの閲覧を制限するためには、robots.txtファイルをルートに配置することが推奨されています。
- しかし、ルートに複数のhtmlファイルが存在する場合や.htmlファイルと.htmファイルが混在している場合には注意が必要です。
- ベストアンサー
検索エンジンロボットを制御する
マンションの住人以外の閲覧を避けるために、ロボット検索を回避しようと思っています。そのために、http://tech.bayashi.net/pdmemo/robots.htmlを見ていますが、ルートにrobots.txtファイル User-Agent: * Disallow: /cgi-bin/ Disallow: /example.html を置くことが推奨されています。そこで質問です。 (1)上記 example.html の"example"は固定の名前ですか?それともトップページの名前(例:index.html)に置き換えるのですか? (2)ルートに複数の html ファイルが存在する場合、robots.txt の内容は変えるのですか? (3)上記(2)で、ルートに .html ファイルと .htm ファイルが混在している場合はどうですか? 以上、よろしくお願いします。
- ubonoti01
- お礼率73% (317/433)
- その他(インターネット・Webサービス)
- 回答数1
- ありがとう数2
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
全てのページを見て欲しくない場合は Disallow: / でOKです。 これでルートディレクトリ以下全てを拒否していることになります。 特定のページだけを見て欲しくない場合はディレクトリ単位や個別ファイル名を指定します。 この場合は一つ一つ Disallow で指定します。 Disallow: /index.html Disallow: /index.htm Disallow: /home.html といった具合です。 但し、robots.txtは万能ではありません。 Googleのような大手のロボットは指定された通りに動作してくれますが、無視するロボットもいます。 それどころか、悪意をもって情報収集しているロボットなら拒否しているファイルに狙いを定めてアクセスしてくることもあります。 特定の人にしか見られたくない情報ならば、何らかの認証を用いてアクセス制限を行うのが良いと思います。
関連するQ&A
- 検索エンジンロボットを制御する(その2)
マンションのホームページを担当しています。マンションの住人にはURLを知らせ、マンションの住人以外からは検索ヒットできないようにしたいのです。 QNo.7138297にて質問し、t_ohtaさんからいただいた回答、 《ルートフォルダにDisallow: /から成るrobots.txtファイルを置く》 を実施し、3週間が経ちましたが効果が得られません。 一度検索ロボットの訪問を受けてしまったサイトは、一旦、サイトを閉じる必要があるのでしょうか? それとも、あと数週間待てば効果が得られるのでしょうか?
- ベストアンサー
- その他(インターネット・Webサービス)
- robotsでロボット巡回拒否のページもきちんと収集してくれるソフト探してます
Webページ巡回ソフト、収集ソフトといわれるものを使ってみたのですがhttp://○○○/robots.txtがあるページのhttp://○○○/index.htmlが読み込めないのです。 どなたかオフライン中でもきちんと読める巡回ソフト教えてください。 robots.txtには User-agent: Hatena Antenna Disallow: User-agent: * Disallow: / と書いてあります。 よろしくお願いします。
- 締切済み
- フリーウェア・フリーソフト
- robots.txtの書き方
同じような質問を見ても良くわからなかったので、質問させていただきます。 HPを制作し、robots.txtを使ってロボット除けをする場合、 -------------- User-agent: * Disallow: / -------------- "--------------"内の文を書く事は分かりましたが、 とあるHTML説明サイトでは -------------- User-agent: * Disallow: / -------------- の様に"Disallow: /"の下を一行空けておかないと効果がないと 書かれていました。 けれどほかのサイトではそのような説明はないし、 『直接このページを保存して~』の様にすでに文を打ってある .txtページをリンクして書いてあったので見てみると、 行を空けていなかったのです。 一体どっちなのでしょうか? それとも空けても空けなくても良いのですか? HTMLファイルではなくtxt.ファイルの内容なので、場所違いかとも思いましたが、 こちらに書かせていただきました。
- ベストアンサー
- HTML
- yahooの検索結果に表示されてしまう
サイトの入口ページに、 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW,NOARCHIVE"> 及び robots.txtにて User-agent: * Disallow: / User-agent: ia_archiver Disallow: / User-agent: googlebot Disallow: / User-agent: Slurp Disallow: / と書いたものをアップロードしているのではありますが、何故かずっと、yahooの検索結果にサイトが表示されてしまいます。 htaccess.で来られなくするのでは、検索結果にサイト名が表示されている事は相変わらず変わらないので、×です。 どうにかしてyahooの検索結果から自サイトの名前を削除したく、悩んでおります。 何か良い知恵など御座いましたら、ぜひとも宜しくお願い致します。
- 締切済み
- その他(インターネット・Webサービス)
- robots.txtの書き方のことで?
robots.txtの書き方の事で質問です。 http://abcd.com/himitu1/ http://abcd.com/himitu2/ http://abcd.com/himitu3/ という3つのフォルダ内を隠したい場合は User-Agent: * Disallow: /himitu1/ Disallow: /himitu2/ Disallow: /himitu3/ このような書き方でいいでしょうか? また、robots.txtはサーバーのトップにアップさせるだけでいいのでしょうか? よろしくお願いします。
- ベストアンサー
- HTML
- 検索ロボットへの拒否について
サイトを運営中ですが、 例えば、aaa.htmlの中で、iframeでbbb.cgiを入れています。 googleのsite:で検索してみると、aaa.htmlとbbb.cgiが一緒に登録されていますが、aaa.htmlから入ってもらいたくて、bbb.cgiをDisallowでrobots.txtに入れたいですが、そうすると、bbb.cgiをロボットが巡回しなくなり、aaa.htmlの登録にも影響がありますか?aaa.htmlの内容のほとんどがbbb.cgiの内容です。 もし、他に、aaa.htmlだけでbbb.cgiは、サイト登録されない方法がありますか?
- ベストアンサー
- その他([技術者向] コンピューター)
- クローラーについて
私の名前をグーグルやヤフーに入れて検索すると、関係した記事が出てきます。 しかし、どれも嫌な文章ばかりで、名前を入れても出てこないようにすることはできないでしょうか? 何でもクローラーという巡回機能が関係していると言うことですが、説明文を読んでも良く分かりません。 【robots.txtで登録拒否をするには】 robots.txtを置いて登録を拒否する方法は以下のとおりです。 ・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身(Y!J-SRD/1.0を拒否する場合の例) User-agent: Y!J-SRD/1.0 Disallow: / ・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身 User-agent: * Disallow: / これ一体どこにどう貼り付けろと言うのですか? とにかく (1)今までに特定の投稿された文章を、検索されても表示できないようにしたい。 (2)私の名前を検索されても、今後一切関連した文章が表示されないようにした。 以上の2点、どなたか分かりやすくご説明して頂けませんか? 誹謗中傷ばかりで困っています。
- ベストアンサー
- その他([技術者向] コンピューター)
- .htaccess の検索除けで、
.htaccess の検索除けで、 CGIディレクトリをクロール巡回されたくないのです。 まずは、ルートにrobots.txtで、 User-agent: * Disallow: /cgi/ バイドゥが無視するらしいので、/cgi/内にも.htaccess で、 SetEnvIf User-Agent "Baidu" deny_ua SetEnvIf User-Agent "Baiduspider" deny_ua order allow,deny allow from all deny from env=deny_ua と書きました。こうで、バイドゥは排除できると思うのですが、 「バイドゥはダメですよ」と書いてあるのでしょうか? それとも 「他は許可するけどバイドゥはダメですよ」 と書いてあるのでしょうか? 頭が混乱して良く分からなくなりました。 バイドゥ以外のクローラーが、/cgi/に来ちゃいますか? 回答お願いします<(_ _)>
- ベストアンサー
- ハードウェア・サーバー
- robots.txtの書き方
ルートディレクトリから以下のような構造の配置でアップしているサイトがあるのですが、この全ての"zzz"のフォルダ以下をクロールされないようしたいのです。 /a/zzz/ /c/zzz/ /i/zzz/ 今robots.txt内には下記のように書いています。 User-agent: * Disallow: /a/zzz/ Disallow: /c/zzz/ Disallow: /i/zzz/ このように書くしかないのでしょうか。 全て同じフォルダ名なのでできれば一気に指定したいのですが・・・ 方法があればよろしくお願いします!
- ベストアンサー
- HTML
お礼
ご教示有り難うございます。早速試行してみます。 万能でないことにつきましては、マンション住人を対象とする内容であり、あまり厳密さは必要としておりません。
補足
今日現在、まだロボットの巡回に会っていないようで、効果は得られていませんが、2週間が経ちました(OKWaveスタッフから忠告あり)ので、閉め切りさせていただきます。