• ベストアンサー

検索ロボットが拾ってゆく形式は?

検索サイトのロボットが定期的に巡回して、サイトを拾って(という表現があっているかは分かりませんが…)ゆく、と聞きますが、そういったロボットが収集してゆくのはhtml/htm形式のものだけなのでしょうか。 例えば、サイト内に「申込書はこちらからダウンロードしてください」等で、エクセルの表にリンクしている場合がありますよね。このエクセルの表なども巡回のロボットに収集されるのですか。 ご存知の方教えてください。よろしくお願いします。

  • h_33
  • お礼率77% (44/57)

質問者が選んだベストアンサー

  • ベストアンサー
  • a-kuma
  • ベストアンサー率50% (1122/2211)
回答No.3

検索ロボットは、リンクをたどってページを拾ってゆきます。そのサイトの全ての ファイルが見えているわけではありません。 検索ロボットは、検索のためにファイルを拾ってゆくわけですから、その内容が 理解できないファイルは、リンクが張ってあっても読み飛ばします。 ですから、エクセルの表が理解できるロボットがあれば、それも収集の対象にする のですが、まだ、そういうロボットを私は知りませんが、技術的には可能です。 No.1 の方が書かれているとおり、Google では PDF ファイルも検索の対象に なっていますが、それは、Google の検索ロボットが PDF のファイルの内容も 理解できるようになっているからです。 また、CGI のように動的なページも検索対象として引っかかるケースがあります。 先に書いたように、ロボットはリンクをたどります。なので、CGI の出力を リンク先として記載しているページがあれば、ロボットはそれを対象にします。 その CGI の出力は html なので、ロボットは理解可能ですから。 試しに、"oshiete1 a-kuma" をキーに検索をしてみました(→参考URL)。 PHP の動的な出力のページでも引っかかりますよね。

参考URL:
http://www.google.com/search?num=100&hl=ja&q=oshiete1+a-kuma&lr=
h_33
質問者

お礼

早速の解答感謝いたします。 「技術的には可能だが、今のところそういったロボットは無いと思う」という ことですね。大変よく分かりました。 私的な会の名簿をエクセルで作って、リンクしていいものかどうか迷っていた為に 質問させていただいたので、このような答えで安心しました。 どうもありがとうございました。

その他の回答 (2)

  • sesame
  • ベストアンサー率49% (1127/2292)
回答No.2

「HTML形式だけではありませんがエクセルの表はダメです」という答えになります。 巡回ロボットが拾えるのは、基本的に ・静的なドキュメントで ・テキスト形式のファイル です。 したがってCGIやSSI、PHPなどのサーバサイドプログラムでそのつど動的に生成されるファイル(たとえばこの教えて!gooのような)は検索に引っかかりませんし、 エクセルの.xlsファイルのようにバイナリエンコードされたファイルも検索できません。 その一方で、HTMLではない素のテキストファイルが置いてあると検索に引っかかります。 .txtや.csvなど、拡張子にかかわらずASCIIテキストで記述されているファイルは引っかかるようです。

h_33
質問者

お礼

早速のお返事ありがとうございます。 ロボットが拾う/拾わないファイルの違いが、(ほんの初歩かもしれませんが) うっすらと分かったように思います。本当に初心者で今まで何も知らなかった のでとてもありがたいです。

  • coolguys
  • ベストアンサー率18% (351/1917)
回答No.1

実際に自分で色々検索してみると分かると王のですが、 htmlだけではなく、pdfファイルなんかも検索に引っかかっていますね。 ただ、excelファイルと言うのは見たこと無いです。 圧縮ファイルなどもですが。 ダウンロードしてくださいの場合は、圧縮ファイルにしてみてはどうでしょうか?

h_33
質問者

お礼

早速のお返事ありがとうございます。 検索にかかるのはhtml形式だけでないというのは初めて知りました。 勉強になりました。 今まで、解凍は何度もしたことがあるのですが、圧縮はまだ やってみたことがありません。これを機に挑戦してみたいと思います。

関連するQ&A

  • ロボット検索に引っ掛けるテクニック

    自社のウェブサイトをASPで構築したところ、以前と比べてロボット検索にかからなくなってしましました。 いろいろと調べた結果、種類にもよりますが、定期的にクローラーと呼ばれるエンジンが登録されたurlをルートにリンクをたどってページを収集する仕組みになっている事を知りました。 自社のサイトはトップページがカテゴリ検索になっており 各カテゴリごとに新着情報をASPで動的に一覧し、見出しをクリックすると詳細コンテンツ(HTML)にたどり着く形式のため(このサイトに似ています)クローラーがコンテンツを収集できないのではないかと思いました。 そこでASPで作成された動的なページの代わりに詳細コンテンツのURLリストを白文字でHTMLで自動的に作成し、トップページにリンクさせて見ましたが効果はありませんでした。 なにか良い方法がありましたら教えてください。

  • Yahooの検索ロボット

    Yahooの検索ロボットはどのぐらいの頻度でサイトを巡回しているのでしょうか? ま新しくサイトを作ったのですがなかなか、 検索がされないのです。 よろしくお願いします。

  • これって、動的プログラムになるんでしょうか?検索ロボットの邪魔ですか?

    ホームページをGoogle等、ロボット型の検索サイトが巡回して、検索サイトに登録されていくケースがある。という話を聞いたのですが、この場合、ホームページ内に動的プログラムが挿入されている場合、CGIやJavaの事だと思うのですが(その辺は詳しくないのですが)やはり、ランキング投票用のプログラム等が挿入されているページも動的ページに含まれて、ロボット型検索サイトの巡回の障害になってしまい、ロボットに巡回してもらいたい場合、不利になるのでしょうか? ちなみにランキング登録用のプログラムはこんな感じです。 <a href="http://www.***.jp/***/***.cgi?id=***" target="_blank"> ***</a> たぶん、登録しているサイトのCGIにアクセス?するためのリンクのようなので問題無さそうですが、確信がもてないので、説明頂けるとありがたいです。

    • ベストアンサー
    • CSS
  • 一度ロボット検索されてしまったサイト

    教えてください。 一般の人には見られたくないサイトがロボット検索されてしまいました。あるキーワードで検索するとひっかかってしまいます。 一度ロボット検索されたサイトを検索結果から削除する事は可能でしょうか? ロボット回避をしておけば、次のロボット巡回の時に 自動的に消されるのでしょうか? よろしくお願い致します。

    • ベストアンサー
    • CSS
  • yahoo!のロボット検索に登録したい

    ヤフーがグーグルのロボット検索を使用しなくなってから、ヤフーからのアクセスが激減しました。それどころか一旦検索結果から削除されてしまっているようです。ディレクトリのほうには申請しても登録されない程度のレベルのサイトなのでそちらはいいのですが、ロボット検索では普通に反映して欲しいのですが、どうやって登録したらいいのでしょうか?ディレクトリのはわかりますが、ロボットの登録法がわかりません。普通に巡回してくるのを待つしかないのですかねぇ?今までグーグルと提携していた時はサイトを更新した際にグーグルで再登録する方法でやっていました。御存知のかたよろしくお願いします。

  • GoogIe検索ロボットの素朴な疑問

    GoogIe検索ロボットは各indexを回収するみたいですが、検索ロボットは各サイトのタイトルしか回収しない のですか? キーワードなどの回収はどういう形式で行われているのですか? ご存知の方是非教えて下さい。 宜しくお願いします。

  • ヤフーのロボット型検索が巡回してくれない

    ホームページを開設して ヤフーのロボット型検索に申し込みをして三ヶ月ぐらいたつのですが、 巡回してくれません。 SEO対策もそこそこしているのに。 グーグルはすぐひっかかるようになり、 自分が検索してほしいキーワードで20位前後をうろちょろしてます。 そこで質問なのですが、 ホームページやブログを開設して、 早い人ならどのぐらいの期間でヤフー検索にひっかかるようになりましたか? 教えてください。 その対策としてなにかしたことがあれば、ついでに教えていただきたく、 よろしくお願いします。

  • 検索ロボットはカウントされるのか?

    自動巡回式の検索ロボットがサイトに訪れた時、 そのサイトにカウンターが設置している場合、 1カウントされるのでしょうか? なぜこの質問をするかと言うと、 アクセス解析で色々な国からのアクセスがあるためです。 決まって1~2カウントほどなので若干気になった次第です。

  • yahooの検索エンジンロボット巡回申請

    ウェブサイトを修正したので、yahooの検索エンジンロボットの巡回申請をしたいのですが、検索したりSEO対策の書籍にあるサイトにいっても見つかりません。いま現在はどちらにあるのでしょうか?どなたかご存知の方ご教示お願いします。

    • ベストアンサー
    • HTML
  • 検索にHITしないようにするには

    ヤフーなどでは自分で申請、登録してもらいますが、 ロボットが定期的にやってきて、サイトを拾ってゆく(という表現が いいのかは分かりませんが)タイプの検索エンジンってありますよね。 このロボットに拾われない=検索してもHITしない ようにするには、 何らかのタグを入れておくなどの手段があるのでしょうか。 ご存知の方、アドバイスください。 よろしくお願いいたします。

専門家に質問してみよう