検索エンジンのHTML解析について
- 検索エンジンのHTML解析とは、Googleなどの検索エンジンがウェブページのHTMLコードを取得し、それを解析して情報を取り出すことを指します。
- 検索エンジンはHTMLコード全体をデータベースに格納せず、本文のテキスト部やリンク部などを個別に抽出して格納します。
- ただし、各サイトの構造によって本文の位置が異なるため、検索エンジンが正確に本文を抽出するためには複雑なアルゴリズムが必要です。
- ベストアンサー
検索エンジンのHTML解析について
Googleなどの検索エンジンの仕組みについて教えてください。 Googleなどは色々なサイトを巡回し、HTML、又はXMLを取得していると思います。 その場合、そのページのHTMLコードなど全てをデータベース等に格納しているのでしょうか? それとも本文のテキスト部、リンク部など分けて格納しているのでしょうか? JavaScript部やコメント部等は確実に除去していると思いますが。 htmlのタグがあると文章解析は出来ないと思うので色々と除去していると思いますが、 その場合難しいのはどこが本文かは各サイトの構造によって違うことです。 人間が各サイトを解析して設定すれば出来るのでしょうが、Google位になると確実に現実的には不可能だと思います。 自分の想像力が足りないだけでしょうが、一体どのようにしてHTML文書を解析し次の段階(インデックス作成など)へ進むのか分かりません。 すみませんが教えて頂けないでしょうか? 関係ないとは思いますが、一応自分の環境だけは書いておきます。 centOS6 , PHP5.3などです。
- chopperin
- お礼率44% (83/187)
- その他([技術者向] コンピューター)
- 回答数1
- ありがとう数0
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
HTMLを理解すれば、どこまでGoogleが理解してくれているのか、 なんとなくわかってくると思いますよ。 -------------------------------- Googleで取得する情報は、Googleウェブマスターツールの以下で確認できます。 Fetch as Googlebot GoogleでHTMLを理解しております。 HTMLは、文章を構造化・マークアップする事によって 人間が読んで理解するのと同じようなプログラミング言語なので、 制作者がしっかりとしたマークアップをする事で、 Googleが文章構造を理解する事が可能です。 つまり、制作者がHTMLで構造化する事で、Googleも理解できますが、 HTMLで構造化しなければ、Googleにも構造を理解して貰えない。 例: 英語の本は、英語を知らない人には理解できないので構造すら理解できない。 日本語や漢字などの意味を理解しなくても、 HTMLさえ理解していれば、文章構造は把握出来ると言う事です。 (内容と文章構造は違います) それらの情報を取得し、 該当ページ(サイト)は、何のどのようなページかを把握します。 なので、内容全部を理解すると言うより、 キーワードに対しての文章構造や重要性の把握です。 また、 検索アルゴリズムによってキーワードに対しての順位をつけます。 但し、機械的になので、 文章内容を人間の様に正確に感情的に理解する訳ではなく、 検索キーワードに対して、データを順位で返しているだけです。 (アルゴリズムは社外秘だし、時代ともに随時更新されています) インデックスは、登録作業を行うだけの話なので、 アルゴリズムや順位とは別の話になります。 Googlebotで情報収集 → アルゴリズム → インデックス
関連するQ&A
- Javascriptを含むHTML構文解析プログラム
JavaとJavascriptどちらに質問すべきか迷ったのですが こちらで質問させていただきます。 Javascriptを含むWebサイトのHTMLの構文を解析して、 そのサイトに表示されるデータなどを収集するjavaプログラムを作りたいんです。 Googleなどでいろいろ検索して調べたのですが、 このようなことを解説してくれているサイトが見当たらなかったので 解説してくれているサイトだとか書籍などを紹介していただきたいのです。 また、どのように作成していけばいいのか、大まかな流れだとかヒントになるようなことを教えていただいてもうれしいです。 Javascript自体は現在勉強中なレベルなのでまずはそこからではあるんですが・・・。
- ベストアンサー
- Java
- javascriptで複数キーワード検索したい。
XMLでデータベースを作り、Javascriptで検索、HTMLで表示させていますが、一単語しか受け付けません(compareStringで検索させているためだと思います)。 yahooやgoogleのように複数単語を受け付けるようにしたいです。 複数キーワードをスペース区切りなどで入れ、AND検索できるようにするにはどうしたらいいでしょうか。 参考サイトや助言などご教授いただきたく、よろしくお願いいたします。
- ベストアンサー
- JavaScript
- HTML構文解析
はじめまして。 早速ですが、HTMLの構文解析ルーチンを作成しようと考えております。構文解析といえば、lex/yaccというのがあると思うのですが、HTMLを解析する場合、lex/yaccの特性を生かして作成することができるのでしょうか?それとも、自分でゴリゴリ作ったほうがよいのでしょうか。皆さんの意見をお聞かせいただければと思います。
- 締切済み
- その他(プログラミング・開発)
- HTMLソースの検索について
Postgres 8.3.9を使用しています。 現在使用しているテーブルの中に HTMLソースを格納しているカラムがあります。 テーブル名:contents カラム名:text ※データ例:<a href="http://www.google.co.jp">グーグル</a> HTMLソースが格納されたカラムに対して、キーワードでの検索を行いたいと考えています。 当然ながら以下の様に検索をすると、HTMLソース(例:href)をキーワードとしても検索に引っかかってしまいます。 select * from contents where text Like '%【検索キーワード】%'; なんとか、HTMLソースをキーワードとした場合は検索されずに、 HTMLタグに囲まれた部分(※上記データだと'グーグル')をキーワードとした場合にだけ、 検索されるようにしたいと考えています。 何か良い手法はないでしょうか。 ご教授をお願い致します。
- ベストアンサー
- PostgreSQL
- HTMLタグを貼るだけでアクセス解析したいです
HTMLタグを貼るだけでサイトのアクセス解析をしたいのですが、 以下の条件に合致するシステムのはありますでしょうか? ・無料 ・Googleのように審査が必要ない ・忍者ツールのように画面に変なのが表示されない
- ベストアンサー
- HTML
- Google maps api, xmlデータ
mysqlに格納したデータをphpにてxmlデータを生成しました。 xmlデータは、◯◯.phpファイルです。 このデータをHTML5とjavascriptを使ってgoogleマップに表示させるところでつまづいています。 いろいろと参考になりそうなサイトを見てコーディングしているのですが、うまくいきません。 シンプルにマップにデータを表示させるということに関してアドバイスや参考になるサイト等を教えて戴けないでしょうか。 宜しくお願いします。
- ベストアンサー
- JavaScript
- HTMLの解析手段について
PHP5.3にて自分のサイトのページを取得して、HTMLを解析というか分離したいと思っています。 例えば<title>内のテキストを取得する等。 この場合、DOMDocument()などあるようですが、JavaScriptの関係などでhtmlに少しでもおかしい点があればWarningが出ます。 別にこれでもいいのですが、もっと効率的なライブラリや関数などないのでしょうか? Zend_DOMとか、htmlSQLなどは見つけたのですが。 正規表現も考えたのですが、汎用性がなく、自分の用途には厳しいでした。 処理速度にも出来ればこだわりたいので、自分としてはPHPに標準で入っていればそれを使いたいのですが、DOMDocument以外無いように思います。 XPath、CSSセレクタどちらでもいいのですが、これらが使えればhtmlSQLのような階層に弱いものよりは楽だと思うのですが。 曖昧な質問内容ですが、アドバイス頂けたらと思います。 例えば、 <body> <div class="yyy"> <p> こんにちは、僕はポン太です。 </p> </div> </body> から(class属性を目安にしたりして)テキスト部を取ったり、 <li><a href="http://www.hoge.co.jp" target="_top">不思議の楽園</a></li> から<a>タグ内のURIを取得するとかです。
- ベストアンサー
- PHP
- HTMLのタグを書き込むのに
作ったサイトをグーグルアドワーズ広告とアドセンス広告にのみ表示させたいのですが、グーグルやヤフー、MSNなどの検索エンジン(ロボット巡回型の)のインデックスには表示させたくありません。 その場合は、サイトのHTMLタグにはなんと書き込めばよいのでしょうか? ちなみにアドワーズのロボットはMediapartners-Google アドセンスのロボットはAdsbot-Google です。 よろしくおねがいします。
- 締切済み
- その他(インターネット・Webサービス)
- HTMLからXMLへのデータ受け渡しについて
私はいまHTMLの中に書かれたTextをJSPを通してXMLデータベースかしたいと思っています。でも私は初心者のあまりHTMLからXMLのデータの受け渡しが全く分かりません。 アドバイスをいただけたら幸いです。 また、上記のようなことを学べるサイトなどありましたらご一緒に教えてください<(_ _)>
- 締切済み
- XML