• 締切済み

htmlの検索と解析

ホームページやBlogを自分でつくっている人は非常に多くいますが、 特定の志向をもったサイトとデザインの相関を調べてみたいと思っています。 そこで、ホームページやblogを指定されている背景色で分類したいと考えたのですが。 htmlのタグやCSSを解析することで背景色のデータだけを抜き出す ようなことを考えています。 (1)検索エンジンの検索結果のリンクをたどって (2)取得したhtmlなどを解析して (3)背景色を抜き出す ような作業をある程度自動で行うためのツールや ツールを作るための方法としては、どんなものが いいでしょうか? 例えば、htmlをリンクを一括ダウンロードするようなツールで htmlを収集して、それらのhtmlをgrepなどで解析したらいいかと 思うのですが・・・・ (考えてみたらメールアドレスを収集するロボットみたいな  ことをしたいようにも思えるのですが) 検索⇒データ分析⇒解析をできるだけ自動的に行うには どういう方法がいいでしょうか。 なにかアイディアや、方法に関して示唆をいただければ 幸いです。

みんなの回答

  • BLUEPIXY
  • ベストアンサー率50% (3003/5914)
回答No.1

例えば、VBScriptからIEを使って以下のように背景色を取り出すことができます。(currentStyleを使っているのがミソ) CreateObject("InternetExplorer.Application") を使えば、VBScriptに限らず適当なマイクロソフト系のソフトで同じように処理できます '--------------------------------------------------------------- Dim IE Set IE = WScript.CreateObject("InternetExplorer.Application") IE.Navigate ("http://blog.livedoor.jp/nao_oikawa/") While IE.busy: Wend While IE.Document.readyState <> "complete": Wend MsgBox(IE.Document.body.currentStyle.backgroundColor) IE.quit

keng001jp
質問者

お礼

リプライがおそくなりましてすいませんでした。 テキスト処理することにこりかたまっていて VBScriptとは思い至りませんでした。 大変参考になりました。 ありがとうございました。

関連するQ&A

  • グーグル画像検索とアクセス解析について

    グーグルの画像検索で表示されている画像をクリックすると、黒の背景にその画像が拡大表示されますが、この時点で画像もとのホームページやブログのアクセス解析に引っかかる事はあるのでしょうか? 画像もとのページに飛べばアクセス解析に引っかかりますが、この様な場合はどうなのでしょうか。

  • 検索で!

    ホームページを作成したときに一時期スパムなどの被害に遭いそれで検索しないようにMETAタグを入れてみたんです。 ほんの一時的なものでしばらくしたら戻すつもりでした。 それとは別に忍者の解析ツールでたまたま発見したのですがリンク集の所につけてある解析ツールで何処から来たかと言うのが出るんですがそこでインフォーシークのリンクキットとか言うものから来たのを知りました。 サイトのアドレスを入れれば全てのページのファイルがわかるという検索ツールみたいなものです。 それを初めてみたのですがそこのリンクキットから直にこちらのリンク集に飛べるようになっていて驚きました。 必死にどのページにも検索拒否のタグを打ち込んだのに結局意味がなかったようでした。 結局METAタグを入れても違うところから検索されてサイトがわかってしまうのでしょうか? 自分で検索に登録したわけではないので知られることはないと思っていましたがMETAタグも絶対ではないと聞いたことがあるので。 では、どうやってサイトを見つけだすのかな?と疑問に思います。 さきの検索ツールもやはり同様にどっかからの検索で探し出したんですよね?まだまだわからないことがあるように思いました。 以上長くなってわかりにくいですけどもし知ってる人が居ましたら教えて下さい。

  • ブログ内検索の解析・・・

    教育に関するブログを書いています。 どのような検索ワードで来たかや、どのサイトから来たかはアクセス解析でわかるのですが、「どんな言葉でサイト内検索」したか、がわかる方法がわかりません。 わかる方法はあるのでしょうか。 ご教授願います。

  • Google検索にひっかからないようにしたい

    私は現在、個人のホームページとブログ(ウェブ日記)を持っています。 個人ホームページの方は友達や知り合いなどにも教えています。 ブログはかなり私的なことを書いている日記なので、知らない人には見てほしいのですが、友人・知人にはけっして見られたくありません。 このブログ上に個人ホームページへのリンクを張ったところ、Googleで個人ホームページのタイトルを検索するとブログまでひっかかるようになってしまいました。これではブログが友人に見られてしまう可能性があるので、ひっかからないようにしたいのですが、何かよい方法はないでしょうか? そのことに気づいてからブログのリンクは消したのですが、いまだに過去のものが表示されています。 なお、勝手ながらブログの方は他人には見てほしいので検索でひっかかるようにしておきたいのです。 何かよい方法があれば教えてください。お願いします。

  • アクセス解析研究所について

    ブログに「アクセス解析研究所」を設置しています。 「QLOOKアクセス解析」だったときは、検索フレーズや検索ワードがいくつも出ましたが、後継の「アクセス解析研究所」になってからは「データが見つかりません」となり、一度も出たことがありません。 自身のブログにどのような検索ワードで来るのかを知りたいのですが、なぜ出ないのかがわからず困っています。 よろしくお願いします。

  • アクセス解析で・・?

    アクセス解析で、できることは何でしょうか? アクセスしてきた人が、どういう経路で来たか、検索ワードや履歴などもわかるようですが、 相手が、自分のブログを立ち去ったあとも追うことができるのでしょうか? また、いくつかの解析ツールがあるようですが、使いやすいものはどれでしょうか? 大変漠然とした質問ですいません。あまりよく分かっていないので、 説明してくれる親切なかた、よろしくお願い致します。

  • アクセス解析について

    gooでブログをやっているのですが、既存のスキンを使用しているため、タグを組み込む方式の外部のアクセス解析を取り付けられません。 フリーのスキンをイチから作りこんでいくほど知識と時間もないのですが、URLのみでリファラや検索条件等が分かるアクセス解析ツールはないのでしょうか。ちなみにカードを持っていないためgooの有料解析ツールも申し込めません・・。 ご回答いただければ幸いです。

  • 解析で謎のアクセスがあったのですが

    携帯のホームページスペースを使用しているのですが、最近アクセス解析(スペースに付属していた解析です)で謎のリンク元が表示されます。 http://blog.fc2.com/?jump=http://●●● ←リンク対策でhは大文字にしています (●●●は当方のアドレスです)というものなのですが、これはどこからのアクセスなのでしょうか。 fc2ブログだと思うのですが、jump~という意味がわかりません。 解析から逆アクセスしても、自分のHPへとすぐに飛ばされてしまいます。 レンタルしているスペースはfc2ではありませんし、ブログ等を借りているわけでもありません。 普通にリンクを貼られているとしても、一体何なのかわからなくて怖いです。 このjumpアドがどういうものなのか、ご存知の方がいらしゃいましたら教えていただきたいです。 よろしくお願いします。

  • 社内イントラのアクセス解析をしたい

    お世話になります。 所属部署で社内向けホームページを開設しています。 そろそろリニューアルも考え始め、各ページのアクセス数を調べたいのですが、 社内イントラで公開しているので、 一般的なブログやホームページのアクセス解析ツールは、 当然ですが使えません。 社内イントラで使用できるアクセス解析ツールはあるのでしょうか? ありましたらお勧めを教えてください。

  • 大量な小さなテキストファイルを共有する方法を教えてください。

     大量のファイルをネット上で、複数の人と簡単に共有する方法を教えてください。私は1000単位で、ネット上で集めた文書のテキストファイルがあります。これは、grepを使って、いろいろ検索すると意味を持つコーパスを意識してデータ収集しました。(英語の手紙です)これを人と共有するのに一楽な方法はありますでしょうか。  一つは、それに全部リンクをつけインデックスページを作り、アップロードして、それを他人にホームページダウンロードソフトで落としてもらうことですが、当方は、集めたファイルにリンクをはってアップするのも手間がかかります。リンクをつけないでアップするとダウンロードソフトは解析しませんでした。(Website Explorer) リンクつきインデックスを作らずに共有する方法は何か考えられるでしょうか。大きさは全部で数メガ程度ですが、1つのファイルがテキストファイルで数キロバイトです。

専門家に質問してみよう