• 締切済み
  • 暇なときにでも

htmlの検索と解析

ホームページやBlogを自分でつくっている人は非常に多くいますが、 特定の志向をもったサイトとデザインの相関を調べてみたいと思っています。 そこで、ホームページやblogを指定されている背景色で分類したいと考えたのですが。 htmlのタグやCSSを解析することで背景色のデータだけを抜き出す ようなことを考えています。 (1)検索エンジンの検索結果のリンクをたどって (2)取得したhtmlなどを解析して (3)背景色を抜き出す ような作業をある程度自動で行うためのツールや ツールを作るための方法としては、どんなものが いいでしょうか? 例えば、htmlをリンクを一括ダウンロードするようなツールで htmlを収集して、それらのhtmlをgrepなどで解析したらいいかと 思うのですが・・・・ (考えてみたらメールアドレスを収集するロボットみたいな  ことをしたいようにも思えるのですが) 検索⇒データ分析⇒解析をできるだけ自動的に行うには どういう方法がいいでしょうか。 なにかアイディアや、方法に関して示唆をいただければ 幸いです。

共感・応援の気持ちを伝えよう!

  • 回答数1
  • 閲覧数45
  • ありがとう数2

みんなの回答

  • 回答No.1
  • BLUEPIXY
  • ベストアンサー率50% (3003/5914)

例えば、VBScriptからIEを使って以下のように背景色を取り出すことができます。(currentStyleを使っているのがミソ) CreateObject("InternetExplorer.Application") を使えば、VBScriptに限らず適当なマイクロソフト系のソフトで同じように処理できます '--------------------------------------------------------------- Dim IE Set IE = WScript.CreateObject("InternetExplorer.Application") IE.Navigate ("http://blog.livedoor.jp/nao_oikawa/") While IE.busy: Wend While IE.Document.readyState <> "complete": Wend MsgBox(IE.Document.body.currentStyle.backgroundColor) IE.quit

共感・感謝の気持ちを伝えよう!

質問者からのお礼

リプライがおそくなりましてすいませんでした。 テキスト処理することにこりかたまっていて VBScriptとは思い至りませんでした。 大変参考になりました。 ありがとうございました。

関連するQ&A

  • 検索で!

    ホームページを作成したときに一時期スパムなどの被害に遭いそれで検索しないようにMETAタグを入れてみたんです。 ほんの一時的なものでしばらくしたら戻すつもりでした。 それとは別に忍者の解析ツールでたまたま発見したのですがリンク集の所につけてある解析ツールで何処から来たかと言うのが出るんですがそこでインフォーシークのリンクキットとか言うものから来たのを知りました。 サイトのアドレスを入れれば全てのページのファイルがわかるという検索ツールみたいなものです。 それを初めてみたのですがそこのリンクキットから直にこちらのリンク集に飛べるようになっていて驚きました。 必死にどのページにも検索拒否のタグを打ち込んだのに結局意味がなかったようでした。 結局METAタグを入れても違うところから検索されてサイトがわかってしまうのでしょうか? 自分で検索に登録したわけではないので知られることはないと思っていましたがMETAタグも絶対ではないと聞いたことがあるので。 では、どうやってサイトを見つけだすのかな?と疑問に思います。 さきの検索ツールもやはり同様にどっかからの検索で探し出したんですよね?まだまだわからないことがあるように思いました。 以上長くなってわかりにくいですけどもし知ってる人が居ましたら教えて下さい。

  • 大量な小さなテキストファイルを共有する方法を教えてください。

     大量のファイルをネット上で、複数の人と簡単に共有する方法を教えてください。私は1000単位で、ネット上で集めた文書のテキストファイルがあります。これは、grepを使って、いろいろ検索すると意味を持つコーパスを意識してデータ収集しました。(英語の手紙です)これを人と共有するのに一楽な方法はありますでしょうか。  一つは、それに全部リンクをつけインデックスページを作り、アップロードして、それを他人にホームページダウンロードソフトで落としてもらうことですが、当方は、集めたファイルにリンクをはってアップするのも手間がかかります。リンクをつけないでアップするとダウンロードソフトは解析しませんでした。(Website Explorer) リンクつきインデックスを作らずに共有する方法は何か考えられるでしょうか。大きさは全部で数メガ程度ですが、1つのファイルがテキストファイルで数キロバイトです。

  • 解析で謎のアクセスがあったのですが

    携帯のホームページスペースを使用しているのですが、最近アクセス解析(スペースに付属していた解析です)で謎のリンク元が表示されます。 http://blog.fc2.com/?jump=http://●●● ←リンク対策でhは大文字にしています (●●●は当方のアドレスです)というものなのですが、これはどこからのアクセスなのでしょうか。 fc2ブログだと思うのですが、jump~という意味がわかりません。 解析から逆アクセスしても、自分のHPへとすぐに飛ばされてしまいます。 レンタルしているスペースはfc2ではありませんし、ブログ等を借りているわけでもありません。 普通にリンクを貼られているとしても、一体何なのかわからなくて怖いです。 このjumpアドがどういうものなのか、ご存知の方がいらしゃいましたら教えていただきたいです。 よろしくお願いします。

  • リンク文字の 一部だけ色を変える場合

    1ページの中に 背景色が青い"#000099" になっているところ 背景色がデフォルトの白 になっているところがあります。 それぞれ文字を記入しこれに対してリンクをつけたところ デフォルトの白い背景ですと文字が見えますが 背景色を青い"#000099"にしてしまった部分が リンク文字の色と被ってしまい文字が見えません。 背景色はそれぞれ変えたくない為 一部のみリンク文字の色を変えたいのですが どのような方法があるのでしょうか。 始めたばかりの為お手柔らかに ご教授の程よろしくお願い致します。

    • ベストアンサー
    • HTML
  • WEPキー解析の仕組みは?

    いま、WEPキーが解析されてしまう仕組みを勉強しています。 いろいろと調べてみたのですが、同じIVのパケットを収集する ところまではわかりました。 そのあと、どのようにしてWEPキーを解析しているのかか わかりません。以下のサイトにその一部が書いてありますが 「平文データ同士のXORから平文データそのものを 推定できてしまう確率が高くなります。」ということが結論で WEPキーを解析する仕組みについては記述がありません。 http://www.n-study.com/network/2005/08/lan_wep_1.html WEPキーの解析でどのようなソフトを利用すればよいのかと いうことは多くのサイトに載っていますので、わかっています。 しかし、同じIVのパケットを収集してからの解析の仕組み が分からないので困っています。 明確な解析方法(仕組み)が載っているサイトがありましたら 教えてください。

  • FFT解析ツールについて

    設備調査の関係で、加速度計による加速度データの収集を行いました。 このデータをFFT解析を実施しようとしています。 Excelではアドインでデータ分析ツールとしてフーリエ変換が付属していますが、 わが家のPCには予算の関係でキングソフトのOfficeをインストールしています。 キングソフトのOfficeでFFTを実施しようとすれば、手段はあるのでしょうか?

  • ホームページが検索に表示されません。

    ホームページが検索に表示されません。 商用利用でFC2のスペースを使用しています。http://moritacg.web.fc2.com/index.html トップにリンクされている本家、ブログは検索することが出来るのですが、今回新たに作成したこのホームページだけが検索に引っかかりません。 何か足りないのでしょうか? やはり、本家からリンクを繋ぐしかないのでしょうか…(出来れば分けたいのですが) どなたか教えていただけますと、幸いに思います。

  • (少し特殊な)検索がうまくできません

    <html> <a href="http://○×.ne.jp">ここを参考</a> </html> 上記のホームページは、ログの解析を用いる以外、「http://○×.ne.jp」にリンクが張ってある場所を見つけることができません。(googleのリンク元はあまり当てにならないので・・・) しかし、もし、タグの中を調べてそれを表示してくれる検索エンジンがあれば、「http://○×.ne.jp」へリンクが張ってあるページをすべて調べることができるのですが、何かよい方法はないでしょうか? もしくは、こんな方法はまだ存在していないのでしょうか? よろしくお願いいたします。

  • 多変量解析の問題について

    多変量解析の問題についての解答をお願いいたします。 n人の児童の身長と体重を計測して、身長のデータx1、x2...xnと体重のデータy1、y2...ynが得られた。このとき、次の問に答えよ。 (1) n人の児童を代表する、身長と体重の値を提案せよ。 (2)n人の身長と体重について、バラつきの程度を表現する尺度を示せ。 (3)n人について、身長と体重の値に「どの程度関連性があるか」を評価したい。適当な方法を提案せよ。 (4)n人の児童について、身長と体重のどちらに個人差が大きく現れるかを評価したい。適当な方法を提案せよ。 (5)相関行列と共分散行列の違いは何か。 (6)相関行列(p×p)の主値はどうなるか。 (7)寄与率と累積寄与率を説明せよ。 (8)各主成分間の相関は、どのようになっているか。 (9)無相関と統計的独立性の違いは何か。 (10)主成分分析の応用分野について、考えを述べよ。

  • gif 透明化

    複数あるgifの画像データの背景色を一気に透明化するようなツールソフト(できればフリーウェアで)はないものでしょうか? ファイルが大量にあるため、一つひとつ作業するには時間がかかり、大変です。 ご存知の方法があれば、お教えください。 お願いします。