• 締切済み

世の中のブログURLを探す事は出来ないでしょうか?

レポートのためブログの統計を詳細に取りたいと思っております。 1.参考になる探索ロボットプログラムは無いでしょうか? 2.どこかに世の中のブログのURLリストは無いでしょうか? 3.どこかに世の中のブログのURLリストを作成するソフトは無いでしょうか? 4.こういう方法で探せるのでは?というアイデアは無いでしょうか? LAMP構成で会員サイトを作る程度のプログラム知識はございます。 探索ロボットを作れると一番良いのですが、ブログ抽出の参考に なるサイト等ありましたら教えて頂けますと一番うれしいです。

  • PHP
  • 回答数2
  • ありがとう数0

みんなの回答

  • notnot
  • ベストアンサー率47% (4845/10256)
回答No.2

ロボットを作るのが目的でないのならば、すでにある検索エンジンを使って情報を集めるのが楽です。 Googleは検索APIが公開されているので、それを使えばよいと思います。YahooAPIももしかしたら公開されていたかも。

  • mi-dog
  • ベストアンサー率6% (92/1479)
回答No.1

プロパイダーが止めてるときがあります。 プロバイダーが出さない時があります。

関連するQ&A

  • 実行対象のブログのURLは抽出させない

    以前の質問http://oshiete1.goo.ne.jp/kotaeru.php3?q=1725502 のご回答のプログラムを改良してトラックバックされたブログURLを抽出する 以下のようなプログラムを作成しました。 (省略部分は参考プログラムとほぼ同じ。) class GetTBurlLivedoor { public static String[] getTBaddrLivedoor(String urlString){ … //ブログのURLを抽出。ただし、スペースの都合上ここではライブドアのみ抽出とする //indexOfを用いての範囲指定はせず、HTMLすべてに対してパース Pattern trackBack = Pattern.compile("http://blog.livedoor.jp/.*/archives/\\d+.html"); while((aLine = reader.readLine())!=null){ Matcher m = trackBack.matcher(aLine); if(m.find()){ addr+=m.group(0)+","; } … public static void main(String[] args){ String url = args[0]; //実行例 http://blog.livedoor.jp/takapon_ceo/archives/50030785.html String[] TBaddr = getTBaddrLivedoor(url); for(int i=0;i<TBaddr.length;i++) System.out.println(TBaddr[i]); } } そこで、URLを抽出する際に、実行対象となるブログ自身に関するURL 例)http://blog.livedoor.jp/takapon_ceo/archives/50034644.html などは抽出しないようにするため、 そのブログ自身のIDを含むURLは抽出しないような処理をしたいと思います。 例えば、ライブドアでは、ブログのIDは、 http://blog.livedoor.jp/ ID /archives/50030785.html となっているので、このID(実行例ではtakapon_ceo)を含むURLは抽出しないようにさせたいです。 このようにするには、どのようにプログラムを組めばよいでしょうか? よろしくお願いします。

    • ベストアンサー
    • Java
  • ブログのHTMLからトラックバックをしたブログのURLの抽出

    ブログのHTMLから、そのブログのある記事に トラックバックをしたブログのURLを抽出するプログラムを作りたいと思います。 例えば、URLがhttp://blogs.yahoo.co.jp/example/1234というヤフーのブログの記事に、 http://blog.goo.ne.jp/example/1234 http://blogs.yahoo.co.jp/example2.html の二つのブログがトラックバックをしたとします。 このヤフーのブログの記事のHTMLは以下のようになります。 <html> <head> … <style="display:none">http://blogs.yahoo.co.jp/example/1234/trackback</div> … <tr id="tb_tab" style="display:block"> … <b><a href="http://blog.goo.ne.jp/example/1234" target=_blank>…</a></b> … <b><a href="http://blogs.yahoo.co.jp/example2.html" target=_blank>…</a></b> … </body> </html> そこで、トラックバックをしたURLを抽出するときに、 例えば、http://blog.goo.ne.jp/example/1234を抽出するのに、 target=_blankを参照して、 HTML中の<a href="http://blog.goo.ne.jp/example/1234" target=_blank>から http://blog.goo.ne.jp/example/1234を抜き出すようにして、 トラックバック先のURLを抽出するプログラムを作成したいです。 このようなプログラムを作成するにはどのようにプログラムを組めばいいのでしょうか? また、HTML中には、target=_blankで参照すると、以下のような <a href="http://rd.yahoo.co.jp/rss/b/blog/myblog/rss2/01/*http://blogs.yahoo.co.jp/example/rss.xml" target=_blank> [<a href="/example2/5242000" target=_blank> 余分な情報も抜き出してしまうので、上記を抽出しないように、 rssを含むもの、http:で始まらないものは抽出しないという条件で抽出できるようなら、 こちらの方法も教えていただきたいです。 よろしくお願いします。

    • ベストアンサー
    • Java
  • RSSからblogデータの抽出(直接URLを入力して)

    以前、「RSSからblog(ブログ)の本文を抽出したい」の質問にて、 http://oshiete1.goo.ne.jp/kotaeru.php3?q=1677591 回答を参考に、RSSからblogのタイトル・リンク・本文を 抽出するプログラムを作成させていただきました。 ところで、このプログラムは、参考サイトの http://www.hellohiro.com/xmldom.htm HelloWorldDOMPageList.javaを参考に作成したのですが、 このプログラムでは、参考サイトのプログラム中 // パースを実行してDocumentオブジェクトを取得 Document doc = builder.parse(new File("site.xml")); // ルート要素を取得(タグ名:site) Element root = doc.getDocumentElement(); System.out.println("ルート要素のタグ名:" + root.getTagName()); … にもあるように、対象となるXML(私の場合はRSS)を保存して、 そのファイルに対してプログラムを実行しています。 今回は、RSSからblog(ブログ)のタイトル・リンク・本文を抽出する際に、 対象となるRSSを一度、site.xmlなどにXML形式で保存して、 そのファイルに対してプログラムを実行するのではなく、 プログラム中でRSSのURLを入力して、 それに対してプログラムを実行できるようにしたいです。 例えば、RSSが、http://blog.livedoor.jp/example/index.rdfだとしたら、 プログラム中でこのURLを直接入力するようにして、プログラムを実行させたいです。 そのためにはどのようにプログラムを作成すればいいでしょうか? よろしくお願いします。

    • ベストアンサー
    • Java
  • URL抽出

    指定したURLのソースから<A HREF="~">タグの"~"部分を抜き出してリスト化するようなURL抽出ツールを作りたいのですが、どのようにプログラムを書けばよいのかわからずに困っています。 わかるかた、回答のほどをよろしくお願いします。

  • ブログ上のURLとタイトル抽出

    自分が管理しているMovableType(4.1)で作成したブログがあるのですが、今回アーカイブマッピングを変更しようと思っております。 アーカイブマッピングを変更するにあたり、旧アドレスから新アドレスへアドレス転送をしたいと考えているのですが、記事がかなり多いため、サイトのタイトルとURLを一気に抽出する方法がないか調べております。 抽出したあと、Rediretの設定を使用と考えているのですが、どなたかサイトのタイトルとURLを一気に抽出する方法をご存知のかたいませんか? また、旧アドレスから新アドレスへアドレス転送するのに、便利な方法はほかにありますでしょうか? よろしくお願いします。

  • URLでプログラムを操作させるか判別させたい

    先日http://oshiete1.goo.ne.jp/kotaeru.php3?q=1734032 の質問をした者です。 ところで、先日の質問でプログラム中に例としてあげたライブドアのブログのように、 __mode=rssに対応している場合 http://app.blog.livedoor.jp/takapon_ceo/tb.cgi/50030092?__mode=rss は、トラックバック先のURLを取得できるのですが、 __mode=rssに対応していないブログ (例えばhttp://tb.plaza.rakuten.co.jp/hirobastaff/diary/200510210000/?__mode=rss(楽天スタッフblog)) のようにレスポンスとしてエラー(error要素が1)を返すブログに対してはときはリンクを抽出することができないので、 URLで判別させて、リンクを取得する操作を実行するかしないかを決めたいです。 つまり、__mode=rssに対応しているブログ、例えばライブドアやヤプログやココログなどのブログに対しては、 リンクを抽出させるプログラムを実行させるため、 プログラム中のString url を見て、そのURLが__mode=rssに対応しているブログのURLの場合はプログラムを実行させる、 例えば、String url にblog.livedoorやjpyaplog.jpやcocolog-nifty.comなど含まれているなど、 __mode=rssに対応しているのでブログのURLが含まれていたら、トラックバック先のURLを抽出させる操作を実行させる。 一方、String urlを見て、__mode=rssに対応しているブログのurlにマッチしないブログのURLの場合はelseとして、 リンクを抽出させるプログラムは実行させず、違う処理をさせたいです。 (例えば、HTMLからトラックバック先のURLをパースさせる処理など) このようにするには先日の質問のプログラムをどのように改正させればよいでしょうか? よろしくお願いします。

    • ベストアンサー
    • Java
  • ブログのHTMLからトラックバックをしたブログのURLの抽出(URLの重複抽出を避けたい)

    いつもお世話になっています。 先日、「ブログのHTMLからトラックバックをしたブログのURLの抽出」 http://oshiete1.goo.ne.jp/kotaeru.php3?q=1725502 の質問にてのご回答を参考にプログラムを作成しました。 ところで、ブログによってはトラックバック先のURLを紹介するときに、 トラックバック先のブログの記事のタイトル・そのブログタイトル名やmoreなどの表示によって、 トラックバックの先のURLのリンクがHTML中に二つ以上出てくるものもあります。 例えば、楽天では、以下のHTMLのように同じURLが重複しています。 <html> <head> … <a name="trackback"></a> <H4 class="h4"> <TABLE border="0" cellpadding="0" cellspacing="0" width="100%"><TR><TD> <a href="http://plaza.rakuten.co.jp/example/20051020/" target="_blank"></a> </TD><TD align="right"> <a href="http://plaza.rakuten.co.jp/example/20051020" target="_blank </a> </TD></TR></TABLE> /div> <br /> <H4 class="h4"> <TABLE border="0" cellpadding="0" cellspacing="0" width="100%"><TR><TD> <a href="http://blogs.dion.ne.jp/example/archives/2121894.html" target="_blank"> </a> </TD><TD align="right"> <a href="http://blogs.dion.ne.jp/example/archives/2121894.html" target="_blank">TORACCHO'S ROOM E-Package2</a> </TD></TR></TABLE> </H4> … </body> </html> そこで、同じURLを重複して抽出しないようにするには、 どのようにプログラムを改正すればよいのでしょうか? よろしくお願いします。

    • ベストアンサー
    • Java
  • 指定したURLのソース(HTML)を拾ってくるプログラム

    入力して指定したURLの先にあるソースファイル(HTML)を拾ってきて、URLの抽出や過去にとってきたソースと比較して更新されているかどうかをチェックするプログラムを作成しようと思っています。 これに類似したサンプルプログラム(スクリプト)や参考になるサイトを教えてもらえませんか。よろしくお願いします。

    • ベストアンサー
    • Perl
  • RSSからblogデータの抽出(プログラムにURLを記述して)

    先日、RSSからblogデータの抽出(直接URLを入力して)の質問をしたものです。 http://oshiete1.goo.ne.jp/kotaeru.php3?q=1719152 前回の質問では、参考サイトの(http://www.hellohiro.com/xmldom.htm) HelloWorldDOMPageList.javaを参考にして作った RSSからブログのデータを取得するプログラムでは、 // パースを実行してDocumentオブジェクトを取得 Document doc = builder.parse(new File("site.xml")); // ルート要素を取得(タグ名:site) Element root = doc.getDocumentElement(); System.out.println("ルート要素のタグ名:" + root.getTagName()); … のように、RSSからblog(ブログ)のタイトル・リンク・本文を抽出する際に、 対象となるRSSを一度、site.xmlなどにXML形式で保存して、 そのファイルに対してプログラムを実行していたので、 これを、プログラム実行時にRSSのURLを直接入力するようにして、プログラムを実行する方法を教えていただきました。 今回の質問は、プログラム実行時にURLを入力するのではなく、 プログラム中にRSSのURLを記述してプログラムを実行させたいです。例えば、 Document doc = builder.parse(new File("site.xml")); の部分を以下のような感じにして、RSSのURLに直接パースを実行して、 Documentオブジェクトを取得させたいです。 Document doc = "http://blog.livedoor.jp/example/index.rdf"; ただ、上記の書き方では当然プログラムが動かないので、 どのようにプログラムを書けばいいのか教えていただきたいです。 よろしくお願いします。

    • ベストアンサー
    • Java
  • 検索サイトの収集したURLリストには著作権がありますか?

    題名のとおりですが、検索サイトがロボットを使って 収集した”URLのリストそのもの”に著作権はあります でしょうか?

専門家に質問してみよう