• ベストアンサー

サイトの情報収集に関して(プログラミング?)

例えば、特定のブログやiタウンページから情報を自動的に収集するってやり方はどのような考え方でプログラミングすればよいのでしょうか? 例えば、オリコンの情報を自分自身のブログに落としこむ?とかやりたいのですが・・・。 phpで考えています。 ヒントや参考URLだけでも良いので教えて頂けると幸いです。

  • PHP
  • 回答数2
  • ありがとう数1

質問者が選んだベストアンサー

  • ベストアンサー
  • shimix
  • ベストアンサー率54% (865/1590)
回答No.2

ANo.1です >わざわざ皆さんURLへアクセスして、ファイル内から >文言拾うみたいな面倒な開発してるのでしょうか? 基本的にそうです。サイトによってはAPIという形でコンテンツを処理しやすい形で提供されているところもありますが、少数ですね(他者が利用するために自分がコストをかける意味があるかどうかです)。もちろんHTTPヘッダで最終更新日時が確認できるサイトはそれも利用します(無駄にボディを取りに行かない)。 まぁサーバ側でwgetを走らせられるなら、wgetで(cronで定時実行)落としておいてから利用するという手もあります。 >それだと参照元が仕様変更対応等大変ですよね? ええ。大変です。BlogのRSSリーダでも簡単ではありません(最近はどこもマトモになってますけどね>RSS)。 >また、例えばオリコンを例に出しましたが、検索条件等がある場合はどうするんでしょうか? QueryStringで(GETで)引き渡せるところがほとんどだとは思います(検索条件を含めてBookmark出来る方がユーザーの利便性が高いという判断)。もちろんPOSTでしか受け付けないサイトもありますし、Cookieが必要なサイトもあります。それは「仕方がない」ですね。相手にどうにかしてもらえることでもないですから。

shiansuka
質問者

お礼

回答ありがとう御座います。 なるほどですね。ベース部分を柔軟に実装して、各サイトの仕様にしっかりと対応出来るプログラミングが大事と言うことですね。 勉強になります。ありがとう御座います。 ちなみになのですが、RSSを利用するパターンで有益な情報等のサイトURL等ご存知でしょうか? 自分で検索してみたのですが、技術的な部分に関しての情報が出てこなかったもので・・。 教えてくんで大変申し訳ないです。

その他の回答 (1)

  • shimix
  • ベストアンサー率54% (865/1590)
回答No.1
shiansuka
質問者

補足

回答、ありがとうございます。 もちろん、この関数の事は知ってるんですがわざわざ皆さんURLへアクセスして、ファイル内から文言拾うみたいな面倒な開発してるのでしょうか? それだと参照元が仕様変更対応等大変ですよね? また、例えばオリコンを例に出しましたが、検索条件等がある場合はどうするんでしょうか? stream_context_create で一つ一つデータを準備して送信しているのでしょうか?

関連するQ&A

  • ダイレクトメールを出すために、iタウンページなど、企業情報の収集方法で良いものありますか?

    ダイレクトメールを出すために、企業、店舗の ・郵便番号 ・住所 ・電話番号 ・FAX番号 ・ホームページURL ・メールアドレス を収集したくて、それらの項目が載っているiタウンページを利用したソフト 「iタウンページ自動収集」 http://www.cosmosoft.org/FreeSoft.htm というのを試してみたんですが、フリー版だと、50件までしかCSV出力できなくて、件数が多い場合ダウンロード出来なくて、使い物になりません。 シェアウェア版だと1000件までCSV出力できますが、5250円かかります。 iタウンページ以外に、これらの情報が載っていて、収集がしやすいサイトはありますか? Yahoo!電話帳では、名称、住所、電話番号しか載っていないのでダメでした。 もし、希望に沿うサイトが無かったら、フリー版のまま使うか、シェアウェア版を購入するか、どちらかで、「iタウンページ自動収集」を利用しようと思うので、かかる時間と、コストを考えたとき、どの方法が1番良いか、助言をお願いします。

  • 新技術の情報収集

    プログラミング、サーバ、OS、ツールなど、システム開発に役立つ新技術やナレッジの情報収集を行えるサイト(個人のブログなども含む)を探しています。 現在は、codezine、phpproを見ることが多いのですが、あまり情報量が多いとはいえません。プログラミング言語やOSなどの環境などを問わず、幅広く収集したいと考えています。 もし良いサイトがあればおしえてください。よろしくお願いします。

  • ネット上から自動的に文字情報を収集したい

    ネット上から自動的に文字情報を収集したい WEBサイトの中から自動的に文字情報を集めるようなプログラムを作成したいのですが、何から始めてよいのかわかりません。 プログラミングの知識と経験はありますが、計算とか論理演算だけで、直接ネットワークから情報を収集するというところが私はわかっておりません。 ネットから自動的に情報収集をするという目的で、なにか覚えておくべきキーワードであったり調べる内容を提示していただけたら嬉しいです。 JavaとかC言語ならやった経験はあります。他の言語でも良いです。 参考になるサイトや参考書を教えていただけたら嬉しいです。 よろしくお願いします。

  • インターネットで企業の情報収集のやり方

    インターネットで特定の地域の特定の業界の企業名、住所を効率よく調べる方法はありますでしょうか? タウンページだと曖昧な業界しか集まらなくて困っています。無料に越した事はありませんが、収集に便利な検索エンジンなど良くご存知の方お教えください。 宜しくお願いしたします。

  • ブログのプログラミング

    プログラミング(PHP)の勉強にブログを作ろうと思うのですが、まとまった内容の解説書や参考になるWebページはありますでしょうか? 学びたいことは ・タギング ・RSS ・トラックバック などです。よろしくお願いします。

    • 締切済み
    • PHP
  • ◆特定のキーワードをネット上から収集して、サイトに自動掲載させる方法

     ご存知の方や経験者の方、知恵をお貸し下さいませ。m(_ _)m  わたしは、たまにしかネットを見られないので、ご回答はゆっくりでかまいません。 ■【背景説明】  「犯行予告の収集・通報サイト - 予告in」というサイトがあるそうです。  http://yokoku.in/  ネット記事によると、  「予告.inは2ちゃんねる掲示板やブログから犯罪予告と思われるキーワードを定期的に検索し、自動取得してトップページに掲載する」  と解説されていました。 ■【質問】  これと同じように、2chのスレッドタイトルや書き込みに、例えば「ケーキ(あくまで一例です)」というキーワードが入っていた場合、自身のサイト内にスレッドタイトルやスレッドへのリンクが自動掲載されるようにしたいのです。  「予告in」の管理人さんの開発日記を見たところ、  [Twitter+2ch+Yahoo!+Hatena+Technorati+mediaWiki+したらば]で作れた(略)  と書かれてはあるのですが、自分には難しくてこれだけでは意味がわかりません。  http://d.hatena.ne.jp/satoru_net/20080611  わたしは「ホームページビルダー バージョン13」で、ごくシンプルなサイトを作って管理している程度の知識しかありません。  いきなり、一般のブログ記事も収集対象にしようとすると、まだ難しくて付いて行けないかも知れませんので、今の時点では2chだけを収集対象にした方法を教えていただけないでしょうか? ■【補足】  余談ですが、自身のサイトで「RSSフィード取得ツール」を使ってはいますが、これはあらかじめ登録したブログの更新情報がサイトで自動表示されるだけのようです。  なので、不特定多数のブログから「ケーキ」というキーワードが書かれたブログだけを表示する用途には使えないっぽいです。

  • ネットの情報を自動収集するプログラムを作りたい。

    インターネットでの情報収集を、プログラムで自動的に行いたいと考えています。 この場合、どのような勉強が必要なのか教えていただけませんか。おそらく何通りかの答えがあると思いますが、複数の回答を期待しています。 また、ヒントとなる主なコマンドやキーワードがあれば教えてください。自習の参考にさせていただきます。 プログラム経験は、10年以上前にBASICを多少かじった程度ですが、これを機会に、WEB関連のプログラムをがんばって勉強しようと思います。

  • プログラミング未経験者の情報系学部への進学

    今、高校一年生で、大学は確定していないにせよ、情報系の学部へ行きたいと思っています。 ちなみに高校は普通科で、部活はなかなか忙しいです。 そして、問題なのはまだまともなプログラミングをしたことがないことです。 昔にちょっとPHPをかじり、今、JAVAを見回してます。あとは、自分のブログのCSSやHTMLをいじくったことがある程度です。 PHPの方は全く未経験というわけではないにせよ、しっかりとした物を作ったこともなく、どういう構文があるかもほとんど分かりません。 JAVAは今、 http://www.javadrive.jp/index.html このページの入門のところだけを目を通してSwingを使ってサンプルとして紹介されているメモ帳をほんの少しだけ改変しながら作ってる最中です。取り組む頻度は恥ずかしながらかなり少ないです。 情報系の学部、と一概に言ってもいろいろあるとは思いますが、ネットワークのようなものもいいと思っています。馬鹿馬鹿しくも大それた事を言えば、グーグルやら、マイクロソフトやらを目指せる学部がいいです。 広汎に言う「パソコン」に関してなら周りの同年代と比べれば一回り達者だと思います。 こんなプログラミング素人ですが、情報系の学部に行くのはよろしくないでしょうか。 プログラミングを磨けばアリなのか、むしろ、磨かなくても全然大丈夫なのか。 教えてください、お願いします。 長文失礼しました。

  • ブログ記事を自動収集してホームページに表示させるには?

    PHPカテゴリで適切かどうかわかりませんが、 質問させていただきます。 お店のホームページを持っていますが、 来店してくださったお客様で、ブログに当店のことを書いて くれている方が増えてきました。 それらを自動収集して当店のホームページのお客様の声ページに 一覧表示できないかと考えています。 食べログの「ブログでの評判」のようにしたいのです。 ​http://r.tabelog.com/ishikawa/A1701/A170101/17000173/dtlblog/​ これを実現するには、どうすればよいのでしょうか? どのようなソフト、技術を使うのか、RSS?API? ネットで調べてみたものの、情報がなく、 ご存じの方がいましたら教えていただけないでしょうか? なお、当方PHPに関しては初心者です。 どうぞよろしくお願いいたします。

    • 締切済み
    • PHP
  • カテゴリ別ロボットURL収集は著作権違反なのでしょうか?

    質問なのですが Yahooカテゴリ内のページを ロボットクローラーを使用して URLの収集を行った場合。 著作権違反に当たるのでしょうか?(データベース著作権等) 「収集行為そのもの」として (Google等は巡回しているみたいなのですが・・) ”URLのリストそのもの”にはデータベース著作権が適応されるとの事ですが 参考:OKWeb内 http://okwave.jp/kotaeru.php3?q=1258081 よろしくお願いします。

専門家に質問してみよう