• ベストアンサー

スクレイピングする際のマナー(吸い出すデータ量等

よその会社の運営するサイトからスクレイピングして、 データベースを組もうと思います。 あまり一気にやってしまうと、先方のサーバに負荷がかかってご迷惑をかけてしまうかもしれないので、 どの程度のペースで行うべきかを相談させていただきたくお願い申し上げます。 なお、先方のサイトは月間1000万PVくらいの大きなサイトなので、 サーバもしっかりとしたものを入れていると思います。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

優先事項としては、相手のサーバがrobots.txtで指定している場合はそれに従うべきでしょう。「Crawl-delay」が指定されていれば、これに基づいてクロール間隔を設定すると良いです。 robots.txtの設定・書き方、アクセス禁止・制限、ロボット・クローラー - Google、Yahoo、Bing、Baidu、Naver、Cuil、DotBot http://memorva.jp/memo/website/robots_txt.php robots.txtが配置されていない場合は、先方に連絡して相談してから決めるというのが最良の方法になると思います。 なお、検索エンジンは結果として自サイトにアクセスを誘導してくれますから大体歓迎されますが、スクレイピングについては歓迎されないかも知れません。マナーを気にされるのであれば、やはり先方に相談するのが一番だと思います。

mic_goto
質問者

お礼

ご回答ありがとうございます。 robots.txtには、「Crawl-delay」等のクロール間隔を設定する際の参考となる指定はなされていませんでした。 勝手を申しまして誠に恐縮ながら、先方に相談するのは避けたいと存じます。 というのも、先方に相談すると、先方担当者も仕事を下手に増やしたくないでしょうし、 「ご遠慮ください」の一言で終わりそうな気がするためでございます。 ですので、当方でご迷惑にならない範囲を模索し、皆さんに相談させていただいた次第でございます。 アドバイス、感謝いたします。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • x-1919
  • ベストアンサー率52% (91/173)
回答No.2

> 勝手を申しまして誠に恐縮ながら、先方に相談するのは避けたいと存じます。 > というのも、先方に相談すると、先方担当者も仕事を下手に増やしたくないでしょうし、 > 「ご遠慮ください」の一言で終わりそうな気がするためでございます。 それなら無断盗用ですね。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • スクレイピングの違法性について

    AmazonやYoutubuなどの大手サイトでは度々スクレイピングが禁止されていますが、ユーザーがサイトで検索をかけて閲覧することができる範囲であれば運営側が禁止と明言していても、よくてサービス利用禁止になる程度で法律には触れないと私は考えていますが、その是非を教えてください。

  • Google検索結果に対して、スクレイピングを実行

    Google検索結果に対して、スクレイピングを実行したい。 Webサイト上で、JavaScriptなどの処理で、 バックグラウンドでGoogleカスタム検索などを使用して、 複数サイトに対して検索後、Googleの検索結果に対して、 データを加工して、サイト上に一覧表示したいと考えております。 サーバー負荷を考慮して、クライアントサイドスクリプトのJavaScriptを 検討しておりますが、他に最適な言語はありますでしょうか? 【質問まとめ】 1.スクレイピングの実行処理をサイト閲覧者に分からないようにバックグラウンドで実行する事は可能でしょうか? 2.Google検索結果に対して、データを加工する事は可能でしょうか? 3.サーバ負荷が掛かりにくい最適な言語について 以上、ご教示頂けますと幸いです。 宜しくお願い致します。

  • 膨大なアクセス数に耐えうるレンタルサーバ

    現在運営しているサイトのサーバ移転を検討中で、 これまで自社サーバだったのですが、サーバ担当者が当面の間、不在になるため、専門知識がなくても運営できるレンタルサーバにしたいと思っています。 <要望> 各社比較でディスク容量Dやメモリについてはわかるのですが、 『回線が安定していて早いこと』について、よくわかりません。 どこか下記の点でオススメのサーバ会社や、見極め方があれば教えてください。予算は月額1万円程度です。 1.回線が安定していて、アクセスが多くても早いこと。 2.サポートがしっかりしていること。 <その他> HDスペース 100~300MBくらい 管理インターフェイスあり SSL機能 CGI/SSI データバックアップ データベース SQL PHP <現状> 現在のアクセス数:1日に約1.2万PV(月間36万PV) 2004年目標値:1日に10万PV(月間300~1000万PV) ※ アダルトなどではなく、一般サイトです。 以上、なにとぞよろしくお願いいたします!

  • スクレイピングでのアクセス回数や頻度について

    月間PV20万(Similarweb調べ)ぐらいのヨーロッパのサイトに約3000回アクセスして、テキストを取得したいのですが、アクセス頻度は、どのぐらいにしておくべきなのでしょうか? この辺の知識はほどんどないのですが、無知でも相手には出来るだけ負荷をかけたくありません。 現在は1日50回を10秒おきにしているのですが、このままだと60日間もかかってしまうため、やはり、できるだけ早く終わらせたいと考えています。 何か、ご教授をお願いいたしますm(__)m

  • アクセスの多い時に最適なデーターベースは

    アクセスが月間5億PVの通販サイトに最適なデーターベースは何でしょうか。OSはLinuxです。

  • レンタルサーバ(プラン)の選び方

    以前もサーバについて質問をさせていただいたのですが 状況が若干変わりましたので再度質問をさせていただきます。 状況としてはこれからsohoとしてweb製作を受けていく予定なのですが その際レンタルサーバを私が借りて、その中に受けた各社のwebサイトを 格納して運用していこうと考えております。 その際月間セッション1500のサイトを10サイト運営できるような サーバーを借りたいと考えておりますが、 その際必要になるスペックはどのようなものになるでしょうか。 運用はwordpressにてマルチサイト機能を利用しようと考えております。 また、似たような質問を検索しても見つけることができなかったのですが こういった運営をされている方は少ないのでしょうか。 サーバーに関してはクライアント様とサーバ会社が直接契約する ケースが多いような印象でした。 質問をまとめさせていただきます。 【1】月間セッション数1500 (PV5000)のサイトを 10サイト運営できるレンタルサーバの必要スペック。 【2】sohoでweb製作をする際のお勧めのサーバー運用方法。 よろしくお願いいたします。

  • サイトのサーバー運用費について

    サイトのサーバー運用費、サーバーレンタル費用について質問ですが、 月間3000万PV数、4000万PV数、5000万PV数ぐらいのサイトのサーバーをレンタルサーバー会社より借り、サーバー運用代行もレンタルサーバー会社に行ってもらった場合の費用はどれくらいかかるのでしょうか。

  • 1つのデータベースに2つのWordPressを設置

    WordPressを使って、それぞれまったく別の独自ドメインでブログを2つ設置したいと考えています。 レンタルサーバーとして、ロリポップの「ロリポ」を考えていますが、MySQLのデータベースが1つしかありません。 ロリポップのホームページを見ると、MySQLのデータベース1つに複数のWordPressをインストールして使うことが「ロリポ」でもできるとしてマニュアルが載っています。 しかし、ネットでいろんなレンタルサーバーを使っているユーザーの意見をいろいろ調べてみると、ブログを運営している人の中には、「1つのデータベースにWordPressは1個だけの方がいい。複数のWordPressを置くとエラーが出やすい。データベースに負荷をかけ、サーバーが遅くなったり、エラーが起きたりする。だからデータベースの個数も運営したいブログの数だけは欲しいところ」というような感じの記述が複数で見られます。 実際のところはどうなのでしょうか。 設置するブログは、ひとつはすでに別のレンタルサーバーにMovableTypeを置いて運営中のものです。これをロリポップのロリポにWordPressを置いて移築したいと考えていますが、このブログの記事数は現在のところ約1000です。1週間に1回の更新(1つの記事が増える)程度で、1日のアクセス数は普段は40~100程度しかありません。(多いときで年に数回300程度、過去最大で確か600程度が1度だけ) 追加で新しく作るブログは、これよりさらに更新もアクセス数もずっと少ないと思います。 2つともいわゆる個人ブログです。 この程度のブログなら、データベース1つに、WordPressでブログ2つを置いても負荷とはならず支障はないでしょうか。

    • ベストアンサー
    • MySQL
  • 約10万人のユーザをもつサイトを運営しています。

    約10万人のユーザをもつサイトを運営しています。 ここで広告収入を得るビジネスモデルが成立するものなのか検討中です。 月間のPVが約100万PVくらいあるのですが、たとえばバナー広告などを 貼って広告主から掲載料をいただくようなモデルを検討したとき、どれくらい の収益が得られるものなのでしょうか。 どなたか教えていただければありがたいです。

  • 専用サーバに移転すべきでしょうか

    こんにちは。 現在、独自ドメインを取得して、共有サーバでスペースを借りているのですが、 先方から「月間の転送量が20Gを超えたので、これ以上は無理です」と言われて しまいました。 今後もWebサイトは運営していくつもりなのですが、この場合、そろそろ専用サーバへの 移転を考えた方がいいのでしょうか? それとも、これくらいならまだ、共有サーバでもっと条件の良いところを探すべきでしょうか。 いろいろとわからないことが多いので、見当違いの質問をしているかもしれませんが、 お分かりの方、回答をお願いいたします。