• ベストアンサー

クローラでの情報取得 サーバに過度負荷で訴訟ある?

こんばんわ。 現在クローラをつくっています。そのクローラで、あるサイトに掲載されている情報を根こそぎ取得するつもりなのですが、心配していることがあります。 そのクローラでサイトから情報を取得しようとした場合、かなりの時間が掛かるようです。サイト側サーバーにもそれなりの負荷がかかるものと思います。 サーバーに過度の負荷が掛かった場合、サイトを運営している会社から訴えられたりしないでしょうか? よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • nerimaok
  • ベストアンサー率34% (1125/3220)
回答No.2

岡崎図書館事件を調べてください。 この案件では図書館側のサイトの仕様の問題だったため、起訴猶予となりましたが 無罪となった訳では有りません。 機械的な大量アクセスは禁止しているデータベース系サイトも多いので、 この場合は当然禁止行為となりますから不正アクセスとされても仕方有りません。

ponta0002
質問者

お礼

ありがとうございました。 大変参考になりました。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

回答No.1

不正アクセスとみなされる可能性はありますね

ponta0002
質問者

お礼

ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • クローラの可能性

    クローラプログラムについて質問です。 クローラを使用して、パスワード等の認証機能のかかったHPサイトの リンク先にあるページから文章等の情報をを取得することは可能なのでしょうか? 勿論、パスワード等は事前にわかっている場合です。 また、クローラはイントラでも情報取得することは可能なのでしょうか? 知識が無いので、当たり前の事を聞いていた場合申し訳ありません。

  • Webから日本語取得、無難なクローラーは?

    言語処理のために大量の日本語文章が欲しいです。 Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。 各ページ1回だけで、取ったら更新はほぼしません。 取得対象に影響を与えない事を優先したいです。 オススメのクローラーがあれば教えてください。 取得先の情報で分類出来るとうれしいです。 取得はlinuxサーバから行う予定です。

    • 締切済み
    • SEO
  • 自作webクローラーの実行サーバ

    phpで自作でクローラーを作成しました。 とあるサイトのすべてのページを徘徊し、詳細ページの情報のみ取得してくるといったものです。 ちなみにphpのhtmlsqlを拡張して作成しております。 phpスクリプトでの実行時の想定最大使用メモリ数は512Mほどあれば足りるといった感じです。 ■サイト規模 google総インデックス数:300,000件程 詳細ページ数:60,000件程 そこで質問なのですが、このような重い処理を実行する場合に搭載するサーバはどのようなものがいいのでしょうか? おそらく共有サーバですと、サーバ管理会社側にバッチ処理をkillされてしまうかとおもうので、 専用サーバなどになってしまうかと思ってします。 できるだけコストが安いサーバを希望しています。 どなたか知識のある方いらっしゃいましたらご教授いただけませんでしょうか。 どうぞ宜しくお願い致します。

  • サーバー負荷について教えてください

    現在、ファイルサーバー(Pen4,RAM1G)に10台程度のクライアントパソコンが接続している環境です。モノクロプリンターのプリントサーバーを兼用しているのですが、これによるサーバー負荷は無視できるものなのでしょうか? それと、サーバー側にもNortonのUntiVirusが入っており、ファイルのリアルタイム保護がONになっているのですが、クライアント側でONになっていれば、サーバー側をOFFにして問題あるのでしょうか?また、これのサーバー負荷はいかほどのものでしょうか?

  • 負荷に耐えられる回線とサーバ

    私、個人サイトとして、いくつか掲示板運営しております。 レンタルサーバを借りてそこにperlのCGIを置いて運営してるんですが、アクセス量の問題で出て行ってくれといわれてしまいました。でサーバ会社をいくつも契約してトラフィックを分散していたのですが、使いづらく金額もばかになりません。 そこで、レンタルサーバではなく自宅サーバにしようかと思うのですが、自宅の回線でトラフィックに耐えられるかどうかお聞きしたいのです。また、自宅サーバは初めてですが、負荷にサーバがハード的に耐えられるかお聞きしたいのです。 現在の掲示板の合計のアクセス量としては 一日合計30万PV前後 一日転送量5GB前後 perlのCGIはJAVAで書き直してDBとつなげて使用するつもりです。 oracleが無料で使用できるようになったらしいのでDBはoracleにしようと思ってます。OSはFREEBSDかREDHATにしようと思ってます。 1-光回線やADSL回線で上記条件のサイト運営は可能でしょうか? もし不可能なら光回線やADSL回線を何回線も契約しても無理でしょうか?データセンターなどにハウジングするしかないのでしょうか? 2-上記条件に適したサーバとしてはどんなスペックが要求されるでしょう?(搭載メモリ量やCPU等) 自宅サーバにする場合はUPSとRAIDぐらいは使おうと思ってます。 自分でサーバを組むのと既成のサーバを買うのではどちらがよいでしょう?もし既成のサーバを買うとしたらお勧めのモノなどを教えていただけないでしょうか? 3-サーバの数は一台で大丈夫でしょうか?無理なら何台くらい必要になるでしょう? 4-全部の金額を合わせるとどのくらいになるのでしょうか? 詳細なところも含めて教えていただけると大変たすかります。 (回線代大体いくらサーバ購入代大体いくら等) お手数ですがどうかわかるかたよろしくお願いいたします。

  • あるクローラー(ロボット)が異常にアクセスしてくるのですが...

    ご指導よろしくお願いします。 私の運営しているサイトの一日のアクセス数は、PVで3000ほどなのですが、 ここ2,3日のアクセス解析を見ましたところ、1時間に1000以上のアクセスが続いています。 当然一般のユーザーからのアクセスではなく、クローラーです。 その異常にアクセスしてくるクローラーのホストが 「38.99.13.×××」 なんですが、どこから来ているのかが知りたいのです。 検索してみたのですが、”これだっ!”という情報を探すことができず、 こちらに投稿させていただきました。 何卒ご指導の程、よろしくお願いいたします。

  • 自分のサイトがあるサーバーの負荷を減らしたい

    自分のサイトで利用している画像を、サーバー内でローカル呼び出しすることと、別サーバーに画像だけを置いて呼び出す場合、どちらの方がサーバーに負荷がかからないのでしょうか? また自分でサーバーの負荷を調べるには どういった方法があるのでしょうか? よろしくお願いしますm(_ _)m

  • クローラーがhtaccessでリダイレクト

    現在、WEBサイトを作成しており、当該サイトは、レンタルサーバーを借りる際にhttpのドメインも一緒に新規で取得しました。 ただ、その後、全ページ https で作成していくこととなり、各リンクは全てhttpsでつながっています。 検索エンジンからTOPに入ってくるときに、httpならば、httpsにリダイレクトするように、htaccessに記述していました。 しかし、昨日、googleにサイト登録して、本日まで待ってみたところ、ウェブマスターツールの 「クローラーエラー」と「検索クエリ」はまだ反映されていませんでした。 以前は単純なhttpのサイトですと、1日程度で何かしら反映されていたと思うのですが、 やはりなにか設定が足りないのか、それともクローラーは、htaccessのリダイレクトを読み込まないのでしょうか。 どなたか体験されたことのある方がいらっしゃいましたら、教えてください。 よろしくお願い致します。

  • サーバでエラーを出すときIE8の反応は?

    私は、あるサイトを運営しているのですが、共有サーバを使用しています。夜中の時間になるとアクセスが集中(他のサイトにも)し、「Internet Explorer ではこのページは表示できません」というメッセージが頻発するのですが、サーバ会社によると、サーバに負荷がかかりすぎると、サーバ側で「503 Service Temporarily Unavailable」を出すらしいのですが、このサーバのエラーのときIE8の反応は、「Internet Explorer ではこのページは表示できません」が出ますか?誰かわかる人は、教えて下さい。

  • 著作権とクローラー(スパイダー、ロボット)での情報収集

    リンク集に類似したサイトを運営しております。 今後のサイト展開にあたって疑問点があり、質問させていただきます。 私の運営するリンク集は、個々のリンクについて「サイト名」「サイトのカテゴリ」「そのサイトへのリンク」を表示することで構成されております。現状では「リンク先サイトの説明文」は表示されないため、リンク集としての価値は薄いと考えております。 そこでクローラーを作成して、リンク先サイトのトップページから、「サイト説明文」(METAタグのDescriptionや本文)を取得して、それを表示させたく思っております。つまりは、Google や Yahoo 等の検索エンジンと似た結果を表示する形になります。 このようにリンク先サイトのトップページから、サイト説明文となるデータを取得(クロール)し、自分のサイトに表示することは、著作権の侵害に当たるのかを疑問に思っております。 なお、作成するクローラーは、「robots.txt」や「METAタグの Robots の値」を尊重して、クロールを望まないサイトに対するクロール行為を慎むつもりでおります。 参考までに下記ページには、「他人の作ったホームページを全部または一部ダウンロードすれば複製権の侵害に当たると考えます」と記述されておりました。 ●ホームぺージは著作権で保護されるのでしょうか。 http://www.cric.or.jp/qa/multimedia/multi12_qa.html どうかお知恵をお貸しくださいますようにお願いいたします。

このQ&Aのポイント
  • コロナ禍でも家を買うことは可能ですが、リスクを考慮する必要があります。
  • 手取りの3割程度の負担額でローンを組むことが望ましいです。
  • 絶対にやるべきことは、十分な資金計画を立てることです。絶対にやらないことは、無謀なローンの組み方を選ぶことです。
回答を見る