- 締切済み
クローラの可能性
クローラプログラムについて質問です。 クローラを使用して、パスワード等の認証機能のかかったHPサイトの リンク先にあるページから文章等の情報をを取得することは可能なのでしょうか? 勿論、パスワード等は事前にわかっている場合です。 また、クローラはイントラでも情報取得することは可能なのでしょうか? 知識が無いので、当たり前の事を聞いていた場合申し訳ありません。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- eroermine
- ベストアンサー率18% (83/444)
関連するQ&A
- webクローラー
webクローラーを作成したいと考えています。 (blogを対象にしたクローラーを行いたい、具体的には個々のblogごとに記事の内容を抽出し、記事内で張っているリンクを収集したい) プログラム言語はperlかpythonあたりを使おうかと考えているのですが、 webクローラーの作成の参考になる書籍やwebページ、アドバイスなどがあれば 教えていただきたいです。 よろしくお願いします。
- 締切済み
- その他(プログラミング・開発)
- Webから日本語取得、無難なクローラーは?
言語処理のために大量の日本語文章が欲しいです。 Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。 各ページ1回だけで、取ったら更新はほぼしません。 取得対象に影響を与えない事を優先したいです。 オススメのクローラーがあれば教えてください。 取得先の情報で分類出来るとうれしいです。 取得はlinuxサーバから行う予定です。
- 締切済み
- SEO
- クローラでの情報取得 サーバに過度負荷で訴訟ある?
こんばんわ。 現在クローラをつくっています。そのクローラで、あるサイトに掲載されている情報を根こそぎ取得するつもりなのですが、心配していることがあります。 そのクローラでサイトから情報を取得しようとした場合、かなりの時間が掛かるようです。サイト側サーバーにもそれなりの負荷がかかるものと思います。 サーバーに過度の負荷が掛かった場合、サイトを運営している会社から訴えられたりしないでしょうか? よろしくお願いします。
- ベストアンサー
- その他([技術者向] コンピューター)
- ip制限のベーシック認証を用いた場合のクローラーさんについて
携帯サイトを作成しております。 今回、下記のサイトを参考にし、ipアドレスを用いて 携帯からのアクセスの場合はベーシック認証を行なわず パソコンからのアクセスの場合はベーシック認証を行なうように しようと思っております。 http://www.skytown.ne.jp/support/htaccess/ht-ip-id.html ただ、ひとつ気になったことがあります。 携帯のIPアドレスからはベーシック認証を行なわず それ以外のIPアドレスからはベーシック認証を行なうと クローラーさんを確実に弾いてしまいますよね? クローラーさんのIPアドレスを1コ1コ調べてIP制限を 解除する方法も考えたのですが、カナリの量があるため 実用的ではないですよね。 そこで、1つ考えてみました。 パソコンをはじめ、クローラーさんが来たときに ベーシック認証が行なわれ、認証に失敗したときの 戻り先URLを作成し、そこにサイト名とサイトの概要を meta要素に書いておくというものです。 あとは、body内にも「携帯専用」とQRコードを載せておこうと 考えております。 そして、携帯から認証に失敗したときの戻り先URLに 直接アクセスがあった場合、携帯のサイトにリダイレクト させようというものです。 けれど、これはクローラーさんが認証に失敗したら 戻り先URLに飛ばされ、飛ばされたURLの情報をクロール することが前提となってきます。 クローラーさんについて、あまりくわしくないので 上記の方法ではたして戻り先URLがクロールされ 携帯用の検索エンジンに登録されるかが不安になったため 質問いたしました。 ぜひ、ご教授のほどよろしくお願いいたします。
- ベストアンサー
- その他([技術者向] コンピューター)
- クローラーがhtaccessでリダイレクト
現在、WEBサイトを作成しており、当該サイトは、レンタルサーバーを借りる際にhttpのドメインも一緒に新規で取得しました。 ただ、その後、全ページ https で作成していくこととなり、各リンクは全てhttpsでつながっています。 検索エンジンからTOPに入ってくるときに、httpならば、httpsにリダイレクトするように、htaccessに記述していました。 しかし、昨日、googleにサイト登録して、本日まで待ってみたところ、ウェブマスターツールの 「クローラーエラー」と「検索クエリ」はまだ反映されていませんでした。 以前は単純なhttpのサイトですと、1日程度で何かしら反映されていたと思うのですが、 やはりなにか設定が足りないのか、それともクローラーは、htaccessのリダイレクトを読み込まないのでしょうか。 どなたか体験されたことのある方がいらっしゃいましたら、教えてください。 よろしくお願い致します。
- ベストアンサー
- その他([技術者向] コンピューター)
- ヤフーのクローラー巡回について質問です。
ヤフーのクローラー巡回について質問です。 現在、仕事でホームページを開設しています。 今年の4月ころにヤフーにインデックスされ、検索結果に表示されるようになりました。 しかし、それ以降クローラーが回ってきていないのか、ページのタイトルなどが古いままの検索結果が表示され続けています。 ちなみにグーグルや、ライブドアなどの検索エンジンでは、HPの更新後3日ほどで検索結果に反映されています。 また、ブログなどでもヤフーは他の検索エンジンよりも古いHPが多いと思うのですが、皆様のHPはどうでしょうか? 私がしている対策としましては、ヤフーサイトエクスプローラーへの登録、クローラー巡回リクエストなどです。 ヤフービジネスエクスプレスには登録していませんが、登録前と、登録後での違いをご存知の方がいらっしゃれば教えていただければと思います。 分かりにくい文章で申し訳ありませんが、よろしくお願いいたします。
- ベストアンサー
- SEO
- クローラーについて
私の名前をグーグルやヤフーに入れて検索すると、関係した記事が出てきます。 しかし、どれも嫌な文章ばかりで、名前を入れても出てこないようにすることはできないでしょうか? 何でもクローラーという巡回機能が関係していると言うことですが、説明文を読んでも良く分かりません。 【robots.txtで登録拒否をするには】 robots.txtを置いて登録を拒否する方法は以下のとおりです。 ・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身(Y!J-SRD/1.0を拒否する場合の例) User-agent: Y!J-SRD/1.0 Disallow: / ・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身 User-agent: * Disallow: / これ一体どこにどう貼り付けろと言うのですか? とにかく (1)今までに特定の投稿された文章を、検索されても表示できないようにしたい。 (2)私の名前を検索されても、今後一切関連した文章が表示されないようにした。 以上の2点、どなたか分かりやすくご説明して頂けませんか? 誹謗中傷ばかりで困っています。
- ベストアンサー
- その他([技術者向] コンピューター)
- 著作権とクローラー(スパイダー、ロボット)での情報収集
リンク集に類似したサイトを運営しております。 今後のサイト展開にあたって疑問点があり、質問させていただきます。 私の運営するリンク集は、個々のリンクについて「サイト名」「サイトのカテゴリ」「そのサイトへのリンク」を表示することで構成されております。現状では「リンク先サイトの説明文」は表示されないため、リンク集としての価値は薄いと考えております。 そこでクローラーを作成して、リンク先サイトのトップページから、「サイト説明文」(METAタグのDescriptionや本文)を取得して、それを表示させたく思っております。つまりは、Google や Yahoo 等の検索エンジンと似た結果を表示する形になります。 このようにリンク先サイトのトップページから、サイト説明文となるデータを取得(クロール)し、自分のサイトに表示することは、著作権の侵害に当たるのかを疑問に思っております。 なお、作成するクローラーは、「robots.txt」や「METAタグの Robots の値」を尊重して、クロールを望まないサイトに対するクロール行為を慎むつもりでおります。 参考までに下記ページには、「他人の作ったホームページを全部または一部ダウンロードすれば複製権の侵害に当たると考えます」と記述されておりました。 ●ホームぺージは著作権で保護されるのでしょうか。 http://www.cric.or.jp/qa/multimedia/multi12_qa.html どうかお知恵をお貸しくださいますようにお願いいたします。
- ベストアンサー
- その他([技術者向] コンピューター)
- 自作webクローラーの実行サーバ
phpで自作でクローラーを作成しました。 とあるサイトのすべてのページを徘徊し、詳細ページの情報のみ取得してくるといったものです。 ちなみにphpのhtmlsqlを拡張して作成しております。 phpスクリプトでの実行時の想定最大使用メモリ数は512Mほどあれば足りるといった感じです。 ■サイト規模 google総インデックス数:300,000件程 詳細ページ数:60,000件程 そこで質問なのですが、このような重い処理を実行する場合に搭載するサーバはどのようなものがいいのでしょうか? おそらく共有サーバですと、サーバ管理会社側にバッチ処理をkillされてしまうかとおもうので、 専用サーバなどになってしまうかと思ってします。 できるだけコストが安いサーバを希望しています。 どなたか知識のある方いらっしゃいましたらご教授いただけませんでしょうか。 どうぞ宜しくお願い致します。
- ベストアンサー
- ハードウェア・サーバー
- file_get_contentsを使えば
簡易クローラー機能は作成できますか?? 具体的には、あるサイトの新しいリンクのみ取得し、リンク先で指定文を取得するみたいなものです。 無理であれば無理で良いです。
- 締切済み
- PHP