• ベストアンサー

次へのページの内容を取得

今見ているサイトで多数の商品があり、1ページ30件でしか表示がなく 1000件以上あるので次へのページに行くのが大変苦労しております。 商品の登録を行うため、simple html domを利用して情報を取得しています。 しかし、次のページの商品を取得する方法が思いつきません。 手間はかかりますが、例:1~30(全1500件) とかの部分を取得し 全ページの取得もできると思いますが もっとスマートな取得方法はありませんでしょうか。 ご教示のほどよろしくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
  • yambejp
  • ベストアンサー率51% (3827/7415)
回答No.1

次のページに行くリンクを解析して、リンク先を読めばよいのでは? 次ページへのリンク自体は実装方法がサイトのポリシーによるでしょうから そのサイトに合わせたものを予測してテストして実行して検証するの繰り返しです

AnonySub
質問者

補足

やはりそのような地味な処理でしかできないのですね。。。 もう少しコードを簡略化できればと思ったのですが。 何かそのようなプラグイン的なものはないのでしょうか? もしご存じであればご教示お願いいたします

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 回答数が10件を超えると、次の頁になるのは、なぜ?

     回答数が、10件を超えると、次の頁になりますが、これは、なぜでしょうか? 例えば、31件の回答があったら、4頁になります。    なぜ、1頁ではないのでしょうか? (最初の回答まで見るのに、結構、手間が掛かります・・・)  10件ごと、とかにした方が、サーバーとかの負担が減る、とか、でしょうか?

  • WEBページの自動取得⇒更新につきまして

    WEBページの自動取得⇒更新につきまして 同じ内容の更新をいくつものHTMLに書き換えなくてはならず苦労しています。 出来れば一箇所更新して、他のページは自動的に指定した部分を取得して指定して部分へと置き換えて欲しいのですが良い方法は有るのでしょうか? ターゲットのブラウザはMOBILEですのでIフレームなどは使えません。 動作イメージとしては取得される側には  《目印A》     取得内容     取得内容  《/目印A終わり》 見たいな区切りを付けておきそれを置き換える側の  《目印A 貼り付け部分》 みたいな場所に定期的に貼り付けてくれると日常の手作業が九割は自動化されます

    • 締切済み
    • CSS
  • 次のページに進みませんッッ

    あるサイトで登録しようと作業をしているんですが、メールアドレスとパスワードを入力後、 "STEP2"という次のページに進むボタンを押すと今開いているページがまた開いてしまい次のページへ進めません。 当サイトのサポートに問い合わせたところ、 ・ポップアップの制限設定の可能性あり⇒チェックして下さい ・パソコンが古い情報をため込んでいる⇒「更新」「キャッシュのクリア」の実行 ・SSL技術導入のためSSL対応を選択してください など様々なアドバイスをしていただいたんですが、どれをしても改善されずいまだうまくできていません。 そのページのプロパティを見てみたところ、 種類:利用不可 サイズ:利用不可 日時:利用不可 更新日:利用不可 と書いてありました。 どうしたら改善されますか? 説明がままならなくて申し訳ないのですが、よかったらどうしたらいいのかアドバイスお願いします。

  • htmlで記述されたWebページの解析と情報取得

    特定のWebページを取得し、その情報の一部を利用したいと思っています。 そのページはXML形式ではなく一般的なhtml形式です。 今はやり方がわからない為、ブラウザに一旦受けさせて ブラウザの機能でパースしてもらってそれを利用しています。 しかし、スマートではないのでこのやり方から卒業したいと思っています。 (そもそもAjaxじゃないし) これを(一旦html文字列を取得して)何かのJavaScriptライブラリ等を利用して 「getElementsByName…」等を利用できる形のオブジェクトに 変換したいと思っています。 xmlhttp = new ActiveXObject("Microsoft.XMLHTTP"); xmlhttp.open('GET', …); … htmlStr = xmlhttp.responseText; // ←これを使う? htmlDom = hoge.parse(htmlStr); htmlDom = xmlhttp.responseHTML; // ←こんな感じのがあれば最高 alert(htmlDom.getElementsByName("…")[0].value); google提供のライブラリに「GXml.parse」というものがあり、 XML文字列をXML DOM 形式にパースするという機能があります。 これのhtml版はないものかと思っているしだいです。 例えば、以下のページ(どちらでもいい)から為替レートを取得したい場合などです。 外為 レート - Infoseek マネー http://money.www.infoseek.co.jp/MnForex/fxrate/ 外為 米ドル/円 - Infoseek マネー http://money.www.infoseek.co.jp/MnForex/fxdetail/?fx=F1001 ※今回の質問は「どこでもいいから為替レートを取得する方法」ではありません。  知りたいのはhtmlのパース方法です。為替はあくまでも例です。 (Webブラウザにレンダリングさせないで) html文字列をparseする方法。(JavaScriptライブラリの使用可) ※html文字列からでなくともいい これを教えてください。よろしくお願いします。

    • ベストアンサー
    • AJAX
  • URLからそのページのタイトルを取得したい

    こんばんは。 任意のURL(例:http://okwave.jp/)から、そのページのタイトルを取得したいのですが、どのようにすれば良いでしょうか。 なるべく簡単な方法をお願いします。 ちなみに http://okwave.jp/qa1965843.html のソースではうまくいきませんでした。 それでは、よろしくお願いします。

    • ベストアンサー
    • PHP
  • IEの操作で新ページのソース取得方法は?

    VBによりIEでページを表示させ、そのページから新しいページに移動させたとき、その新ページのHTMLのDocument取得方法をご教示頂きたくお願いします。

  • php掲示板作成で次ページを作る

    すみません、プログラム初心者です。 phpでの掲示板作成にて、何件か投稿されると次のページを自動で作るプログラムの書き方を知りたいです。 例)前へ1234567次へ 投稿データはphpmyadminを使用し取り込んでいます。

    • 締切済み
    • PHP
  • あるサイトの商品ページをすべて取得したい

    http://japan.webike.net/ ↑こちらのサイトの商品詳細ページのURLをすべて取得したいのですが、何か方法はありますか? 動的ページが生成されてしまうので、ソースが変わってしまいます。

  • 登録されていないページの探し方?

    いくつかのホームページを運営していますが、検索エンジンに登録されていないページを探すのに苦労しています。 主にYSTとグーグルに登録をしていますが、登録されているページもあれば登録されていないページもあります。 登録されていないページを探して登録しようと思うのですが、ページ数が複数あるのでそれを探すのには時間がかかり過ぎてしまいます。そこで質問ですが、簡単に検索エンジンに登録されていないページを捜す方法を教えてください。

  • [C#]htmlを取得できないページがある。

    C#でhtmlソースを取得したいのですが、取得できるページと出来ないページがあって困っています。 取得方法は以下の方法を使用しています。 ===ここから=== HttpWebRequest req = WebRequest.Create(url) as HttpWebRequest; HttpWebResponse res = null; try { res = req.GetResponse() as HttpWebResponse; } catch { MessageBox.Show(url + "指定した Web ページが応答していません!", "エラー"); } StreamReader reader = new StreamReader(res.GetResponseStream(), Encoding.GetEncoding(encode)); string htmlsource = reader.ReadToEnd(); reader.Close(); =================== htmlsourceにソースが入るのですが、取得できないページも一応ソースは取得できるのですが、 実際にIEなどのブラウザで表示した場合のソースと異なります。 ユーザーエージョンとして req.UserAgent = "User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:16.0) Gecko/20100101 Firefox/16.0"; を設定しても結果は同じでした。 ■取得できるページ例 http://www.amazon.co.jp/s/ref=sr_nr_n_1/375-1273809-4334332?rh=n%3A465392%2Cn%3A!465610%2Cn%3A571582&bbn=465610&ie=UTF8&qid=1376454464&rnid=465610&lo=stripbooks ■取得できないページ例 http://www.amazon.co.jp/s/ref=sr_nr_n_3?rh=n%3A465392%2Cn%3A!465610%2Cn%3A492152&bbn=465610&ie=UTF8&qid=1376454590&rnid=465610&lo=stripbooks

このQ&Aのポイント
  • 知り合いの人妻さんとの関係は、子供を通じたパパ友やママ友のような交流があります。
  • 彼女はパパ友からのLINEを見せてきており、家族でキャンプをしたり食事をしたりする関係です。
  • このような関係は今では珍しくないのか、という疑問が浮かびます。
回答を見る