ベストアンサー

次へのページの内容を取得

2013/10/09 19:08

今見ているサイトで多数の商品があり、１ページ３０件でしか表示がなく１０００件以上あるので次へのページに行くのが大変苦労しております。商品の登録を行うため、simple html domを利用して情報を取得しています。しかし、次のページの商品を取得する方法が思いつきません。手間はかかりますが、例：1～30(全1500件)　とかの部分を取得し全ページの取得もできると思いますがもっとスマートな取得方法はありませんでしょうか。ご教示のほどよろしくお願い申し上げます。

AnonySub
お礼率50% (2/4)

PHP
回答数1
ありがとう数1

回答全件

ベストアンサー

次のページに行くリンクを解析して、リンク先を読めばよいのでは？次ペー…

2013/10/09 19:46

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

yambejp
ベストアンサー率51% (3827/7415)

2013/10/09 19:46 回答No.1

次のページに行くリンクを解析して、リンク先を読めばよいのでは？次ページへのリンク自体は実装方法がサイトのポリシーによるでしょうからそのサイトに合わせたものを予測してテストして実行して検証するの繰り返しです

質問者

補足 2013/10/09 21:37

やはりそのような地味な処理でしかできないのですね。。。もう少しコードを簡略化できればと思ったのですが。何かそのようなプラグイン的なものはないのでしょうか？もしご存じであればご教示お願いいたします

全文を見る

ログインすると、全ての回答が全文表示されます。

関連するQ&A

回答数が１０件を超えると、次の頁になるのは、なぜ？
　回答数が、１０件を超えると、次の頁になりますが、これは、なぜでしょうか？例えば、３１件の回答があったら、４頁になります。　　　なぜ、１頁ではないのでしょうか？（最初の回答まで見るのに、結構、手間が掛かります・・・）　１０件ごと、とかにした方が、サーバーとかの負担が減る、とか、でしょうか？
- ベストアンサー
- このQ&Aコミュニティーについて
WEBページの自動取得⇒更新につきまして
WEBページの自動取得⇒更新につきまして同じ内容の更新をいくつものHTMLに書き換えなくてはならず苦労しています。出来れば一箇所更新して、他のページは自動的に指定した部分を取得して指定して部分へと置き換えて欲しいのですが良い方法は有るのでしょうか？ターゲットのブラウザはMOBILEですのでIフレームなどは使えません。動作イメージとしては取得される側には　《目印A》　　　　取得内容　　　　取得内容　《/目印A終わり》見たいな区切りを付けておきそれを置き換える側の　《目印A 貼り付け部分》みたいな場所に定期的に貼り付けてくれると日常の手作業が九割は自動化されます
- 締切済み
- CSS
次のページに進みませんッッ
あるサイトで登録しようと作業をしているんですが、メールアドレスとパスワードを入力後、 "STEP2"という次のページに進むボタンを押すと今開いているページがまた開いてしまい次のページへ進めません。当サイトのサポートに問い合わせたところ、・ポップアップの制限設定の可能性あり⇒チェックして下さい・パソコンが古い情報をため込んでいる⇒「更新」「キャッシュのクリア」の実行・SSL技術導入のためSSL対応を選択してくださいなど様々なアドバイスをしていただいたんですが、どれをしても改善されずいまだうまくできていません。そのページのプロパティを見てみたところ、種類：利用不可サイズ：利用不可日時：利用不可更新日：利用不可と書いてありました。どうしたら改善されますか？説明がままならなくて申し訳ないのですが、よかったらどうしたらいいのかアドバイスお願いします。
- ベストアンサー
- ネットトラブル
htmlで記述されたWebページの解析と情報取得
特定のWebページを取得し、その情報の一部を利用したいと思っています。そのページはXML形式ではなく一般的なhtml形式です。今はやり方がわからない為、ブラウザに一旦受けさせてブラウザの機能でパースしてもらってそれを利用しています。しかし、スマートではないのでこのやり方から卒業したいと思っています。 (そもそもAjaxじゃないし) これを(一旦html文字列を取得して)何かのJavaScriptライブラリ等を利用して「getElementsByName…」等を利用できる形のオブジェクトに変換したいと思っています。 xmlhttp = new ActiveXObject("Microsoft.XMLHTTP"); xmlhttp.open('GET', …); … htmlStr = xmlhttp.responseText; // ←これを使う？ htmlDom = hoge.parse(htmlStr); htmlDom = xmlhttp.responseHTML; // ←こんな感じのがあれば最高 alert(htmlDom.getElementsByName("…")[0].value); google提供のライブラリに「GXml.parse」というものがあり、 XML文字列をXML DOM 形式にパースするという機能があります。これのhtml版はないものかと思っているしだいです。例えば、以下のページ(どちらでもいい)から為替レートを取得したい場合などです。外為　レート　-　Infoseek マネー http://money.www.infoseek.co.jp/MnForex/fxrate/ 外為　米ドル／円　-　Infoseek マネー http://money.www.infoseek.co.jp/MnForex/fxdetail/?fx=F1001 ※今回の質問は「どこでもいいから為替レートを取得する方法」ではありません。　知りたいのはhtmlのパース方法です。為替はあくまでも例です。 (Webブラウザにレンダリングさせないで) html文字列をparseする方法。(JavaScriptライブラリの使用可) ※html文字列からでなくともいいこれを教えてください。よろしくお願いします。
- ベストアンサー
- AJAX
URLからそのページのタイトルを取得したい
こんばんは。任意のURL（例：http://okwave.jp/）から、そのページのタイトルを取得したいのですが、どのようにすれば良いでしょうか。なるべく簡単な方法をお願いします。ちなみに　http://okwave.jp/qa1965843.html　のソースではうまくいきませんでした。それでは、よろしくお願いします。
- ベストアンサー
- PHP
IEの操作で新ページのソース取得方法は？
VBによりIEでページを表示させ、そのページから新しいページに移動させたとき、その新ページのHTMLのDocument取得方法をご教示頂きたくお願いします。
- ベストアンサー
- Visual Basic
php掲示板作成で次ページを作る
すみません、プログラム初心者です。 phpでの掲示板作成にて、何件か投稿されると次のページを自動で作るプログラムの書き方を知りたいです。例）前へ1234567次へ投稿データはphpmyadminを使用し取り込んでいます。
- 締切済み
- PHP
あるサイトの商品ページをすべて取得したい
http://japan.webike.net/ ↑こちらのサイトの商品詳細ページのURLをすべて取得したいのですが、何か方法はありますか？動的ページが生成されてしまうので、ソースが変わってしまいます。
- 締切済み
- JavaScript
登録されていないページの探し方？
いくつかのホームページを運営していますが、検索エンジンに登録されていないページを探すのに苦労しています。主にＹＳＴとグーグルに登録をしていますが、登録されているページもあれば登録されていないページもあります。登録されていないページを探して登録しようと思うのですが、ページ数が複数あるのでそれを探すのには時間がかかり過ぎてしまいます。そこで質問ですが、簡単に検索エンジンに登録されていないページを捜す方法を教えてください。
- 締切済み
- その他（インターネット・Webサービス）
[C#]htmlを取得できないページがある。
C#でhtmlソースを取得したいのですが、取得できるページと出来ないページがあって困っています。取得方法は以下の方法を使用しています。＝＝＝ここから＝＝＝ HttpWebRequest req = WebRequest.Create(url) as HttpWebRequest; HttpWebResponse res = null; try { res = req.GetResponse() as HttpWebResponse; } catch { MessageBox.Show(url + "指定した Web ページが応答していません！", "エラー"); } StreamReader reader = new StreamReader(res.GetResponseStream(), Encoding.GetEncoding(encode)); string htmlsource = reader.ReadToEnd(); reader.Close(); =================== htmlsourceにソースが入るのですが、取得できないページも一応ソースは取得できるのですが、実際にIEなどのブラウザで表示した場合のソースと異なります。ユーザーエージョンとして req.UserAgent = "User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:16.0) Gecko/20100101 Firefox/16.0"; を設定しても結果は同じでした。 ■取得できるページ例 http://www.amazon.co.jp/s/ref=sr_nr_n_1/375-1273809-4334332?rh=n%3A465392%2Cn%3A!465610%2Cn%3A571582&bbn=465610&ie=UTF8&qid=1376454464&rnid=465610&lo=stripbooks ■取得できないページ例 http://www.amazon.co.jp/s/ref=sr_nr_n_3?rh=n%3A465392%2Cn%3A!465610%2Cn%3A492152&bbn=465610&ie=UTF8&qid=1376454590&rnid=465610&lo=stripbooks
- ベストアンサー
- C・C++・C#