- ベストアンサー
HTMLパーサがしたいのですが、困っています
とあるサイトの解析(許可はあるので大丈夫です)をしたいと考えているのですが、 手作業でソースをみたりしたところ ドメイン名/thread/ 24桁の16進数 で書かれています。 15桁の16進数はランダムなようなのですが、 1 threadずつ、取得していきたいです こういう場合どういう方法で取得したらいいでしょうか? 回答よろしくお願いします 開発環境は解析しやすいものを使おうと考えています。 メイン環境は OS Win7 pro mem 24G CPU i7 です。よろしくお願いします
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
>1 threadずつ、取得していきたいです >こういう場合どういう方法で取得したらいいでしょうか? スレッドの番号が簡単に予測がつくならいいですが、 とりあえずロジックがわからないのであれば、ひとつひとつのスレッドを 予測しながら抽出するのは厳しい気がします。 場合によっては外部アクセスを助けるAPIを公開しているものもあるでしょうから 公開されている管理者に確認するのが妥当 もしどうしてもというなら、とりあえずどこかのスレッドにたどりつくとこまで 頑張って、そこに貼ってあるリンクを繰り返したどっていくクローラを つくるのも手かも。
お礼
ありがとうございます! apiがあるようなので試してみようかと思います