• 締切済み

特定ドメインのURL収集

特定ドメイン(http://***.xxx.com)以下の.htmファイルのURLを全て収集するにはどのようにすればできるでしょうか? トップページから全てリンクしているわけではないので独立したページもあります。

みんなの回答

  • notnot
  • ベストアンサー率47% (4900/10361)
回答No.2

「独立したページ」って、「トップページからどのようにリンクを辿ってもたどり着けないページ」という意味ですよね? >例えばgoogleで検索させてドメインを含むページを検索させて 「そのサイトのトップページからはどのようにリンクを辿ってもたどり着けないが、他サイトのとあるページからリンクされているページ」ならその他サイトのページがgoogleの探索対象になっていれば探したいページもgoogleに引っかかるのでsite:xxx.xxx.comで検索することで可能でしょう。収集したい独立したページはすべてそのようなページなのでしょうか?

123isao
質問者

補足

例えばhttp://alink2.uic.to/user/以下のページです。 個人が借りられるリンク集でhttp://alink2.uic.to/user/xxxx.html のxxxx部分は自由に決められるます。 完全に全てではなくある程度の数(数千個)のURLを収集したいです。

  • notnot
  • ベストアンサー率47% (4900/10361)
回答No.1

>トップページから全てリンクしているわけではないので独立したページもあります。 httpでは無理です。ftp等を使う必要があります。

123isao
質問者

補足

どうにかやり方はあると思います。 例えばgoogleで検索させてドメインを含むページを検索させて それらの結果ページを全て自動でエクセルで取り込むとかです。

関連するQ&A

専門家に質問してみよう