- 締切済み
特定ドメインのURL収集
特定ドメイン(http://***.xxx.com)以下の.htmファイルのURLを全て収集するにはどのようにすればできるでしょうか? トップページから全てリンクしているわけではないので独立したページもあります。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- notnot
- ベストアンサー率47% (4900/10361)
回答No.2
「独立したページ」って、「トップページからどのようにリンクを辿ってもたどり着けないページ」という意味ですよね? >例えばgoogleで検索させてドメインを含むページを検索させて 「そのサイトのトップページからはどのようにリンクを辿ってもたどり着けないが、他サイトのとあるページからリンクされているページ」ならその他サイトのページがgoogleの探索対象になっていれば探したいページもgoogleに引っかかるのでsite:xxx.xxx.comで検索することで可能でしょう。収集したい独立したページはすべてそのようなページなのでしょうか?
- notnot
- ベストアンサー率47% (4900/10361)
回答No.1
>トップページから全てリンクしているわけではないので独立したページもあります。 httpでは無理です。ftp等を使う必要があります。
質問者
補足
どうにかやり方はあると思います。 例えばgoogleで検索させてドメインを含むページを検索させて それらの結果ページを全て自動でエクセルで取り込むとかです。
補足
例えばhttp://alink2.uic.to/user/以下のページです。 個人が借りられるリンク集でhttp://alink2.uic.to/user/xxxx.html のxxxx部分は自由に決められるます。 完全に全てではなくある程度の数(数千個)のURLを収集したいです。