• 締切済み

特定ドメインのURL収集

特定ドメイン(http://***.xxx.com)以下の.htmファイルのURLを全て収集するにはどのようにすればできるでしょうか? トップページから全てリンクしているわけではないので独立したページもあります。

みんなの回答

  • notnot
  • ベストアンサー率47% (4846/10257)
回答No.2

「独立したページ」って、「トップページからどのようにリンクを辿ってもたどり着けないページ」という意味ですよね? >例えばgoogleで検索させてドメインを含むページを検索させて 「そのサイトのトップページからはどのようにリンクを辿ってもたどり着けないが、他サイトのとあるページからリンクされているページ」ならその他サイトのページがgoogleの探索対象になっていれば探したいページもgoogleに引っかかるのでsite:xxx.xxx.comで検索することで可能でしょう。収集したい独立したページはすべてそのようなページなのでしょうか?

123isao
質問者

補足

例えばhttp://alink2.uic.to/user/以下のページです。 個人が借りられるリンク集でhttp://alink2.uic.to/user/xxxx.html のxxxx部分は自由に決められるます。 完全に全てではなくある程度の数(数千個)のURLを収集したいです。

  • notnot
  • ベストアンサー率47% (4846/10257)
回答No.1

>トップページから全てリンクしているわけではないので独立したページもあります。 httpでは無理です。ftp等を使う必要があります。

123isao
質問者

補足

どうにかやり方はあると思います。 例えばgoogleで検索させてドメインを含むページを検索させて それらの結果ページを全て自動でエクセルで取り込むとかです。

関連するQ&A

  • 特定ドメイン下のURL収集の仕方

    特定ドメイン(例 http://aaa.co.jp/)以下のURLを全て収集したいのですが、何か方法はありますでしょうか? ・自分が運営していないサイトを対象としてURLの収集をしたいので、 FTP情報は入手できないという前提になります。

  • .htaccessで特定ドメインから以外はTOPへ

    www.popopo.comというサイトを持っていたとします そのサイトの中のdeep.htmlというページ(www.popopo.com/deep.html)のURLがどこかに貼られたとします。いわゆるディープリンク すると私のサイトドメイン以外から、外部から直接deep.htmlにアクセスされますよね しかし私は自分のサイトのトップページをまず見て欲しい考えです。 なので、自分のサイトのドメイン以外からディープリンクで来るアクセスを いったんトップページに飛ばしたいです。 そこで調べると、.htaccessを使うことができることまではわかりましたが 書き方が分かりません。 .htaccessを使って、www.popopo.comの文字列を含んだ場所以外からのディープリンクは全部、トップページwww.popopo.comに飛ばす方法を教えてください。

  • 自社ドメイン内で該当しないURLを指定された際、TOPページに誘導したいのですが

    宜しくお願いします。 たとえば、xxx.comというドメインを使っていて、 そのドメインの階層のサイトを誰かが見たとき、 URLなどが違っていて、実際にないファイルを指定すると、 間違っている表示がでますが、そうではなく、 ないファイルを指定したときだけ、特定のファイルを表示する方法ってありますか?

  • 独自ドメインの正しい設定方法。

    ロリポップのロリポプランを契約して ワードプレスの勉強をしています。 ムームードメインで独自ドメインを取得して 独自ドメインに切り替えるため、設定をしているのですが 独自ドメインにうまく切り替わっていません。 ロリポップ契約ドメイン ○○○.△△△.jp    取得した独自ドメイン  XXX.com 取得した独自ドメインでアクセスすること自体はできるのですが ワードプレスですでに作成した個別ページやTOPページに クリックしてアクセスすると取得した独自ドメインのアドレスから ロリポップ契約ドメインに戻ってしまいます。 XXX.com でアクセス。 ページ内のリンクをクリックすると ○○○.△△△.jp/about や ○○○.△△△.jp/archives/201 のようにロリポップの契約ドメインに戻ってしまう。 直接「XXX.com/about」と打ち込めば 一応きちんとアクセス自体はできます。 ページのソースコードを見るとリンク先はやはり ロリポップの契約ドメイン「○○○.△△△.jp/~~」で出力されています。 このソースコードが独自ドメインの「XXX.com/~~」になっていないと うまくいかないということはわかるのですが どのように設定すればよいのでしょうか? wordpressの一部ソースを書き換えるのでしょうか? 関係はないとは思いますが、ロリポップの独自ドメイン設定の 公開(アップロード)フォルダは空欄にしてあります。 /home/users/0/boo.jp-men/web/空欄 よろしくお願いいたします。

  • 独自ドメインのメリット

    よろしくお願いします。 独自ドメインとサブドメインとの違いで、SEO対策、ページランク上位表示に関係があるのでしょうか? 出来れば、HPを上位表示したいところなんですが、URLに関して言えば、xxx.comかxxx.com/~xxxとなりますが、差が出るものなのでしょうか? ご存知の方がいらしたら教えてくださいお願いします。

  • 特定ドメインからのアクセスを振り分けたいのですが

    お世話になります。PHP超初心者です。。 特定のドメインからの悪質なアクセスがあり、とてもとても、困っています。 上記の特定のドメインが xxx.xxx.co.jp だとすると、ここからアクセスがあった場合、特定のページに振り分けたいのですが、HTTP_USER_AGENT を使用すれば可能なのでしょうか?また、具体的にはどのように記述すればよろしいのでしょうか? お助けくださる方、よろしくお願いいたします。

    • ベストアンサー
    • PHP
  • テキストの中から特定文字を含むURLを大量に抜き出すには

    あるテキストファイルがあります。 その中に特定ドメインを含んだURLがたくさんあります。 そのURLだけを全て抜き出したいのですが 簡単にできるソフトや方法がありましたら教えてください。 特定ドメインを含まないURLは抜き出したくありません。

  • 独自ドメインとサブドメインの違い

    私はPC初心者で困っています。 出来ましたら、できるだけ具体的に教えて頂きたいです。 私はこれから、独自ドメインで携帯のメインページをつくり、サブドメイン?で個別ページを量産しようと思っています。 色々聞いたのですが、理解できていないのが、 独自ドメインとサブドメインの違いです。 例えば、http://www●●●.comというURLを取得した場合、 独自ドメインは●●●.comになるのでしょうか? もしそうなら、個別ページは、 http://www●●●.com/個別Aのようにすると聞いたのですが、 (1)このURLの作成は具体的にどのようにして取得するのでしょうか? (サーバー会社で何か設定したりするのでしょうか?) (2)早くインデックスしたいためにTOPページだけまずサーバーにアップする。 そしてブログなどからリンクを送って、インデックスさせる、という意味がちんぷんかんぷんです。 できるだけわかりやすく教えて頂きたくここで質問させて頂きました。 よろしくお願いいたします。

  • googleAppsのURLを独自ドメインにしたい

    googleAppsのURLを独自ドメインにしたい 無料のGoogle Appsを使用しています。 (タブンStandard Edition) で、各サービスの通常使うURLを独自ドメインに変更したいと思っています。 サービスの設定→URLを変更で変更はしています。 (1)https://sites.google.com/a/[独自ドメイン部分] (2)http://sites.[独自ドメイン部分] デフォルトでは(1)なのを(2)に変更しています。 これだと、とりあえず(2)でトップページにアクセスすることは可能なのですが リダイレクトされ結局(1)のURLになってしまいます。 リダイレクトだけではなく、実URLとして独自ドメインを使用したいのですが、 こういうのはgoogleAppsで可能なのでしょうか?不可能なのでしょうか? 有料版でないと出来ないのでしょうか? また、類似のサービスでリダイレクトではなく実URLとして使用できるサービスがあれば それも教えてください。 よろしくお願いします。 ◎質問まとめ ・無料のgoogleAppsで実URLに独自ドメインを使用することは可能か ・有料のgoogleAppsで実URLに独自ドメインを使用することは可能か ・出来るのならその方法 ・実URLに独自ドメインを使用することは可能な類似サービスがあればその紹介

  • あるURLがファイルなのかディレクトリなのかが知りたい

    用語の使い方が不正確かもしれませんがご容赦下さい。 例えば、http://www.foobar.jp/xxx というURLがあった場合に、xxx の部分がファイルなのか、あるいはディレクトリなのか、あるいはスクリプトなのか、を知るにはどうしたらいいでしょうか? 現在、以下のようなプログラムを作成しています。 ・あるURLを指定する。 ・そのURLが指すページの内容を取得する。 ・そのページの中にあるリンクを全て取得する。 ・取得したリンクをフルパスに変換して出力する。 この際、 ・指定したURLがホスト名のみ ・指定したURLが / で終わっている ・取得したリンクがフルパス ・取得したリンクが / で始まっている ような場合は問題ないのですが、 ・指定したURLがホスト名のみでなく、かつ / で終わらず、かつ取得したURL が / ではじまらない といった場合は、どのようにフルパスを組み立てたらいいかがわかりません。 例えば、指定したURLが「http://www.foobar.jp/xxx」、取得したリンクが「yyy/zzz」のような場合、出力すべきフルパスは以下の2種類が考えられますが... http://www.foobar.jp/xxx/yyy/zzz http://www.foobar.jp/yyy/zzz 以上よろしくお願いします。

    • ベストアンサー
    • Perl