• ベストアンサー

ドキュメントからURLを抽出したい

指定したURLのドキュメントを変数に代入したんですが、 その変数に代入したドキュメントの中からURLのみを 抽出して、配列に代入することができません。 できれば、その配列に入っているURLで、重複するものは 1つにまとめるようにしたいです。 どなたか、上記のことを実現できる方法をご存知の方が いたらどうか教えて下さい。 どうぞよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • Dpop
  • ベストアンサー率51% (279/544)
回答No.1

その変数に入っている内容を、 http URL の正規表現 http://www.din.or.jp/~ohzaki/perl.htm#httpURL を使って、見つかるだけ取り出す。と言う処理を行えば良いでしょう。 一番簡単な方法は、その変数のコピーを作り、URL 文字列を検索し、 検索できたら、それ以前を削除してしまい、再度検索を実行して、 URL文字列が見つからなくなるまで、処理を続ける。 と言うアルゴリズムにすれば良いと思います。 重複を避けるためには、取り出したURLをキーとした、連想配列を作り、 その連想配列の内容には、発見した順番を入れておきます。 全て検索が完了したら、連想配列の順番順に、取り出して、キー部分(URL文字列)を取り出してあげれば良いと思います。

関連するQ&A

専門家に質問してみよう