URLに含まれる可能性がある文字列は？

2023/09/04 20:26

このQ&Aのポイント

URLに含まれる可能性がある文字列について調査しています。既存の情報では明確な答えが得られなかったため、開発者や詳しい方からの解説を求めています。
URLには、A～Zやa～z、0～9、-_.!*'()といった文字が含まれる可能性があります。また、予約語として定義されている文字も使用できますが、ディレクトリ名やファイル名には使用できない場合があります。
一方で、\'`|^"<>)(}{][などの文字はURLに含めることができません。ただし、予約語としても制約されていない文字もあり、この点が混乱の原因となっています。

ベストアンサー

URLに含まれる可能性がある文字列は？

2013/04/18 09:22

こんにちは、よろしくお願いいたします。 ※カテゴリーが分からなかったのでこちらに質問させていただきました。カテ違いならご指摘下さい。複数行のテキストファイルの内容からURLを抽出するエクセルVBAを作成しようとしています。 (質問の趣旨はエクセルVBAについてではありません) 各行の内容はURLのみの行、URLが他の文字列に挟まれている行、URLは全く含まれていない行があります。 URLがハイパーリンクされないようにするため、あるいはURLとなされないようにするために ttpやtpで始まるものは無視してよいです。「ht tp」や「h ttp」としたものはURLとみなします。(スペースを削除するので問題とならない) 問題となっているのは、httpが含まれると判断した行を「http」で区切った右側のどこまでを URLと看做すか、です。そこでネット検索してみましたが、「URLで使用できない文字列」というのはいくつか見つかりましが、たとえば、予約語なのでURLに使用できない文字列は使用できないだけであってURLには含まれる可能性があります。「URLに含まれる可能性がある文字列」を調べたいのですがネット検索で見つかった物は明確に示したものが見つからなかった(検索の仕方が悪かった、あるいは明確に示したものがあっても見方が悪くて見落としていた、というのもあるかと思います)ので開発者や詳しい者でなくても理解できるように書かれたHPがあれば紹介していただきたいです。直接解説していただくのは大いに歓迎します。いままでネット検索して見たことがあるページです。見てもいまいち理解できませんでした。 http://datatracker.ietf.org/doc/rfc3986/ http://datatracker.ietf.org/doc/rfc3986/?include_text=1 http://jbpe.tripod.com/rfcj/rfc2396.ej.sjis.txt http://okwave.jp/qa/q247115.html http://www.ipentec.com/document/document.aspx?page=web-url-invalid-char&culture=ja-jp http://www.ipentec.com/document/document.aspx?page=web-url-invalid-char&culture=ja-jp ↑を見た限りでは、URLに含まれる可能性がある文字列は問題なく使える文字列 A～Z A～z 0～9 使用可能な文字列 - _ . ! * ' ( ) 予約語として定義されている文字使用できるがディレクトリ名やファイル名には使用できない ; / ? : @ & = + $ , % ところが、 >URLに含めることのできない文字 >以下の文字はURLに含まれない文字です。 \ ' | ` ^ " < > ) ( } { ] [ と書いてあり、 ) ( は「使用可能な文字列」と「URLに含めることのできない文字」の両方に書かれており混乱しております。結局のところ、URLに含まれる可能性がある文字列が把握しきれておりません。ご教示よろしくお願いいたします。

marbin
お礼率99% (99/100)

その他([技術者向] コンピューター)
回答数2
ありがとう数3

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sech1152
ベストアンサー率72% (45/62)

2013/04/18 12:15 回答No.1

RFC 3986（日本語訳）「付録 A. URI のために収集された ABNF」 http://www.studyinghttp.net/cgi-bin/rfc.cgi?3986#SecA この中の「"」でくくられた文字が、半角英数以外でURIに使われる可能性のある文字です。これによると、 -._~%:/?#[]@!$&'()*+,;= らしいです。ただ、このルールは、主にブラウザがWebサーバとやり取りするときの規則なので、人間が目にするURLには、日本語ドメインや日本語のディレクトリ名・ファイル名など非ASCII文字が含まれる可能性があります。もちろん、ブラウザがWebサーバにリクエストを出すときは、日本語ドメインならPunycode、それ以外ならURLエンコードで半角英数記号に変換してアクセスしますが、最近のブラウザではアドレスバーには変換前の日本語のまま表示されることがあります。例えば、アドレスバーに「http://ja.wikipedia.org/wiki/東京」と打ち込んでアクセスすれば、ウィキペディアの東京のページが出てきます。問題のテキストファイルが、日本語を含んだURLを含んでいると、難しいことになりますね。 URLエンコード（パーセントエンコード）の場合、通常、ユニコードで表現できる文字ならすべて含めることが可能になってしまいます。そのため、切り出すURLの最初は"http://"を見つければいいですが、終わりはどこまでか分からなくなってしまいます。 (https://やftp://はどうしますか？）参考に、正規表現を使って文字列中からURLを抜き出す(VB6.0) http://hanatyan.sakura.ne.jp/patio/read.cgi?no=316 日本語非対応です。複数のURLが含まれた文字列から、すべてのURLを抜き出すプログラムです。 VBAで文字列がURLとして正しいかどうかを正規表現を使って判断する方法 http://blog.mamohacy.tribrid-jp.com/article/239588337.html 日本語非対応です。このなかで、https* というのは https? の方がいいと思うのですが・・・。 URLを抽出する正規表現はどう書くべきか http://d.hatena.ne.jp/sutara_lumpur/20100827/1282872312 日本語を受け入れるために、空白文字以外のすべてを受け入れることにしてしまった話。

質問者

お礼 2013/04/18 23:34

sech1152さん、ご回答ありがとうございます。簡単にはいかないのですね。リンクしていただいたHPも参考にもうちょっと勉強してみます。ありがとうございました。

その他の回答 (1)

Lchan0211b
ベストアンサー率61% (573/930)

2013/04/18 13:56 回答No.2

No.1さんが説明されている通りなのですが、URLに使える文字は RFC3986に書かれていることが一番正しいです。 (RFC2396はRFC3986で改訂されたため無効となったものです。) 他の資料はRFC3986で書かれていることをわかりやすく解説しているだけです。実際、()文字を使用しているURLはMicrosoftのサイトに存在します。 (例) http://msdn.microsoft.com/ja-jp/library/kk6xf663(v=vs.80).aspx ただ、No.1さんが指摘している通り、URLエンコード(パーセントエンコード) を使用すれば、日本語含めどんな文字もどんな記号もURLに使えます。逆に、あなたの質問にある「ht tp」や「h ttp」は、明らかにURLの一部ではありません。なぜならRFC3986にある通り、「http」等の scheme部分に使える文字は、アルファベットか数字か"+"か"-"か"."のいずれかのみであり、スペースもpct-encoded(パーセントエンコード) で表現するスペース文字(%20)もscheme部分には使えないからです。でも、何か事情があってそれをスペース削除してURLとみなしたいのであれば、別にそれはそうすればいい話です。結局、URLに使える文字の一般仕様がどうなのかよりも、そのテキストファイル独自のURL記述ルールを明確化し、それに従っている部分をURLとみなせばいいのだと思います。

質問者

お礼 2013/04/18 23:36

Lchan0211bさん、ご回答ありがとうございます。 sech1152さんのご回答と合わせ勉強してみます。ありがとうございました。