ベストアンサー

正規表現について

2007/09/18 18:16

Htmlのタグの属性を正規表現を用いて取得しようとしています。たとえば <font size="2" face="ＭＳ明朝"> の場合、 "2"と "ＭＳ明朝" を取得したいのですが、以下のように定義を "="から始まり、空白か">"迄と定義した所、 pattern = Pattern.compile("=(.*?)[ >]"); としてマッチングした所、 "2"と "ＭＳがとれてしまいました。 "(ダブルクォーテーションの中の[ >]（空白等）は判定しないような定義に出来るのでしょうか。宜しくお願いします。

take_july
お礼率54% (88/162)

Java
回答数4
ありがとう数2

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sakusaker7
ベストアンサー率62% (800/1280)

2007/09/19 17:46 回答No.4

あー説明文を一生懸命かいていたら自分で解決していましたか(^^; > (?<==) > は前方一致ですね。つまり=から始まるもの。 > 但し、=自体は検索結果に含まれないんですね。意味はあっていますが、通常「戻り読み」 (look-behind)等と呼ばれます。 Pattern (Java Platform SE 6) http://java.sun.com/javase/ja/6/docs/ja/api/java/util/regex/Pattern.html だと「後読み」になってますね。 > (?= > は後方一致でこれも、通常は「先読み」(look-ahead)と呼ばれます。 > (?: はグループ化でそうです。単なる ( と )でもグループ化はできますが、それとの違いは後方参照(back reference) ができるかどうかです。 (?: )によるグループは後方参照できません。 #その代わりちょっと高速といったところです。 *? と * の違いは良いですよね?

質問者

補足 2007/09/19 19:40

*と*?は範囲が違うでしょうか。 *は最大まで範囲をとる。 *?は最小の範囲をとる。同じ?でも使われ方が違ったりするんですね。色々説明して頂き本当に有難うございます。正規表現は勉強しているとなかなか面白いです。

その他の回答 (3)

sakusaker7
ベストアンサー率62% (800/1280)

2007/09/18 20:10 回答No.3

一番問題がなさそうな条件を考えてみました。何か問題点 or 疑問点があれば補足に書いてください。この後数時間ばかしネットにアクセスできないのでよろしくおねがいします。 import java.lang.*; import java.util.regex.*; public class Moge { static public void main(String[] args) { //String target = "<font size=\"2\" face=\"ＭＳ明朝\">"; String target = "<font size=2 face=ＭＳ明朝 width=84 colspan=2 valign=top>"; Pattern p = Pattern.compile("(?<==).*?(?=(?: +[^ =>]+=)|>)"); Matcher m = p.matcher(target); while (m.find()) { System.out.println("found: " + m.group(0)); } } } found: 2 found: ＭＳ明朝 found: 84 found: 2 found: top

質問者

お礼 2007/09/19 17:11

すいません。勉強不足で一段目の (?<==) は前方一致ですね。つまり=から始まるもの。但し、=自体は検索結果に含まれないんですね。なるほどです。勉強になります。 (?= は後方一致で (?: はグループ化で " +" は空白が一回以上連続して、その次が空白か=か>以外のものが１回以上連続していて=で終わるもの。つまり、空白の次の文字列の最後が=になっているものか">"が後方一致の判定ですね。なるほどです。すごいです。勉強になりました。有難うございました。

質問者

補足 2007/09/19 14:42

sakusaker7さん本当に有難うございました。無事結果を取得できました。出来れば意味も把握しておきたく、色々調べてみましたが、下記の意味がわかりませんでした。 (?<==).*?(?=(?: +[^ =>]+=)|>) とりあえず括弧で区切ってみました。 (?<==) .*? (?=(?: +[^ =>]+=)|>) ２段目の　.*?　はなんとか意味が分かるのですが、１段目の　(?<==)　の意味が分かりません。３段目も同様に？の意味が分かりません。 ?は前方の文字が0回か１回出現するという意味みたいですが、今回はその使われ方じゃない気がします。お手数をお掛けしますが、ご教授ください。宜しくお願いします。

sakusaker7
ベストアンサー率62% (800/1280)

2007/09/18 19:52 回答No.2

>今回WORDから自動生成されたHtmlを使用しているのですが、属性に'"'が付いてない場合があるようです。なるほど。ただ XHTMLでなくても > 属性値に英数字（a-z, A-Z, 0-9）、ハイフン（-）、 > ピリオド（.）、アンダースコア（_）、コロン（:） > 以外の文字を含むときは属性値をダブルクォーテーション（"） > もしくはクォーテーション（'）で囲まなくてはなりません。 http://www.tohoho-web.com/html/memo/attr.htm ということなので、 MS 明朝というのはあまりにもナニですがまあ我慢するとして、 “MS 明朝”のように、間に入る空白はひとつだけとか限定条件を置いて良いですか? =を含む文字列を属性の値としてクォートなしで使う。なんて状況はちと考えたくないです。

sakusaker7
ベストアンサー率62% (800/1280)

2007/09/18 18:48 回答No.1

> 以下のように定義を "="から始まり、空白か">"迄と定義した所、なぜこのような定義に? =の後の、'"'で囲まれた部分というのでは都合が悪いですか? import java.lang.*; import java.util.regex.*; public class Moge { static public void main(String[] args) { String target = "<font size=\"2\" face=\"ＭＳ明朝\">"; Pattern p = Pattern.compile("(?<==)\"[^\"]+\""); Matcher m = p.matcher(target); while (m.find()) { System.out.println("found: " + m.group(0)); } } } 実行結果: found: "2" found: "ＭＳ明朝" > "(ダブルクォーテーションの中の[ >]（空白等）は判定しないような > 定義に出来るのでしょうか。できなかありませんが、一目でわかる記述にはならないのであまりお勧めはできません。 #わかりやすい記述にするとパフォーマンスが悪いものになるし

質問者

補足 2007/09/18 19:04

回答有難うございます。今回WORDから自動生成されたHtmlを使用しているのですが、属性に'"'が付いてない場合があるようです。 > 以下のように定義を "="から始まり、空白か">"迄と定義した所、このような定義ではなくてもいいのですが、 <td width=84 colspan=2 valign=top> このようなケースもある為、 =の後の、'"'で囲まれた部分というのは駄目みたいです。きちんと記述していないなくて申し訳ありませんが、宜しくお願いします。

正規表現について