ベストアンサー

Perlの正規表現でマッチする範囲を限定

2004/09/15 14:51

例えば、以下のようなことがしたいのですが可能でしょうか？変数$bufに複数行の文字列が入っていたとしてこのうち、タグとエレメント外を対象にしてマッチさせる（例として以下のような文字列にしたい） <a href="abcdef">abcdef</a> abcdefabcdef abcdefabcdef ↓（タグとエレメント外の文字aをaに置き換える） <a href="abcdef">abcdef</a> abcdefabcdef abcdefabcdef 実際にはこのときのマッチの対象となる文字と文字数は可変で bになるかもしれないですしabとかになるかもしれません。ネット上で検索していろいろ試してみたのですが惜しいところまではいっても完全に正しく動作しませんでした。（タグやエレメントの中身に反応してしまったり一部分が置き換えされなかったり タグの後ろがのようになったり）良いアドバイスください。よろしくお願いします。

pick52
お礼率72% (66/91)

Perl
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

noname#37358

2004/09/16 05:58 回答No.2

No.1のお礼にある http://www.din.or.jp/~ohzaki/regex.htm を読んで、ある程度の条件付きですが、正規表現だけで上手くいく方法を作ってみました。以下は質問文の文字列で上手くいく例です。 s/((?:\G|<(?:\/[^>]+)|(?:br)>)[^<]*?)(a)/$1\2<\/b>/gi; 条件は以下の通りです。・3層以上の階層構造を持つ文字列は不可 a<x>b<y>c</y>d</x>e のdの位置にはマッチしてしまいます。・要素終了タグが省略されている要素はあらかじめ列挙する必要がある。例えば、 <(?:\/[^>]+)|(?:br)|(?:img [^>]*)> は と<img>を空要素とみなし、その後の文字を要素外と判断します。また、img要素は属性を持つことも出来ます。ただやはり、正規表現だけでパターンマッチを行うのは、個人的にはお勧めしません。正規表現では、マークアップによる階層構造を認識することが出来ないからです。 No.1の方の例のように、文字列を頭から走査し、階層構造上の現在の位置を判断してから、変換を行う方法がベターです。文字列がXMLデータなら、XMLパーサーモジュールを使用する事もできます。この場合は、データの解析はモジュールが行ってくれますので、変換部分のみを自分で書くだけで済みます。 HTML(SGML)データの場合は、終了タグの省略が可能なので、XMLパーサーでは扱えません。いずれにせよ、どんな手法であっても、対象の文字列に対してそれ相応の文法チェックを事前に行っておかないと、必ず失敗は起きます。

質問者

お礼 2004/09/16 18:23

ありがとうございます。これで完璧です。非常に助かりました。 Tacosanさん、u1roさん本当にありがとうございました。このアルゴリズムを利用させてもらいます。その他のご指摘も感謝します。解決しましたのでこれで質問を閉めます。

その他の回答 (1)

Tacosan
ベストアンサー率23% (3656/15482)

2004/09/15 20:12 回答No.1

さすがに「正規表現で一発」というわけにはいかないです.... ぱっと思い付くところだと「配列でスタックを作ってタグをおっかけていき, エレメント外のときには s で置き換える」くらいですかねぇ. こんな感じかなぁ? while (文字列が空でない) { if (最初が開きタグ) { スタックにpushする } elif (最初が閉じタグ) { スタックからpopしてエレメントを作る } elif (スタックが空でない) { 次のタグまでをエレメントに追加する } else { 置き換える } 処理した分を文字列から削除する } 面倒なので詳細はパス.

質問者

お礼 2004/09/15 21:59

回答ありがとうございます。やはり、一発では無理ですか・・・。下とか参考にしてみたのですが・・・。 http://www.din.or.jp/~ohzaki/regex.htm s/((?:\G|<(b+)>)(<\/\1>)*?)(a+)/$1\3<\/b>/gi; みたいな感じで（少し違ったかも？）惜しいところまでいったんです。ただ、一部先ほど言ったような症状が出ることがあり完璧じゃないので・・・。更にこの$bufもCGIでフォームのデータから取得した文字列なので可変で何が入力されるかはそのときまで分かりません。

Perlの正規表現でマッチする範囲を限定

質問者が選んだベストアンサー

お礼 2004/09/16 18:23

その他の回答 (1)

お礼 2004/09/15 21:59

関連するQ&A

正規表現で文字列の抜き出し

正規表現で括弧にマッチさせたいのですが・

「マッチしない」正規表現の書き方

正規表現について

c#で正規表現を使用してのmatchがうまくいきません。

PHP5の正規表現でうまくマッチできない

HTMLタグを取得する正規表現

[15]にマッチする正規表現

(秀丸)正規表現で、特定文字列含む<～>範囲を選択

Perlで長音

正規表現で一発置き換え

正規表現で「(.*?)&」とは？

正規表現が得意なかた教えてください

正規表現　preg_match_all

PHPの正規表現で一部のURLを抜き出したい

正規表現

正規表現を使って行数毎の数字を抽出したいです。

正規表現について教えてください

シェルで使われる正規表現について

正規表現での複数箇所の文字列置換について

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

Perlの正規表現でマッチする範囲を限定

質問者が選んだベストアンサー

お礼 2004/09/16 18:23

その他の回答 (1)

お礼 2004/09/15 21:59

関連するQ&A

正規表現で文字列の抜き出し

正規表現で括弧にマッチさせたいのですが・

「マッチしない」正規表現の書き方

正規表現について

c#で正規表現を使用してのmatchがうまくいきません。

PHP5の正規表現でうまくマッチできない

HTMLタグを取得する正規表現

[15]にマッチする正規表現

(秀丸)正規表現で、特定文字列含む<～>範囲を選択

Perlで長音

正規表現で一発置き換え

正規表現で「(.*?)&」とは？

正規表現が得意なかた教えてください

正規表現 preg_match_all

PHPの正規表現で一部のURLを抜き出したい

正規表現

正規表現を使って行数毎の数字を抽出したいです。

正規表現について教えてください

シェルで使われる正規表現について

正規表現での複数箇所の文字列置換について

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

正規表現　preg_match_all　

カテゴリ
一覧

専門家に質問してみよう
専門家登録