締切済み

正規表現で特定のHTMLタグのクラスから文字列を取り出したい

2009/06/24 02:45

はじめまして。現在PHP勉強中の者です。タイトル通りクラス付けされたHTMLタグ内の文字列を取り出したいのですが、上手くいかず困ってます。利用サーバーはコアサーバーで環境は下記通りになります。 apache:1.3.37 PHP:5.2.5 スクリプトはUTF-8、HTMLもUTF-8です。タグは<span class="hoge">文字列</span> のような感じです。 preg_match_all("/<span class=\"hoge\">(.*)</span><\/em>/", $html, $results); こんな感じでやってるんですが引っ掛かりません。。。よろしくお願いします。

starland
お礼率100% (3/3)

PHP
回答数3
ありがとう数4

みんなの回答 （3）
専門家の回答

みんなの回答

yambejp
ベストアンサー率51% (3827/7415)

2009/06/25 01:26 回答No.3

途中改行対応なら preg_match_all("/<span class=\"hoge\">(.*?)<\/span>/s", $html, $results); でいけます

質問者

お礼 2009/06/25 03:03

yambejpさんご回答ありがとうございます。 preg_match_all("/<span class=\"hoge\">(.*?)<\/span>/s", $html, $results); でいけますね。パターン修飾子にUオプションをつけてやってみてもOKでしたpreg_match_all("/<span class=\"hoge\">(.*)<\/span>/sU", $html, $results); この場合最小マッチ?を抜いてます。本家マニュアルhttp://jp.php.net/manual/ja/reference.pcre.pattern.modifiers.php を見てみると、 U (PCRE_UNGREEDY) この修飾子を設定すると、量指定子の「貪欲さ」が反転します。つまり、量指定子は、デフォルトで貪欲でなく、疑問符を後ろに付けてはじめて貪欲になるようになります。この修飾子は Perl 互換では有りません。同様の設定は、(?U) 修飾子をパターン内で設定するか、（.*? のように）量指定子の後に疑問符を付けるかすることで行うこともできます。という事でこの二つの方法結局意味はほぼ一緒？少しずつ正規表現がわかってきて面白くなってきましたがまだまだ覚えることが沢山ありますね。。。この事案とは別にフォームでURLの正規表現チェックを作ったのですが存在するURLでもマッチングしなかったり・・・こんな場合は実際URLが存在するかを調べた方がよいのですかね？ PHPの正規表現でオススメの参考書等ありましたらご教授頂けると助かります。

yambejp
ベストアンサー率51% (3827/7415)

2009/06/24 10:41 回答No.2

とりあえずtypoの修正と最小マッチを指定すれば少しよくなります。 <? $html=<<<eof これは<span class="hoge">文字列1</span>です。これは<span class="hoge">文字列2</span>です。 eof; preg_match_all("/<span class=\"hoge\">(.*?)<\/span>/", $html, $results); print_r($results); ?>

質問者

お礼 2009/06/24 16:01

yambejpさんご回答ありがとうございます。確かに例文通りの$htmlでは最小マッチ指定でマッチングしますね。ただ改行(\n)などが入ってる場合はマッチングしてくれないです。 <?php $html=<<<eof これは<span class="hoge">文字列1 </span>です。これは<span class="hoge">文字列2</span>です。 eof; preg_match_all("/<span class=\"hoge\">(.*?)<\/span>/", $html, $results); print_r($results[1]); /* Array ( [0] => 文字列2 ) */ ?> パターン修飾子を使用したり色々やってみます。

4017B
ベストアンサー率73% (1304/1775)

2009/06/24 09:11 回答No.1

正規表現のミス？？ ×　preg_match_all("/<span class=\"hoge\">(.*)</span><\/em>/", $html, $results); ○　preg_match_all("/<span class=\"hoge\">(.+)<\/span>/", $html, $results); phpは門外漢ですが、こう言う事でわ…？

質問者

お礼 2009/06/24 15:44

4017Bさんゴメンナサイただの記述ミスです。。。 preg_match_all("/<span class=\"hoge\">(.+)<\/span>/", $html, $results); という事で上記でもマッチング行えません。ご指摘ありがとうございました。

関連するQ&A

正規表現を用いてHTML内の文字列を抜き出したいのですが・・・
PHPの正規表現を用いて外部Webページのソース内にある文字列を抜き出してきたいのですがうまくいきません。例えば、 <td class="nml">食べてきれいにやせる！　伊達式脂肪燃焼ダイエット / 伊達友美<br></td> のようなタグに挟まれた文字列を抜き出します。自分で書いたプログラムは以下の通りです。 <?php //外部URL $fp = fopen("特定のURL", "r"); while(!feof($fp)){ //HTMLソースを全文取得 $line = fgets($fp, 1024); //各行を配列に格納 $line_array[] = $line; } //配列を一つの文字列に変換 $line_text = implode("", $line_array); if(preg_match_all('ここの部分が思いつきません', $line_text, $match)){ print $match; }else{ print 'マッチしません'; } ?> 色々と調べて試行錯誤しましたが、結局うまくいきませんでした。正規表現となる部分をどなたかご教授頂けないでしょうか。宜しくお願い致します。
- ベストアンサー
- PHP
phpで文字列に入ったhtmlタグの中身を取得
phpで次の文字列の中身を自分の思ったように取得したいです。 -----$textの中身 <div class="hoge">ほげほげ1<div class="piyo">ぴよぴよ</div>ほげほげ2</div> -----自分の実行したphpコード preg_match_all("/<div class=\"hoge\">(.*?)<\/div>/s", $text, $textArr); -----結果($textArr[0]) ほげほげ1<div class="piyo">ぴよぴよ -----自分の望む結果($textArr[0]) ほげほげ1<div class="piyo">ぴよぴよ</div>ほげほげ2 ---------------------------------- divタグの中にdivタグが入っている時、最初の/divに反応してしまいます。ちゃんと、ほげほげ2まで取得する方法を教えてください。
- 締切済み
- PHP
文字列全体に対する置き換え　[正規表現]
正規表現での文字列全体に対する、マッチ箇所への置き換えについて、アドバイスをもらえないでしょうか。 parlでいうg修飾子はphpには無く、例えば、[preg_match]は[preg_match_all]という関数で対応出来ますが、置き換えを行う[preg_replace]には[preg_replace_all]がありません。それに類する関数も無いように思います。これに関して、PHPではどのように対応すれば良いのでしょうか。
- ベストアンサー
- PHP
正規表現について
今現在、PHPの勉強をしているのですが preg_match("/\nFrom:\s*(.+)\r/i", $sss, $aaaa) という文字列が出てきて困っています。 preg_match関数における\nFrom:とは一体何なんでしょうか。教えてください。
- 締切済み
- PHP
正規表現の文字列否定
すいません、PHPをたまたま使用しているので、 PHPのカテゴリで質問させていただきますが、正規表現で特定の文字列の集合をまとめて否定することはできないのでしょうか。例えば、<p class="hoge"><a href="test.html">aaa</a></p> という部分があって、 hogeのクラスが付いている行のhrefのURIだけ取得したいのですが、 <p class="hoge"">という部分が取り除けません。イメージ的には[^(<p class=\"hoge\">)]という感じで、否定できるのかな～と思っていたんですが、これはできないんですよね。まとまった文字列を否定することはでいないのでしょうか。ご教授お願いいたします。
- ベストアンサー
- PHP
正規表現で文字列の抜き出し
PHP4で、文字列の中からマッチしたものを抜き出したいのですが、なかなか上手いこといきません。 $str = "<a href=http://www.abc.com/><b>ABC</b>company</a>"; preg_match("/<a href=(.*)>(.*)<\/a>/i",$str,$str_reg); http://www.abc.com/ と <b>ABC</b>company の2つを抜き出したいのですが、 <b>タグが邪魔をして抜き出せません。どうすれば上記2つを抜き出せるのでしょうか？
- ベストアンサー
- PHP
正規表現について
PHP5.2.4を使用しています。任意の数の引数がある文字列をpreg_matchを使ってマッチさせたいのですが、例えば"ENUM(ab,cd)"は ab と cd の2つの引数があるとします。次のようなパターン文字列まではアイデアとして浮かんだのですが、引数の最後は , がないので当然ですがマッチしません・・・どのようにパターン文字列を記述すれば良いのでしょうか？ $str = "ENUM(ab,cd)"; if (preg_match("/ENUM$([^\,]+\,)+$/", $str, $match)) { print "{$match[0]}<br>\n"; }
- 締切済み
- PHP
PHP5の正規表現でうまくマッチできない
PHP5の正規表現で文字列中の独自タグをパースしようとしていて、うまくいかず困り果てています。正規表現パターンは、/<tag>.*<\/tag>/ 対象文字列は、<tag>こんにちは</tag><tag>こんばんは</tag> preg_match_all('/<tag>.*<\/tag>/', '<tag>こんにちは</tag><tag>こんばんは</tag>', $result) でマッチした文字列は、 $result[0]:<tag>こんにちは</tag> $result[1]:<tag>こんばんは</tag> となることを期待しているのですが、実際は、 $result[0]:<tag>こんにちは</tag><tag>こんばんは</tag> となりました。 <tag>タグの間に入る文字列長、文字列フォーマットは不定です。どうすれば期待通りの振る舞いに出来るでしょうか?
- ベストアンサー
- PHP
正規表現のコーディングについてお願いします。
こんにちは、よろしくお願いいたします。正規表現パターンを書く場合に皆さんがどのようにされているか教えてください。例えば（ちょっとムリヤリ感が強いですが）、'Price \5800-' という文字列の \5800 の部分に preg_match でマッチさせたいとします。単純に考えると、 /\\\d+/ のようなパターンが思いつくのですが、それを文字列として preg_match に渡す際に、コードはどのように書かれますか？ <?php 　　$str = 'Price \5800-'; 　　//とりあえず、'/\\\d+/' と書き、'/\\\\\\d+/' と、\ をそれぞれの \ に書き足す　　if ( preg_match('/\\\\\\d+/', $str, $match) ) { 　　　　print_r($match); 　　} ?> 「まず、パターンを書き、全ての \ の前に \ を書き足す。」というのが無難なのかな？と思い、そうしていますが、そういった考え方で間違っていないでしょうか？どうぞよろしくお願いいたします。
- 締切済み
- PHP
正規表現でシングルクォーテーション内の文字列を取る
正規表現でどうしても分からない状態です。よろしくお願いします。 PHP5.2で、 'You\'re pen' というシングルクォーテーションで囲まれた文字列を正規表現で取得しようとしています。 preg_match_all("/\'([^\']*|\\\')*?\'/", $src, $matches); のようにしていますが、どうしても 'You\' までしか取れません。どうしたら取れるでしょうか。。m(_ _)m
- ベストアンサー
- その他（プログラミング・開発）

正規表現で特定のHTMLタグのクラスから文字列を取り出したい