正規表現による置換でHTMLタグから文字列を抽出する方法は？

2023/09/05 03:38

このQ&Aのポイント

正規表現を使ってHTMLタグから文字列を抽出する方法について質問です。
具体的には、変換元のHTMLタグ内の特定の文字列を取り出したいのですが、正しい置換対象や置換後のパターンがわからず、困っています。
一度の置換で目的の文字列を抽出する方法や、処理ツールの不具合の可能性について教えていただけると助かります。

ベストアンサー

正規表現による置換

2013/06/14 23:33

HTMLの構文も正規表現もよく理解しないままに作業をしているのでとんちんかんなことを言っているのかもしれません合わせて指摘してもらえると助かります Yahoo pipes　使ってる中で発生している現象です目的としては　HTMLタグから一部の文字列を取り出したく変換元のXTMLは以下のようなものです（一部加工しています（***** の部分は隠しています） <a rel="nofollow" target="_blank" href="http://*****.html">抽出したい文字列</a> <img alt="new" class="new" height="15" src="http://*****.jpg" width="32"/> に対して置換対象　　.*html">(.*)　　置換後　　$1　　　を行ってからさらに置換対象　　(.*)<img.*　　　　置換後　　$1　　としたところ　一応抽出はできました　　　本来　2回目は　　(.*)</a 　の気がするのですが1回目の結果を見るとなぜか</a> 　　　の部分もなくなってしまっています　　これも不思議なのですが 2回に分けて行うのは面倒なので1度で行いたいと思い置換対象　　.*html">(.*)<img.* 置換後　　$1 としてみたのですが求めている文字列の抽出をすることができませんでした　　　　.一応　*html">(.*)</a.*　　というのもやってみましたが結果は変わりませんでしたこれは当然の結果ななのか変換（処理）ツールの不具合なのかの判断ができません分かる人がいたら教えてもらえないでしょうか情報足りなければ補足させていただきます

koi1234
お礼率88% (291/330)

その他(ソフトウェア)
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

ki073
ベストアンサー率77% (491/634)

2013/06/15 10:12 回答No.2

No.1です Yahoo pipesの正規表現での話のようですね。ちょっと勘違い。試してはいませんが、普通の正規表現を使えるツールでしたら、*html">(.*)</a.*でも取り出せるはずですが。バグの可能性にしても変なバグだし、文字コードが原因としても考えにくいようですね。その部分は他のツールを使って回避するしかないような。

質問者

お礼 2013/06/15 10:30

>普通の正規表現を使えるツールでしたら、*html">(.*)</a.*でも取り出せるはず気になったのはこの点なんですいかんせん正規表現ちゃんと把握できな＆ HTMLもちゃんとわかってないという状態なんで文法的にそれであっているのか　間違っているのかが知りたかったのです YahooPipesという特殊環境下の話なので何か特徴があるのかなと思っています単純な変換だけで反が得れば動くはずだ（一応私の考えで正しい）と判断させていただきました回答ありがとうございました

その他の回答 (1)

ki073
ベストアンサー率77% (491/634)

2013/06/15 10:00 回答No.1

>本来　2回目は(.*)</a 　の気がするのですが1回目の結果を見るとなぜか</a>の部分もなくなってしまっています　本来はそうなるはずです。一回目で抽出したい文字列 <img alt="new" class="new" height="15" src="http://*****.jpg" width="32"/> というふうに</a>が抜けてしまうのでしょうか？処理系のバグにしてもちょっと考えにくような。私の普段使っているエディタでは .*html">(.*)を\1に置換 (.*)</a.*を\1に置換でちゃんと取り出せます。＄1ではなく\1で取り出すものもありますので注意してください。 1回でやりたのなら .*html">(.*?)</a.* で可能なはずです。試してみてください。(.*)だともし</aが二回以上ある場合には一番後ろとマッチしますので、?を加えることで直後の</aにマッチするようにしています。また、sedが使えるのなら (sed -e 's/.*html">//'|sed -e 's/<\/a>.*//')<text.txt で可能です。 RubyやPerlなどでも簡単にできます正規表現は使うプログラムによって違いが少しあるので、何をつかっているのか書かれるよ良いと思います。

関連するQ&A

正規表現で一発置換できるでしょうか？
サイトにあるHTMLを読み込み、その中のリンク全てに target指定を追加して表示するPHPについてアドバイスをお願いします。取込元のHTMLは↓な記述（全リンクにtarget指定は無い）　… <a href="http://bakubaku.com">ばくばく</a> … 　… <a href="http://mogumogu.net">もぐもぐ</a> … 　… <a href="http://karikari.org">かりかり</a> … これを、↓のように変換して出力したい　<a href="http://bakubaku.com" target="_brank">ばくばく</a> 　<a href="http://mogumogu.net" target="_brank">もぐもぐ</a> 　<a href="http://karikari.org" target="_brank">かりかり</a> とりあえず、　・<a href…>　のリストを preg_match_allで抽出　・要素数だけ末尾の > を target="_brank"> に変換／入替といった処理で結果は正しく出ますがパフォーマンス的に痛いですよね。このような検索置換処理を、正規表現を使って、一発でできないものでしょうか？（すみません、、正規表現よく分かっていません、、）
- ベストアンサー
- PHP
急ぎでお願いします！正規表現の置換について
こんにちわ。 HTMLのコードを置換エディターで一括で書き換えたいと思っています。例えば <h2 id="01"><img src="../imgs/dish/index_tit_01.gif" alt="サンプル" width="630" height="36" /></h2> というようなコードをaltの文字以外は削除して <h2 id="01">サンプル</h2> にしたい場合、検索する文字列、置換する文字列にはどのような正規表現を適用したらよいでしょうか？また<h2 id="01">が<h2 ="id=02">,<h2 ="id=03">と複数ある場合があるので、できたらid=数字のところは01,02,03,04などにもまとめて適用させたいと思っています。どうかご教授よろしくお願いします！！！
- ベストアンサー
- その他（プログラミング・開発）
正規表現で置換
正規表現の初心者です。テキストエディタを使って、「@:」で始まる以外の行の先頭に「//」を挿入してコメントアウトしたいのですが、正規表現がうまく書けません。検索対象： ^[^(@:)] 置換文字列： // でいいのかなと思ったのですが、[]の中ではグルーピング用の()も文字として認識されてしまうのですね。どのように書いたら正しく置換されるでしょうか。どうかご教示ください。
- ベストアンサー
- その他([技術者向] コンピューター)
正規表現：囲われた文字列の置換
シングルクオーテーションで囲われた文字列のシングルクオーテーションの前に文字を追加するように、正規表現を用いて置換しようと考えています。全角文字は[^\x01-\x7E]で検索できるのはわかったのですが、シングルクオーテーションで囲われて、全角文字を含む場合という表現ができません。下記のような、文字列を対象としています。置換をするのは、全角文字を含む文字列のみです。　全角文字のみ　半角文字のみ　全角半角文字両方下記ののように置換したいです。置換前： '全角文字や半角文字','testです','test'.'テスト'.'てすとtest','123' 置換後： A'全角文字や半角文字',A'testです','test'.A'テスト'.A'てすとtest','123' よろしくお願いします。
- ベストアンサー
- その他（プログラミング・開発）
正規表現と置換を使って書き換えたい
HTMLのソースなどで、 …省略…width=300 border=10 cellspacing=0 cellpadding=0> …省略…width="300" border="10" cellspacing="0" cellpadding="0"> (スペースの都合で改行しています) と属性値をダブルクォートでくくるように書き換えたいのですが、検索文字列、置換文字列を正規表現を使ってどのように記述すればよいのでしょうか？よろしくお願いします。
- ベストアンサー
- その他(ソフトウェア)
正規表現での複数箇所の文字列置換について
文字列から特定の文字を検出し、 HTMLタグに置換するスクリプトを作成しようとしています。例：元の文字列：ｘｘｘｘｘｘ[id:1]ｘｘｘｘ[id:2]ｘｘｘｘ　↓ 置換後の文字列：ｘｘｘｘｘｘ（<A>タグによるリンク。idが１番のタイトルをDBから参照）ｘｘｘｘ（<A>タグによるリンク。idが２番のタイトルをDBから参照）ｘｘｘｘ要求している処理順序：　１：文字列中から[id:xxx]を検出して<A>タグに変換　２：id:xxx の xxx部分（数字）を抽出　３：２で得た数字でSQLを実行　４：DBから得た文字列で<A>タグを完成　　　<A href="test.php?id=（２で得た数字）">（４で得た文字列）</A> 　５：以上を[id:xxx]の個数分だけ繰り返し --- スクリプト： // 文字列 $str = "xxxxxx<br>[id:1]<br>xxxx<br>[id:2]<br>xxxx"; // 置換 $result = ereg_replace("\[id:([0-9]+)\]","<a href=\"test.php?id=\\1\">xxx</a>"; ここで、id: の次に続く数字を抽出してその数字を元にDBからデータを引っ張ってこようと思ってます。 // 抽出 $pregresult = preg_match("/[0-9]+/",$result,$match); $id = $match[0]; ここで $id に番号が入り、その番号でSQL文を作成したいのですが文字列中に[id:xxx]がひとつだけなら正常に動作するのですが二つ以上存在する場合、$id には最初に検出された数字（上記例では１）しか入ってこないので、二つ目以降のidが認識できず困ってます。複数の検出・置換対象を順次処理していく方法があればご教示いただければ幸いです。もしくは、他にもっとスマートな方法があるのであればご提示いただければ幸いです。以上、よろしくお願いいたします。
- ベストアンサー
- PHP
正規表現で置換
その1 $str = "ほげほげほげ<a href="http://xxxx.xxxx.xxx/xxxx/">ほげほげほげ</a>ほげほげ<br /><br /><img src="http://yyy.hoge.jp/hage/hige/xxxx.jpg" width="320" height="240" />ほげほげ"; ↓ $str = "ほげほげほげ<a href="http://xxxx.xxxx.xxx/xxxx/">ほげほげほげ</a>ほげほげ<br /><br /><img src="./foo/faa/fii/xxx.jpg" width="320" height="240" />ほげほげ"; その2 $str = "<img src="http://yyy.hoge.jp/hage/hige/xxxx.jpg" width="320" height="240" />ほげほげほげ<a href="http://xxxx.xxxx.xxx/xxxx/">ほげほげほげ</a>ほげほげ<br /><br /><img src="http://yyy.hoge.jp/hage/hige/xxxx.jpg" width="320" height="240" />ほげほげ"; ↓ $str = "<img src="./foo/xxxx.jpg" width="320" height="240" />ほげほげほげ<a href="http://xxxx.xxxx.xxx/xxxx/">ほげほげほげ</a>ほげほげ<br /><br /><img src="./foo/faa/fii/xxx.jpg" width="320" height="240" />ほげほげ"; このような文字列があった時に、次のように従って置換したいです。 1.imgのタグの内部に、「http://yyy.hoge.jp/hage/hige/xxx.jpg」という文字列があった場合、「./foo/faa/fii/xxx.jpg」という文字列に置き換える。 2.それ以外のURLの場合は置換しない。 3.その1とその2では「xxx.jpg」となっていますが、jpg以外の拡張子の場合も存在する。 4.日本語とURLの位置や個数はバラバラです。 5.URLの中のxxxとyyyは不定の文字列で、hage、hoge、hige、foo、faa、fiiは固定です。 6.使用している言語はPHPです。正規表現を1度だけでできれば理想的ですが、今回は2回に渡った処理でも問題ありません。以上です。正しく処理できる正規表現、あるいは下記の正規表現の誤りを教えて頂ければ幸いです。お手数ですが、よろしくお願い致します。下記の方法では、うまくできませんでした。 $pattern = "/http:\/\/.*?hoge.jp\//"; $replacement = "./"; $str= preg_replace($pattern, $replacement, $str); $pattern2 = '/\/?hage\/hoge/'; $str = preg_replace($pattern2, '/foo/faa/fii', $str);
- ベストアンサー
- PHP
正規表現で少し複雑な置換がしたい
Javaというよりも、正規表現について質問です。（一応、言語はJavaで、String#replaceAllを使います）以下のルールで与えられた文字列の置換を行う正規表現を考えていますが、なかなかうまくいきません。１．正規表現で \w+:: にマッチする文字列を削除する。２．ただし、'' (シングルクォーテーション)で囲われている文字列は　　１．の対象としない３．ただし、\' (シングルクォーテーションの前に\があった場合は) 　　シングルクォーテーションと認識しない。例：置換前　　A * B \'' CCC.DD::EEE' FFF.GGG::HH ' III' 置換後　　A * B \'' CCC.DD::EEE' FFF.HH 'III' 色々試してみたのですが、どうしてもうまくいきません。正規表現が得意な方、教えていただけますでしょうか・・？
- ベストアンサー
- Java
正規表現での置換処理について
こんばんは。納期が迫ってきていて、頭が回らず、こちらに質問させていただきます＞＜「HTMLタグが含まれた文章」を処理します。その中の <img～> <br> <hr> タグを <img～/> <br /> <hr /> に置換したいのです。 /の前には半角のスペースが1文字入るようにしたいです。また、もし上記タグで、最初から終了タグが含まれていた場合は処理対象外にしたいです。もしも <br /> があれば、それは終了タグがついているので処理しない。納期前にモバイルページ（XHTML)での確認をしたら終了タグがなくてあわててしまいました。どうかお力をお貸しください。よろしくお願いいたします。 PHPのバージョンは５．１です。
- ベストアンサー
- PHP
正規表現、置換について
ファイルから読み込んだ行データを置換したいのですがどういう正規表現にすればよいかご教示下さい。【置換対象】 testをXXXにしたいただし、文字列中の後方一つ目のみを置換したい。【データ】 c:/test/ctestab　→　c:/test/cXXXab c:/testctest　→　c:/testcXXX c:/testtesta　→　c:/testXXXa c:/testtest　→　c:/testXXX c:/test　→　c:/XXX
- ベストアンサー
- その他（プログラミング・開発）