• ベストアンサー

タグを正規表現で完全に削除

kapranの回答

  • kapran
  • ベストアンサー率18% (2/11)
回答No.4

> その他の方法でも構いませんので・・・ http://www.vector.co.jp/soft/win95/net/se065646.html など如何でしょうか。

参考URL:
http://www.vector.co.jp/soft/win95/net/se065646.html
gonntetu
質問者

補足

すみませんが方法は正規表現のみでお願いします http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag のようにHTMLの正規表現を変数に代入して $none_tag =~ s/$tag_regex//ig; のようにしたいです また↑のページではなんで複雑なタグを削除できないんでしょうか? ページに複雑なJavaScriptがあったりするとうまく削除できなくてJavaScriptの一部が残ってしまいます わがままばかり言ってしまいましたが再度よろしくお願いします

関連するQ&A

  • 正しい正規表現を教えてください

    お世話になります。 正規表現で次のように指定しているのですが、正確か自信がありませんので 正しい表記を教えてください。 1.全てのHTMLタグ <.*?> 2.「2012.1.1」または「2012.01.01」のような数字の羅列 (\d{4}).(\d{1,2}).(\d{1,2}) 3.「<img src="~」から始まる部分 <img src=" 4.「<div class="release">」を含む部分 <div class="release"> 5.HTMLタグと文字全て ^.*$ 全て色々なサイトで調べて表記したのですが、処理に時間がかかってて間違っている気がします。 yahoo!pipesのregexモジュールの部分で使用していて、デバッガーのTime takenに時間がかかっている場合、正しくない正規表現が原因らしいのです。 どうぞ宜しくお願いします。

    • ベストアンサー
    • PHP
  • タグを削除する正規表現について

    <("[^"]*"|'[^']*'|[^'">])*> とうい正規表現があります。HTMLのタグを削除するタグとういことですが、意味がわかりません。 "<"、">"の括弧の意味はわかります。"( )"はグループ化という意味もわかります。"|"はorという意味もわかりますし、*は一つ前の文字列が0以上というのも理解しています。[]は中の文字列のいずれかに該当するという意味もわかります。ただ、 "[^"]*" '[^']*' [^'">] の個々の意味を考えるとわかりません。 "[^"]*"は最初にダブルクオテーションが出てきて、^ or "が0個以上該当するという意味にとらえてしまいます。なにとぞご解説お願いいたします。 ちなみにhttp://www.mnet.ne.jp/~nakama/を参考にしています。

  • PHP5の正規表現でうまくマッチできない

    PHP5の正規表現で文字列中の独自タグをパースしようとしていて、 うまくいかず困り果てています。 正規表現パターンは、/<tag>.*<\/tag>/ 対象文字列は、<tag>こんにちは</tag><tag>こんばんは</tag> preg_match_all('/<tag>.*<\/tag>/', '<tag>こんにちは</tag><tag>こんばんは</tag>', $result) でマッチした文字列は、 $result[0]:<tag>こんにちは</tag> $result[1]:<tag>こんばんは</tag> となることを期待しているのですが、 実際は、 $result[0]:<tag>こんにちは</tag><tag>こんばんは</tag> となりました。 <tag>タグの間に入る文字列長、文字列フォーマットは不定です。 どうすれば期待通りの振る舞いに出来るでしょうか?

    • ベストアンサー
    • PHP
  • Perlの正規表現

    Perlの正規表現 Perlの正規表現で質問です。 MT4.13を使用して携帯用サイトを構築しています。 今現在、携帯用記事中の画像を縮小して表示しようと「regex_replace」を 使って、記事中のimgタグからsrc部分を抜き出して外部のphpに飛ばしています。 <$MTEntryBody regex_replace="/<img (.*?)src=\"(.*?\.jpg)\"(.*?)>/ig","<img src="phpスクリプト?img=\\2" border="0" />"$> 記事中のjpg(JPG)画像のsrc部分を拾って、phpに渡し、GDで縮小した画像を表示すると言った感じです。 しかし、regex_replaceの正規表現部分が上手く機能していないのか、jpg画像の最後の一枚のみ変換されると言った具合です。 JPG画像も含めて、記事中全てのjpg(JPG)画像を縮小して表示したいのですが、正規表現が思い浮かばず質問しました。 上記以外にも /<img (.*?)src=\"(.*)?(\.jpg|\.JPG)\"(.*?)>/ig などとしましたが上手くいきませんでした。 ちなみに、phpで画像を縮小する部分は問題なく動作しています。 以上、宜しくお願い致します。

  • HTMLタグの中味抽出

    HTMLのタグの中味を抽出する正規表現として、以下の形を学びました。 [^<]+?(?=>) この正規表現で以下のHTML文を処理すると、 <tag_nakami_1><tag_nakami_2>title_text</tag_nakami_1></tag_nakami_2> 以下の結果が出ました。 tag_nakami_1 tag_nakami_2 /tag_nakami_1 /tag_nakami_2 ですが、なぜ、「title_text」の部分がうまく取り除かれたのかがわかりません。 <tag_nakami_1><tag_nakami_2> まで処理がすんで、次は title_text</tag_nakami_1> が処理対象の文字列となるのでは無いでしょうか?その場合、末尾の > より前の部分、title_text</tag_nakami_1 から < のみが除かれた文字列、title_text/tag_nakami_1 が抽出される、つまり以下のような結果が出そうに思えます。 tag_nakami_1 tag_nakami_2 title_text/tag_nakami_1 /tag_nakami_2 ですが実際はそうなりません。 これはなぜなのでしょうか……。

  • 正規表現

    Java 5.1 java.util.regex.Pattern java.util.regex.Matcher を用いてHTMLのTABLEを抽出したいのですが、ヒットしません。正規表現のパターンはどうしたらいいのでしょう? パターン: < *table.*?>[\s.]*?< */table *?> 検索対象: … <table border=1 width=200> <tr><th>AA</th><th>BB</th></tr> <tr><td>CC</td><td>DD</td></tr> <tr><td>EE</td><td>FF</td></tr> </table> … で、TABLEタグを含むTABLE全体を期待したのですが全くヒットしませんでした。 ちなみに * <table …>と</table>単体ではヒットします。 * ソースから改行文字を取り除いて一行テキストとした場合にはヒットします。 これらのことから、改行文字がマッチしていないことが原因かと思うのですが、パターンの正規表現についてご教授願います。

    • ベストアンサー
    • Java
  • java正規表現 matchesがおかしい(バージョンの違い?)

    java正規表現 matchesがおかしい(バージョンの違い?) 正規表現を学びだしたところなのですが、patternのmatchesが上手くいきません。 このページ http://www.site-cooler.com/java/j2se/regex.htm に書かれている、 Pattern pattern = Pattern.compile("^Hello"); Matcher matcher = pattern.matcher("Hello World. This is regex sample."); boolean blnMatch= matcher.matches(); System.out.println(blnMatch); を実行してもfalseが返ってきてしまいます。 これはバージョンの違いからくるものなのでしょうか? ちなみに私はjre1.6でeclipse3.5を使用しています。 回答をよろしくお願いします。

    • ベストアンサー
    • Java
  • 正規表現でタグの一部を削除したい

    Dreamweaverの検索および置換で正規表現を使用して、サイト内で使用されている<a>タグの中の「title=""」を削除したいです。どうぞよろしくお願いします。 例としては下記のような感じです。 【修正前】 <a title="ここは文字列が入っています" href="index.html" class="link">リンク文字</a> 【修正後】 <a href="index.html" class="link">リンク文字</a> 「title=""」の「””」に入っている文字列は同じ文字もありますが、基本的にすべて違います。 また、例では<a>タグの中に「href」「class」が入っていますが、リンク先が違ったり、class名が違ったり、「id」が入っていることもあります。

    • ベストアンサー
    • CSS
  • タグを教えて下さい

    HTMLで、ブラウザ上のリンク貼った所にカーソルをもって行くとリンクはった所がちょっと大きくなったりしてみやすくなったりするのって、何かタグがあるのでしょうか? Java Scriptかもしりませんが、まだJava Scriptの使い方が分からないので出来ればソースも教えていただきたいのですが・・・・。 よろしくお願いします。

    • ベストアンサー
    • HTML
  • スタイルシートをHTMLタグの中に書きたい。

    初めまして、こんにちは。 Jugemにて、ブログをやっています。 ブログのテンプーレトには、CSSファイルとHTMLファイルがあり、 ページの全体的なCSS/HTMLは変更することが出来るのですが、 1つ1つの記事に対して、HTMLタグの中にスタイルシートを 組み込んでいるタイプのタグを使用したいと思って、 HTML/CSSのサイトを見て、試行錯誤やってはみたのですが、 HTMLタグに組み込むソースの書き方や詳細な情報が見つけられずに 困っています。 どなたか、このHTMLタグにCSSを組み込むタグ一覧と詳細な書き方が 記載されているweb siteをご存知ありませんでしょうか? どうぞ、ご回答のほうよろしくお願いいたしますm(_ _)m