• ベストアンサー

HTMLソースファイルからタグを取り除く方法

HTMLソースファイルから、タグを完全に取り除く手法やモジュールを教えてください。 イメージとしましては、インターネットブラウザ上のHTMLページに対し <全選択→コピー→テキストファイルに貼り付ける> といった作業に類似したことをしたいです。 s/<.*?>//; を用いた削除では、本質問3行目のような表現も削除してしまい、 またブラウザを用いた手動の方法では、大量のファイルを処理しきれず困っています。 どなたかよろしくお願いいたします。

  • Perl
  • 回答数4
  • ありがとう数9

質問者が選んだベストアンサー

  • ベストアンサー
  • rafysta
  • ベストアンサー率45% (24/53)
回答No.2

HTML::FormatText モジュール

suzuki3
質問者

お礼

ありがとうございます! だめだったら、手作業でやろうと思っていたので大変助かりました。

その他の回答 (3)

  • steel_gray
  • ベストアンサー率66% (1052/1578)
回答No.4

#3です <>の中身が日本語がだと無視されずに表示されるようですね。失礼しました。

  • steel_gray
  • ベストアンサー率66% (1052/1578)
回答No.3

HTMLファイル中に <この部分は削除しないで!!> と、書いてもテキストとして表示される事はない(ブラウザは未知の要素として無視する)のだからタグとして削除されてもかまわないのでは?

  • edomin
  • ベストアンサー率32% (327/1003)
回答No.1

こちらは、参考になりますか? http://www.openspc2.org/book/InDesignCS/hard/015/index.html

参考URL:
http://www.openspc2.org/book/InDesignCS/hard/015/index.html
suzuki3
質問者

お礼

早速お返事ありがとうございます。 紹介していただいたwebページを参照してみました。 紹介していただいたソースファイルには、下記のような記述がありました。 -- str = new RegExp("<[^>]*?>","gmi"); // HTMLタグ削除 -- しかし、この正規表現だとやはり <この部分は削除しないで!!> といった表現もタグと判断して削除してしまうように感じます。実際はどうなんでしょうか・・・・・・

関連するQ&A

  • HTMLソースのタグの貼り付け方

    初心者のため要領を得ないかもしれませんが、 最近購入したソースネクストのホームページZEROを使用しているのですが、ASPより取得したHTMLソースをコピーしたタグは、どこにどのようにして貼り付ければ良いのでしょうか? 通常モードのところで良いのでしょうか? テキストボックスを配置してその中に張り付けるのでしょうか? それとも画像を挿入してそれと入れ替えるのでしょうか? ページをアップしてインターネット上からみると、そのタグのままで表示されています。 それともHTMLモードのところでしょうか?となると場所がさっぱりわかりません。 シーサーブログの場合は、自由形式のボックスの中にタグを貼り付けるだけでよかったので、簡単にできたのですが。 ブログとは、どう違うのでしょうか? どうぞよろしくお願いします。

  • WebページHTMLをテキストファイルとして取得する方法

    今、WebページのHTMLで 例えば、ADDと言う文字があれば、削除するような 処理をしようと考えているのですが、 C/C++なら文字検索を行い、削除することはできるのですが、 WebブラウザからHTMLソースを取得したあとテキストベースで削除処理をすると考えています。 (1) C/C++でHTMLソースを取得するにはどうしたらいいのでしょうか? (2) HTMLソースをテキストファイルにして文字検索後削除という処理を考えていますが、もっと簡単な方法はありますか? よろしくお願い致します。

  • 間抜けな質問で申し訳ありませんが・・・(HTMLのソース表示について)

    インターネットのブラウザで表示する HTMLファイルのソース(HTMLタグやJScript、VBScriptなど)って、 どうやっても見られちゃうものなんですか? ソースを見せたくない場合は?

    • ベストアンサー
    • HTML
  • web上のHTMLタグ入りのtextファイルを表示させてい

    web上にある改行などの単純なタグを含んだ テキストファイルを普通にブラウザでみた場合 改行されずに 一行目<br>二行目 とそのまま表示されると思うのですが、これを 一行目 二行目 と表示させるにはどうすれば良いのでしょうか? 外部からこのテキストファイルを読み込んで表示させる 方法などありましたらよろしくお願いします。

    • ベストアンサー
    • HTML
  • HTMLのテキストファイルが写真のようにタグが出ま

    HTMLのテキストファイルが写真のようにタグが出ません。タグを表示させるにはどうすればいいでしょうか?macのテキストエディトで編集しています。

    • ベストアンサー
    • HTML
  • HTMLソースを丸ごと貼り付けたい

    エクセルに http://www.html-cool.com/samples/tryhtml_basic.html から、コピーした <html> <body> body要素の内容は、ブラウザに表示されます。 </body> </html> を貼り付けると、ソースが張り付けられるので社なく、 「body要素の内容は、ブラウザに表示されます。」 だけが張り付けられます。 貼り付けオプションから、「テキストファイルウィザード」を選択すれば、 ソースを丸ごとエクセルに張り付けられます。 その張り付けたエクセルにソースをコピーして、違うセルに張り付ける時は、 ソースのまま貼り付けられます。 しかし、上記のサイトからコピペしてきたソースやメモ帳からコピペしてきたソースは、 やっぱし最初のように、ソースを丸ごと貼り付けられません。 エクセル2003でも2007でも同じ結果です。 ソースをコピーしたら、ソースごとエクセルに張り付けたいのですが どうすればいいでしょうか? 毎回毎回テキストファイルウィザードを選択するのは面倒です。 ご教授よろしくお願いします。

  • HTMLソースの検索について

    Postgres 8.3.9を使用しています。 現在使用しているテーブルの中に HTMLソースを格納しているカラムがあります。 テーブル名:contents カラム名:text ※データ例:<a href="http://www.google.co.jp">グーグル</a> HTMLソースが格納されたカラムに対して、キーワードでの検索を行いたいと考えています。 当然ながら以下の様に検索をすると、HTMLソース(例:href)をキーワードとしても検索に引っかかってしまいます。 select * from contents where text Like '%【検索キーワード】%'; なんとか、HTMLソースをキーワードとした場合は検索されずに、 HTMLタグに囲まれた部分(※上記データだと'グーグル')をキーワードとした場合にだけ、 検索されるようにしたいと考えています。 何か良い手法はないでしょうか。 ご教授をお願い致します。

  • IFRAMEタグで設定したサイズに合わせHTMLファイルを表示する方法はありますか?

    テキストでソースファイルを書き換えてHPを作成しています。 あるHTMLファイルの中にIFRAMEタグを用いて区切られたエリアを作り、別のHTMLファイルAを表示しようと考えています。ファイルAの幅に比べてIFRAMEタグで指定している幅が小さいため、通常のままでは左右のスクロールバーが表示されてしまい、非常に見にくいです。IFRAMEタグに合わせてファイルAの縮小表示させるオプション命令のようなものはありませんか?ファイルA自体は別の箇所でも使用しているため、ファイルAそのもののサイズを小さくしてしまうことは出来ません。 どうかよろしくお願いいたします。

  • 「記事のタグ」をHTMLで編集したい。

    Mac OS 10.4でSeesaaブログをしています。 お聞きしたいのは、「記事のタグ」の追加や編集は、普通のSeesaaのフォーマット画面からしかできないのでしょうか? できれば、HTMLかなにかで、一気にコピー&ペーストしたいです。 普通にブラウザでソース表示しても、それは編集画面とは違いますよね? また、HTMLかなにかで編集できるなら、その手順もご指導いただければ幸いです。 よろしくお願いします。

  • HTMLタグチェック

    MacromediaのDreamWeaverを使ってHTMLを生成し、 PHPの埋め込みモジュールを作成しました。 一度ブラウザでみると、テーブルがひどくズレ 見えるものじゃありません。 そこでPHP埋め込み型でもHTMLタグチェックを行えるツール又は、ブラウザのソース表示でHTMLコードを吸い取り、チェックを行う良いツールはございますか? できればとじタグはどこにいれないといけないとか よりカスタマイズされたチェッカーがいいです。 よろしくお願いいたします。

    • ベストアンサー
    • HTML

専門家に質問してみよう