- 締切済み
特定の文字列を取り出したい
秀丸エディタの正規表現などを使えば可能だと思うのですが、 あるファイルに以下のような記述があったとして <table><tr> <td>abc1@abc.jp</td> <td>abc2@abc.jp</td> <td>abc3@abc.jp</td> <td>abc4@abc.jp</td> </tr></table> タグの中身の文字列だけを取り出して abc1@abc.jp abc2@abc.jp abc3@abc.jp abc4@abc.jp というテキストを作りたいのですが、 何か良い方法はありますでしょうか?
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- ts3m-ickw
- ベストアンサー率43% (1248/2897)
回答No.3
正規表現の最小(最短)マッチを使うのが一番いいと思いますよ。 <.*?> をNULL文字列に置換すればいいんじゃないかな?
- pentium100
- ベストアンサー率45% (689/1517)
回答No.2
No1の補足ですが.TXTを.HTMLに変えるということです。
- pentium100
- ベストアンサー率45% (689/1517)
回答No.1
そのファイルをブラウザで表示させてしまえば あとはコピペでいけるんではないですか?
質問者
お礼
すみません例として簡略化しすぎました。 これは複数のHTMLファイルからgrepで抽出したある行だけを 抜き出したファイルで、普通にブラウザでは開けません。 また非常に大量のデータが含まれて居ます。 アットマークの前後の文字は どんな文字が入るか、どの程度の長さかは分かりません。 になります。
お礼
タグのみ削除するということですね。 ありがとうございます。また書き方が悪かったのですが、 タグ以外にも、必要な文章のほかにも様々な文字列があるんです。 つまり だらだら~略~ <td>abc1@abc.jp</td> だらだら~略~ という行が何行も続いている。 ですので、自分の希望としては 「アットマーク前から<td>タグの直前まで+@+アットマーク後から</td>タグの直前まで」以外を削除 としたい正規表現をお教えして欲しいのです。 そのような複雑なやり方はありませんでしょうか?