• 締切済み

特定の文字列を取り出したい

秀丸エディタの正規表現などを使えば可能だと思うのですが、 あるファイルに以下のような記述があったとして <table><tr> <td>abc1@abc.jp</td> <td>abc2@abc.jp</td> <td>abc3@abc.jp</td> <td>abc4@abc.jp</td> </tr></table> タグの中身の文字列だけを取り出して abc1@abc.jp abc2@abc.jp abc3@abc.jp abc4@abc.jp というテキストを作りたいのですが、 何か良い方法はありますでしょうか?

みんなの回答

  • ts3m-ickw
  • ベストアンサー率43% (1248/2897)
回答No.3

正規表現の最小(最短)マッチを使うのが一番いいと思いますよ。 <.*?> をNULL文字列に置換すればいいんじゃないかな?

pugera542
質問者

お礼

タグのみ削除するということですね。 ありがとうございます。また書き方が悪かったのですが、 タグ以外にも、必要な文章のほかにも様々な文字列があるんです。 つまり だらだら~略~ <td>abc1@abc.jp</td> だらだら~略~ という行が何行も続いている。 ですので、自分の希望としては 「アットマーク前から<td>タグの直前まで+@+アットマーク後から</td>タグの直前まで」以外を削除 としたい正規表現をお教えして欲しいのです。 そのような複雑なやり方はありませんでしょうか?

  • pentium100
  • ベストアンサー率45% (689/1517)
回答No.2

No1の補足ですが.TXTを.HTMLに変えるということです。

  • pentium100
  • ベストアンサー率45% (689/1517)
回答No.1

そのファイルをブラウザで表示させてしまえば あとはコピペでいけるんではないですか?

pugera542
質問者

お礼

すみません例として簡略化しすぎました。 これは複数のHTMLファイルからgrepで抽出したある行だけを 抜き出したファイルで、普通にブラウザでは開けません。 また非常に大量のデータが含まれて居ます。 アットマークの前後の文字は どんな文字が入るか、どの程度の長さかは分かりません。 になります。

関連するQ&A

専門家に質問してみよう