- 締切済み
HTML形式のメールからテキストのみを抽出したい
HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。 使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。 日本語の本文のテキスト抽出を行っているのですが、 うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、 教えてください。 よろしくお願いいたします。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- ORUKA1951
- ベストアンサー率45% (5062/11036)
回答No.1
これは意外と難しい、Perlプログラマを悩ませる難題。 ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。 参考になるサイトをあげておきます。これで該当するものを削除すればよいかと 【参考サイト】 Perlメモ http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag そして、 s/$tag_regex//gs;
お礼
返信が遅くなってしまい申し訳ありません。 回答と掲載していただいたサイトを参考にしまして HTMLタグの除去ができました。 本当にありがとうございました。