• 締切済み

HTML形式のメールからテキストのみを抽出したい

HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。 使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。 日本語の本文のテキスト抽出を行っているのですが、 うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、 教えてください。 よろしくお願いいたします。

みんなの回答

  • ORUKA1951
  • ベストアンサー率45% (5062/11036)
回答No.1

これは意外と難しい、Perlプログラマを悩ませる難題。 ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。  参考になるサイトをあげておきます。これで該当するものを削除すればよいかと 【参考サイト】 Perlメモ   http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag そして、 s/$tag_regex//gs;

pony222
質問者

お礼

返信が遅くなってしまい申し訳ありません。 回答と掲載していただいたサイトを参考にしまして HTMLタグの除去ができました。 本当にありがとうございました。

関連するQ&A

専門家に質問してみよう