締切済み

HTML形式のメールからテキストのみを抽出したい

2009/11/27 16:59

HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。使用言語はperl，HTML::Parserを使用してプログラムを作成したいと考えています。日本語の本文のテキスト抽出を行っているのですが、うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、教えてください。よろしくお願いいたします。

pony222
お礼率100% (1/1)

Perl
回答数1
ありがとう数2

みんなの回答 （1）
専門家の回答

みんなの回答

ORUKA1951
ベストアンサー率45% (5062/11036)

2009/11/27 17:49 回答No.1

これは意外と難しい、Perlプログラマを悩ませる難題。ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。　参考になるサイトをあげておきます。これで該当するものを削除すればよいかと【参考サイト】 Perlメモ　 http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag そして、 s/$tag_regex//gs;

質問者

お礼 2009/12/04 14:42

返信が遅くなってしまい申し訳ありません。回答と掲載していただいたサイトを参考にしまして HTMLタグの除去ができました。本当にありがとうございました。

関連するQ&A

C++: HTMLパーサを探しています。
C++のHTMLパーサライブラリを御存じの方がおられましたら、教えて頂けませんでしょうか。 XMLパーサはちらほら見つかるのですが、HTMLの解析ができるものを探しております。 PerlモジュールのHTML::TreeBuilderのようなtree構造の解析までできるものが理想です。宜しくお願いいたします。
- ベストアンサー
- C・C++・C#
HTML::Parserの解析結果
HTML::Parserを使ってHTMLからimgタグを抽出しようとしています。 http://homepage3.nifty.com/hippo2000/perltips/html/Parser.htm などの解説どおりに書けばimgタグの各項目を取り出すことは出来るのですが結果を配列で取得することができません。解析したいHTMLを渡すことでimgタグの各情報を配列で受け取るには堂書けばいいのか教えてください。 HTML::TokeParserも試してみましたがまれに正しく抽出できない場合があり使えませんでした。同じHTMLをHTML::Parserで解析したところ全て正しく抽出できたのでHTML::Parserで処理したいと考えています。
- 締切済み
- Perl
XMLのテキスト情報をHTMLに読み込みたい！
XMLのテキスト情報をHTMLに読み込みたいのですが、試行錯誤しておりまして；；形的には、 <a href="ここに入れたい！"> という形でHTMLページ内に何箇所か使いたいのですが、何かしら方法やヒントなど、お教えいただける方、助けてくださいませ。。
- ベストアンサー
- XML
HTML形式のメールを送りたい。
VB6から直接HTML形式のメールを送りたくてプログラムを作成しました。 MAPIを用いてMapMess.MsgNoteText = aMessage としました。 aMessageはHTMLで記述しています。受け取ったメールはHTML形式ではなくてテキスト形式でHTMLのソースがそのまま表示されていました。根本的に方法が間違っているのでしょうか。それともMAPIにパラメータでもあるのでしょうか？
- 締切済み
- Visual Basic
受信したHTML形式のメールを、テキスト形式に変換して返信しなおすには？
Outlook2000を使用しています。私から送信するときは、テキスト形式で送信しているのですが、友人からHTML形式でメールが送られてきた場合、以下のことができるか、教えてください。 1.一度、HTML形式で受信したメールを、返信するときにだけ、テキスト形式で変換しなおし、本文内容は、インデントで引用して、返信したい。 2.HTML形式で配信されてきたメールを、自動的に、テキスト形式で受信するようにしたい。できない、というご指摘も大歓迎です。よろしくお願いいたします。
- ベストアンサー
- その他（メールサービス・ソフト）
hunderbird HTMLメールについて
Mozilla Thunderbird HTMLメールの本文テキストについて ThunderbirdでHTMLMメールを新規で作成して送りたいときに、現在、本文がプロポーショナルとなっています。環境設定→編集→HTML→フォントここで変更したのですが、いざ、メールを作成しようとすると、本文のテキストがプロポーショナルへ戻ってしまいますどのように確実にテキスト書体を固定すれば良いのでしょうか？どなたか教えて頂ければと思います
- ベストアンサー
- その他（メールサービス・ソフト）
プレーンテキストとHTMLの両方を送信する　って何？
メールソフトThunderbirdのツール→オプション→編集→送信テキスト形式...→テキスト形式　というところです。プレーンテキスト形式を使用している受信者にHTML形式のメールを送信しようとしたとき：プレーンテキストとHTMLの両方を送信するこれってどういう意味ですか？誰か教えて下さい＞＜
- ベストアンサー
- その他（メールサービス・ソフト）
Thunderbirdでテキスト形式のはずがHTML引用部分が含まれます。
Thunderbirdでメッセージをプレーンテキスト形式に設定していますが、送った後HTML形式の引用部分を含んだメールになっていることがあります。表示→メッセージの表示形式→プレーンテキストに設定し、アカウントのプロパティでも「編集とアドレス入力」では「HTML形式でメッセージを編集する」のチェックをはずしています。送ったあと、送信メールを見てみると、HTML形式であることを意味する青い縦棒が入っているのです。ヘッダを表示させて確認してみると、Content typeがtext/plain; charset="iso-2022-jp"のメールに対して、返信をしたメールは、text/plain; charset=ISO-2022-JPとなっています。ですが、メール本文は、青い棒が出ているのです。青い棒ではなくテキスト形式の「>」で表示できればそれがいいのですが。。教えていただけませんでしょうか。
- ベストアンサー
- その他（メールサービス・ソフト）
テキスト形式のメール
outlook express使用、初心者です。メールはテキスト形式で送るのが良いと教わりました。目が悪いので新規作成画面で本文の文字を大きく作りたいのですがテキスト形式ではフォントの変更は出来ないのでしょうか、10くらいの小さな文字しか出てこないのです。
- ベストアンサー
- その他（メールサービス・ソフト）
圧縮されたPDFからテキストを抽出したい
今、Perlを用いてPDFファイルからテキストを抽出するプログラムを作成しています。多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか？ Perlのライブラリや、圧縮アルゴリズムの書かれた書籍の紹介でもかまいませんので、多くの方の回答をお待ちしています。
- 締切済み
- Perl

HTML形式のメールからテキストのみを抽出したい

みんなの回答

お礼 2009/12/04 14:42

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

HTML形式のメールからテキストのみを抽出したい

みんなの回答

お礼 2009/12/04 14:42

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録