ベストアンサー

HTMLページからタグを除くテキストデータのみを抽出したい

2009/09/10 12:09

既出かもしれませんが、ホームページの更新作業を任されたのですが、今までのHTMLページのタグを除いてテキストデータを抽出できる、フリーソフトなるものはあるのでしょうか？

doublemac
お礼率50% (122/240)

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

akamanbo
ベストアンサー率17% (462/2680)

2009/09/10 12:11 回答No.1

ありますよ。【Vector：Html To Text (Windows95/98/Me / インターネット＆通信) - ソフトの詳細】 http://www.vector.co.jp/soft/win95/net/se096087.html

質問者

お礼 2009/09/10 15:40

ありがとうございました。おかげで解決しました。

その他の回答 (2)

nori_007
ベストアンサー率35% (369/1048)

2009/09/10 13:05 回答No.3

特別なソフトを使わずに、テキストで保存じゃダメなんですか？

JavaJavax2
ベストアンサー率22% (68/305)

2009/09/10 12:14 回答No.2

＞フリーソフトなるものはあるのでしょうか？一杯ある。

関連するQ&A

自動巡回＋一部のテキストを抽出するソフト探しています
ホームページのデータを収集してEXCELで表にしたいのですが、ホームページのURLおよびHTMLソースは一定しているものの、収集したいデータは数百ページもあり、いちいちソースを開いて、探して抽出するのは非常に非効率で、途方にくれています。一定の連番の持つURL(予め用意したURLリスト)を自動巡回して、 HTML内の一部のテキスト(行指定して１行～数行)を抽出するソフト探しています。もちろんHTMLソースが一定の法則になっています。 (htmlタグは変わらないが、テキストとURLだけは違う・・・) 例えば、　http://www.***.com/data/1255.html 　http://www.***.com/data/1256.html 　http://www.***.com/data/1428.html のようにURLは一定していること。個別のHTMLソースでは例えば、 18行目の・・・『 <td width="100"><b><font size="-1">●●●●</font></b></td>』　の●●●●だけを抽出するとか・・・　これをCSVやウェブでテキストベースで表示できれば幸いです。そのようなソフトはございますか？よろしくお願いします。
- ベストアンサー
- その他(ソフトウェア)
getAttributeによるHTMLのタグ抽出について
web上にあるHTMLで書かれた文書から、タグ別に抽出しようと思っています。以下にあるのはプログラムの一部です。 <a　href～のタグだときちんと抽出できるのですが、<img　src～から始まるタグでは抽出できなかったのです。どこがいけないのでしょうか？よろしくお願いします。 . . . public void handleStartTag(HTML.Tag tag, MutableAttributeSet attr, int pos) { if (tag.equals(HTML.Tag.A)) { href[i] = (String) attr.getAttribute(HTML.Attribute.HREF); i++; } else if (tag.equals(HTML.Tag.IMG)) { src[j] = (String) attr.getAttribute(HTML.Attribute.SRC); j++; } else { } } . . .
- ベストアンサー
- Java
HTMLタグの中味抽出
HTMLのタグの中味を抽出する正規表現として、以下の形を学びました。 [^<]+?(?=>) この正規表現で以下のHTML文を処理すると、 <tag_nakami_1><tag_nakami_2>title_text</tag_nakami_1></tag_nakami_2> 以下の結果が出ました。 tag_nakami_1 tag_nakami_2 /tag_nakami_1 /tag_nakami_2 ですが、なぜ、「title_text」の部分がうまく取り除かれたのかがわかりません。 <tag_nakami_1><tag_nakami_2> まで処理がすんで、次は title_text</tag_nakami_1> が処理対象の文字列となるのでは無いでしょうか？その場合、末尾の > より前の部分、title_text</tag_nakami_1 から < のみが除かれた文字列、title_text/tag_nakami_1 が抽出される、つまり以下のような結果が出そうに思えます。 tag_nakami_1 tag_nakami_2 title_text/tag_nakami_1 /tag_nakami_2 ですが実際はそうなりません。これはなぜなのでしょうか……。
- ベストアンサー
- その他（プログラミング・開発）
HTML形式のメールからテキストのみを抽出したい
HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。使用言語はperl，HTML::Parserを使用してプログラムを作成したいと考えています。日本語の本文のテキスト抽出を行っているのですが、うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、教えてください。よろしくお願いいたします。
- 締切済み
- Perl
HTMLを学ぶには?
ホームページを作るのに、これからＨＴＭＬを勉強しようと思っています。おすすめの勉強方法、テキストを教えてください。あくまでもフリーソフトなどを使わずに、タグで組んでいきたいのですが・・・宜しくお願い致します。
- ベストアンサー
- インターネットビジネス
HTMLタグは覚えておくと・・・いいの？
すごくＰＣ好きの中学生です。友達がＨＴＭＬタグは覚えておいたほうがいいよぉ～って言うけど、今はホームページ作成ソフトで写真や文字とか入れると自動的にＨＴＭＬに変換してくれるから、必要ないと思う。プログラマーになるにはＨＴＭＬタグ覚えていた方がいいの？
- ベストアンサー
- その他（インターネット・Webサービス）
エクセルでＨＴＭＬタグだけを取り除きたい。
オークションの一括出品のＣＳＶファイルのＨＴＭＬタグを利用しての商品説明をＨＴＭＬタグだけを取り除くフリーソフトなどはあるでしょうか？　（サイズや、色などの、商品説明の本文のみを抽出する）。携帯用の商品説明に利用したいと思っています。ご存知の方がいられましたら、教えてください。
- 締切済み
- フリーウェア・フリーソフト
HTMLタグを全てのページに（ホームページ）
私は今ホームページを作っています。あるサイトから無料の時計、HTMLタグをコピーしてホームページへ貼り付けしたのですが、そのページだけしか時計表示されません。自動的に全てのページに時計を置きたいのですが、どうやったらいいですか？製作：ホームページＺＥＲＯ無料サーバー：FC2 よろしくお願いします
- 締切済み
- ブログ
リッチテキスト形式でＨＴＭＬタグがつかない方法ありますか？
初歩的なことをお聞きしてすみません。過去ログでリッチテキスト（ＨＴＭＬ）形式とテキスト形式の見分け方についてはわかったのですが、最終的にお聞きしたいのはテキスト形式の一種でフォントの大きさなどを加工したものが送れる形式（ＨＴＭＬタグを出さずに）があるのでしょうか？そんなものはないと思っていたのですが、「ある」と主張する人がいらっしゃっるのでわからなくなってしまいました。ちなみにメールソフトでテキスト形式しか受け取れないものってどれくらいあるのでしょう？そのソフト名もご存知でしたら教えてください。お願いします。
- ベストアンサー
- その他（メールサービス・ソフト）
HTMLタグ内文字を抽出するには
HTMLタグ内の特定<title>タグ内文字列のみをエクセルマクロで抽出する方法はありますか？またエクセルのURL一覧の横に結果を表示させたいです。宜しくお願い致します。
- 締切済み
- オフィス系ソフト

HTMLページからタグを除くテキストデータのみを抽出したい

質問者が選んだベストアンサー

お礼 2009/09/10 15:40

その他の回答 (2)

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

HTMLページからタグを除くテキストデータのみを抽出したい

質問者が選んだベストアンサー

お礼 2009/09/10 15:40

その他の回答 (2)

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録