• ベストアンサー

HTMLページからタグを除くテキストデータのみを抽出したい

既出かもしれませんが、ホームページの更新作業を任されたのですが、今までのHTMLページのタグを除いてテキストデータを抽出できる、フリーソフトなるものはあるのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • akamanbo
  • ベストアンサー率17% (462/2680)
回答No.1

ありますよ。 【Vector:Html To Text (Windows95/98/Me / インターネット&通信) - ソフトの詳細】 http://www.vector.co.jp/soft/win95/net/se096087.html

doublemac
質問者

お礼

ありがとうございました。 おかげで解決しました。

その他の回答 (2)

  • nori_007
  • ベストアンサー率35% (369/1048)
回答No.3

特別なソフトを使わずに、テキストで保存じゃダメなんですか?

回答No.2

>フリーソフトなるものはあるのでしょうか? 一杯ある。

関連するQ&A

  • 自動巡回+一部のテキストを抽出するソフト探しています

    ホームページのデータを収集してEXCELで表にしたいのですが、 ホームページのURLおよびHTMLソースは一定しているものの、 収集したいデータは数百ページもあり、いちいちソースを開いて、 探して抽出するのは非常に非効率で、途方にくれています。 一定の連番の持つURL(予め用意したURLリスト)を自動巡回して、 HTML内の一部のテキスト(行指定して1行~数行)を抽出するソフト探しています。 もちろんHTMLソースが一定の法則になっています。 (htmlタグは変わらないが、テキストとURLだけは違う・・・) 例えば、  http://www.***.com/data/1255.html  http://www.***.com/data/1256.html  http://www.***.com/data/1428.html のようにURLは一定していること。 個別のHTMLソースでは例えば、 18行目の・・・ 『 <td width="100"><b><font size="-1">●●●●</font></b></td>』  の●●●●だけを抽出するとか・・・  これをCSVやウェブでテキストベースで表示できれば幸いです。 そのようなソフトはございますか? よろしくお願いします。

  • getAttributeによるHTMLのタグ抽出について

    web上にあるHTMLで書かれた文書から、タグ別に抽出しようと思っています。以下にあるのはプログラムの一部です。 <a href~のタグだときちんと抽出できるのですが、<img src~から始まるタグでは抽出できなかったのです。どこがいけないのでしょうか? よろしくお願いします。 . . . public void handleStartTag(HTML.Tag tag, MutableAttributeSet attr, int pos) { if (tag.equals(HTML.Tag.A)) { href[i] = (String) attr.getAttribute(HTML.Attribute.HREF); i++; } else if (tag.equals(HTML.Tag.IMG)) { src[j] = (String) attr.getAttribute(HTML.Attribute.SRC); j++; } else { } } . . .

    • ベストアンサー
    • Java
  • HTMLタグの中味抽出

    HTMLのタグの中味を抽出する正規表現として、以下の形を学びました。 [^<]+?(?=>) この正規表現で以下のHTML文を処理すると、 <tag_nakami_1><tag_nakami_2>title_text</tag_nakami_1></tag_nakami_2> 以下の結果が出ました。 tag_nakami_1 tag_nakami_2 /tag_nakami_1 /tag_nakami_2 ですが、なぜ、「title_text」の部分がうまく取り除かれたのかがわかりません。 <tag_nakami_1><tag_nakami_2> まで処理がすんで、次は title_text</tag_nakami_1> が処理対象の文字列となるのでは無いでしょうか?その場合、末尾の > より前の部分、title_text</tag_nakami_1 から < のみが除かれた文字列、title_text/tag_nakami_1 が抽出される、つまり以下のような結果が出そうに思えます。 tag_nakami_1 tag_nakami_2 title_text/tag_nakami_1 /tag_nakami_2 ですが実際はそうなりません。 これはなぜなのでしょうか……。

  • HTML形式のメールからテキストのみを抽出したい

    HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。 使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。 日本語の本文のテキスト抽出を行っているのですが、 うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、 教えてください。 よろしくお願いいたします。

  • HTMLを学ぶには?

    ホームページを作るのに、これからHTMLを勉強しようと思っています。 おすすめの勉強方法、テキストを教えてください。 あくまでもフリーソフトなどを使わずに、タグで組んでいきたいのですが・・・ 宜しくお願い致します。

  • HTMLタグは覚えておくと・・・いいの?

    すごくPC好きの中学生です。 友達がHTMLタグは覚えておいたほうがいいよぉ~って 言うけど、今はホームページ作成ソフトで写真や文字とか入れると自動的にHTMLに変換してくれるから、必要ないと思う。 プログラマーになるにはHTMLタグ覚えていた方がいいの?

  • エクセルでHTMLタグだけを取り除きたい。

    オークションの一括出品のCSVファイルのHTMLタグを利用しての商品説明をHTMLタグだけを取り除くフリーソフトなどはあるでしょうか? (サイズや、色などの、商品説明の本文のみを抽出する)。携帯用の商品説明に利用したいと思っています。 ご存知の方がいられましたら、教えてください。

  • HTMLタグを全てのページに(ホームページ)

    私は今ホームページを作っています。 あるサイトから無料の時計、HTMLタグをコピーしてホームページへ貼り付けしたのですが、そのページだけしか時計表示されません。自動的に全てのページに時計を置きたいのですが、どうやったらいいですか? 製作:ホームページZERO 無料サーバー:FC2 よろしくお願いします

  • リッチテキスト形式でHTMLタグがつかない方法ありますか?

    初歩的なことをお聞きしてすみません。 過去ログでリッチテキスト(HTML)形式とテキスト形式の見分け方についてはわかったのですが、最終的にお聞きしたいのはテキスト形式の一種でフォントの大きさなどを加工したものが送れる形式(HTMLタグを出さずに)があるのでしょうか? そんなものはないと思っていたのですが、「ある」と主張する人がいらっしゃっるのでわからなくなってしまいました。 ちなみにメールソフトでテキスト形式しか受け取れないものってどれくらいあるのでしょう?そのソフト名もご存知でしたら教えてください。 お願いします。

  • HTMLタグ内文字を抽出するには

    HTMLタグ内の特定<title>タグ内文字列のみをエクセルマクロで抽出する方法はありますか? またエクセルのURL一覧の横に結果を表示させたいです。 宜しくお願い致します。

専門家に質問してみよう