VB.NETを使用してWebページのテキスト文字を取得する方法

このQ&Aのポイント
  • VB.NETを使用してWebページのテキスト文字を取得する方法について紹介します。
  • Webページのhtmlソースではなく、表示されているテキスト文字だけを取得する方法を説明します。
  • IEなどのWebブラウザを使わずに、WebClientのDownloadやOpenReadを使用してhtmlソースからテキスト文字を抜き取る方法についても解説します。
回答を見る
  • ベストアンサー

Webページのテキスト文字を取得したいです。

VB.NET、WinXP-SP2環境なのですが、 Webページのhtmlソースではなく、表示されている テキスト文字だけを取得したいです。 VBでインターネットエクスプローラーを起動して、 Navigateでページを表示して、そこから IE.Document.body.outerText()などでやってもできると 思うのですが、出来ればIEなどのWebブラウザは使わないで WebClientのDownloadやOpenReadを使って取得した htmlソースから抜き取るような方法があればと思うのですが、 もしIEなどのWebブラウザを使わないで取得する方法があったら 教えてほしいです。 よろしくおねがいいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • mo_gu
  • ベストアンサー率51% (56/109)
回答No.1

System.Net.HttpWebRequest を使ってGetResponseStreamでWEBページの情報を取得 取得したWEBページの情報を正規表現を使って タグを消してしまえばよいかと

popopompom
質問者

補足

ご回答ありがとうございます。 正規表現というものが初耳なので少し調べましたが便利そうですね。 調べてみたいと思います。 ありがとうございました。

関連するQ&A

  • IEの操作で新ページのソース取得方法は?

    VBによりIEでページを表示させ、そのページから新しいページに移動させたとき、その新ページのHTMLのDocument取得方法をご教示頂きたくお願いします。

  • WEBページが見られません

    ブラウザを開いてもWEBページが表示できません。Skypeやメールの送受信はできます。3日前までは ブラウザーでネットができていましたが 突然できなくなっていて困っています WinXPでSP3です ワイヤレスでFreeSpotを利用しています。ブラウザソフトは IEとMAXTHON2を使っています

  • IEにページの内容を表示させない方法

    IEにページの内容を表示させない方法をご存知の方はいないでしょうか。 なぜそういったことをしたいのかというと スクリプトでIE.navigate()やgetElementsByTagNameなどのエレメントの取得を使い高速で複数サイトのデータの取得を行いたいです。 ただページの表示を待ってからエレメントの取得をおこなうと時間がかかってしまいます。 そこでフィルタなどをかけてIEにWEBページを表示させずにエレメントの取得をおこなうか、 IEに直接ソースコードを表示するなどして高速化を行いたいです。 そういった方法をご存知の方はいないでしょうか。

  • webページからのテキスト取得

    皆様お世話になっております。 データ収集のhtmlを作成しております。 すでに存在するいくつかのwebページ内の テキスト文字を取得して、 別のひとつのwebページへ貼り付け表示したいのですが、 何か方法はございますでしょうか? 何卒宜しくお願い致します。

  • VBAでWebページにセルの値を入力

    エクセルVBAを用いて指定したセルの値を 表示中のWebページにあるテキストエリア等(よくある入力フォーム)に入力する というものを作りたいのですが、 IEとの連携がよくわかりません。 似たようなもので、googleページを自動で開き、 テキストエリアに検索語句を入力し、ボタンを押す というもののソースがありました。 下記のページの3番です。 http://www.hatena.ne.jp/1137216805 これを応用できるかなと思ったのですが、 うまくいきません。 ・表示中のページに入力したいので ie.Navigate ("http://www.google.co.jp/") この部分が必要ありません。 呼び出したページではなく、表示中のページを ie.document.allの対象にするにはどうすればよいのでしょうか? また、他にも良いやり方がありましたら、教えてください。 よろしくお願いします。

  • WebページHTMLをテキストファイルとして取得する方法

    今、WebページのHTMLで 例えば、ADDと言う文字があれば、削除するような 処理をしようと考えているのですが、 C/C++なら文字検索を行い、削除することはできるのですが、 WebブラウザからHTMLソースを取得したあとテキストベースで削除処理をすると考えています。 (1) C/C++でHTMLソースを取得するにはどうしたらいいのでしょうか? (2) HTMLソースをテキストファイルにして文字検索後削除という処理を考えていますが、もっと簡単な方法はありますか? よろしくお願い致します。

  • ウエブページのHTMLタグを見れない

    ウエブページのHTMLタグを表示させたいんですが出来ません。どうしてでしょうか? 操作はメニュー→表示→ソースを選択で、出るらしいんですが、自分のは何も起こりません。ブラウザはインターネットエクスプローラーを使用してます。ちょっといそいでます。よろしくお願いします。

  • 【VB.NET】WebページのDOMソース取得方法

    初めて質問いたします。 至らない点があれば、指摘の程お願いします。 当方の環境は、 Windows7 VB.NET(VisualBasic) です。 今回、 Webページを開いた際にF12で起動する開発者ツールにおける、 「表示」-「ソース」-「DOM(ページ)」のhtmlソースに該当する情報を VB.NETで取得したく思っております。 自分で調べてみたのですが、 明確に記述がなかったのと自己解決していたのとで、 よくわかりませんでしたので、 教えていただきたく。 よろしくお願いします。

  • webページのソース表示が出来ない

    webページにてHTMLコードを確認したいのですがソース表示が出来ません。以前は出来ていたのですが、現在は出来ないのです。ブラウザのバージョンはInternetExplorer5.5SP2です。なおNetScape6.2も使っているのですが こちらはソース表示できるのです。ということはIEの設定と考えられるのですが 確認方法があるようでしたら教えて下さい。OSはWin2000です。

  • javascriptを起動した後のウェブページを取得するには

    こんにちは。よろしくお願いいたします。 以下のようなHTMLソースをブラウザで読み込むとhogeと 表示されますが、PHPのfile_get_contentsやPerlのLWPなどを使って ページを取得するとソースそのものが取得されます。PHPやPerlを使って ブラウザから見たソース(以下の例ではhoge)を取得するには どのようにしたらよいのでしょうか? <script type="text/javascript"> window.onload=function (){ document.getElementById("a").innerHTML="hoge"; } </script> <div id="a"></div>

    • ベストアンサー
    • PHP