• 締切済み

WebページHTMLをテキストファイルとして取得する方法

今、WebページのHTMLで 例えば、ADDと言う文字があれば、削除するような 処理をしようと考えているのですが、 C/C++なら文字検索を行い、削除することはできるのですが、 WebブラウザからHTMLソースを取得したあとテキストベースで削除処理をすると考えています。 (1) C/C++でHTMLソースを取得するにはどうしたらいいのでしょうか? (2) HTMLソースをテキストファイルにして文字検索後削除という処理を考えていますが、もっと簡単な方法はありますか? よろしくお願い致します。

みんなの回答

回答No.1

> C/C++なら文字検索を行い、削除することはできるのですが  C/C++でなら出来て、今は出来ていないということは C/C++ではない??  状況がよくわかりませんが、とりあえず、 > WebブラウザからHTMLソースを取得したあとテキストベースで削除処理をすると考えています。  ブラウザから取得ということは一端ローカルに手動で保存してから、処理をするということですね。 A.1 > C/C++でHTMLソースを取得するにはどうしたらいいのでしょうか  これはネットから直接取得するということでしょうか?  それともローカルに保存した htmlを取得する、ということでしょうか。  どちらにしても環境がわからないとちょっと・・・。    前者で且つ Windows環境なら http://nienie.com/~masapico/api_InternetOpen.html  が参考になるかと。 A.2 > もっと簡単な方法はありますか?  直接ネット上の htmlにアクセスして、メモリに入れてから検索・削除して、ファイル出力という流れでいいのではないでしょうか。

the-ai
質問者

補足

申し訳ございません。処理の流れは、直接ネット上の htmlにアクセスして、メモリに入れてから検索・削除して、ファイル出力という流れです。 どのようにして実現するかわかりません。

関連するQ&A

  • Webページのテキスト文字を取得したいです。

    VB.NET、WinXP-SP2環境なのですが、 Webページのhtmlソースではなく、表示されている テキスト文字だけを取得したいです。 VBでインターネットエクスプローラーを起動して、 Navigateでページを表示して、そこから IE.Document.body.outerText()などでやってもできると 思うのですが、出来ればIEなどのWebブラウザは使わないで WebClientのDownloadやOpenReadを使って取得した htmlソースから抜き取るような方法があればと思うのですが、 もしIEなどのWebブラウザを使わないで取得する方法があったら 教えてほしいです。 よろしくおねがいいたします。

  • テキストファイルからHTMLにするとユーザー名が表示されてしまうのを避けたい

    例えばあるWEBページのソースコードをテキストファイルで取得して、それをデスクトップなどに保存し、そのあとそれをHTMLにして、ブラウザ表示するとWEBページが表示されますが、アドレス部分に、 「C・・・自分の名前/デスクトップ/***.html」などと自分のユーザー名が表示されてしまうのを避けたいのですがどうすればいいのでしょうか?

  • HTMLソースファイルからタグを取り除く方法

    HTMLソースファイルから、タグを完全に取り除く手法やモジュールを教えてください。 イメージとしましては、インターネットブラウザ上のHTMLページに対し <全選択→コピー→テキストファイルに貼り付ける> といった作業に類似したことをしたいです。 s/<.*?>//; を用いた削除では、本質問3行目のような表現も削除してしまい、 またブラウザを用いた手動の方法では、大量のファイルを処理しきれず困っています。 どなたかよろしくお願いいたします。

    • ベストアンサー
    • Perl
  • webページからのテキスト取得

    皆様お世話になっております。 データ収集のhtmlを作成しております。 すでに存在するいくつかのwebページ内の テキスト文字を取得して、 別のひとつのwebページへ貼り付け表示したいのですが、 何か方法はございますでしょうか? 何卒宜しくお願い致します。

  • Webページ保存

    あるWebページを上の部分の「ファイル」で、「名前を付けて保存」というところをクリックし、ファイルの種類をテキストファイルで保存して、そのテキストファイルを開いたら、文字化けしてしまいます。 どうすれば、Webページを保存できるのでしょうか?(テキストファイルでは保存できないのでしょうか) Webページ完全で保存した場合、ブラウザを開く形になりますよね? そのブラウザのWebページが消えていた場合、その保存したWebページ、完全(html,htm)も表示できない(消えてしまっている)のではないのですか? ですから、テキストファイルで保存したいと思ったのですが、文字化けしてしまいます。 良きご回答のほど、よろしくお願いします。

  • VBSでHTMLソースの取得方法で

    VBScriptでBODY部のHTMLソースを取得したいのですが出来ない場合があって悩んでいます。 msgbox objIE.Document.Body.InnerTextというかたちで表示させています。 ほとんどのページで問題なく出来るのですが・・・・ フレームで出来ているページに関して取得が出来ません。 そういった場合どうすればよいのでしょうか? 極論を言えば指定HTMLソースの中に文字検索が出来れば問題はないのですがソースが取得できないので検索しようがありません。

  • VBA:webページのデータ取得

    お世話になります。 現在、VBAを勉強しており、webページのデータを取得するツールを個人的に開発しております。開発中に不明点がでましたのでご質問いたします。 ※インターネット上で一通り探しましたが、解決策は見つかりませんでした。 現状、HTMLファイルのデータは取得はできております。(ソースといわれるものです) ただ、ソース上にはjavascriptで記述されているところが多々あり、javascript側でHTMLを生成している場合、このデータを取得することができません。 ソースではなく、実際にwebページに表示されているHTML・CSSなどを取得したいと考えておりますが、取得する方法は存在するのでしょうか? もしご存知でしたらご教示いただきたく思います。 以上、よろしくお願いいたします。

  • ブラウザから直接HTMLを取得する方法

    IEの「表示」-「ソースの表示」のようなイメージで、現在ブラウザに表示されているHTMLを取得するのには、どのような方法があるでしょうか? MSXML等を利用してWebサーバからHTML(HTTPレスポンス)を取得する方法はネット上で見かけますが、ブラウザから直接HTMLの情報を取得したいのです。 どうぞ、宜しくお願いいたします。

  • 文字コード指定のないWebページ表示に文字化けするのはHTMLファイルのせいかブラウザのせいか?

    宜しくお願いします。 [質問]  文字コード指定のないWebページ表示に文字化けするのはHTML  ファイルのせいかブラウザ(IE)のせいか?  Shift-JISで文字コード指定を明示的にしてないHTMLファイル  をIEで表示するとタイトルバーやページ上の日本語文字が文字  化けすることがありますが、これは文字コードの指定をソース  コードで行ってないHTMLファイルのせいなのか・それともIEが  誤動作したせいなのか?  どちらのせいかご存じの方いたら教えてください。  また、文字コード指定がないHTMLファイルで文字化けする時、  なぜ普段使用してない文字コードでHTMLファイルを読み込もう  とブラウザがするのかご存知の方いたら教えてください。  (テキストファイルだと文字コード指定して保存できますが、  HTMLファイルは文字コード指定して保存できないと思うので、  通常Shift-JIS選択してページ閲覧している環境でわざわざ他  の文字コードで読み込もうとするのか疑問です。)

    • ベストアンサー
    • HTML
  • ウエブページのHTMLタグを見れない

    ウエブページのHTMLタグを表示させたいんですが出来ません。どうしてでしょうか? 操作はメニュー→表示→ソースを選択で、出るらしいんですが、自分のは何も起こりません。ブラウザはインターネットエクスプローラーを使用してます。ちょっといそいでます。よろしくお願いします。