締切済み

BCBで使えるHTMLパーサー、リンクの抽出

2001/07/03 08:57

Borland C++Builderで使えるHTMLパーサーのVCLを探しています。海外では、THTMLParserなどを検索語にして調べると幾つかありましたが日本語が文字化けしたりして、調子よくありません。 http://www.dallas.net/~richardp/delphi/components/home.html 日本語の通るフリーのHTMLパーサーのVCLというのはご存知でしょうか。また、実際にやりたいのは、ページから、・＜TITLE＞タグで囲まれたタイトルの抽出・＜A HREF　＝　URL＞リンク文字列＜/A＞　の、URL部分とリンク文字列のリストを得るということなのですが、私の拙い知識では何度やってもうまく取り出すことができません。それでVCLでできないかなあと調子の良いことを考えています。こういった文字列解析の定石のようなコーディングはあるのでしょうか。質問ばかりですみません。ご存知の方よろしくお願いいたします。

Blogger
お礼率60% (3/5)

C・C++・C#
回答数1
ありがとう数2

みんなの回答 （1）
専門家の回答

みんなの回答

bir
ベストアンサー率44% (11/25)

2001/07/03 17:01 回答No.1

私も似たようなものを探していました。 VCLではありませんが、ANSI C++/ライブラリで書かれているHTMLパーサライブラリがデジリニアのページで公開されているのでご参考にされてはいかがでしょう。私もダウンロードしただけでまだ試していないため何ができるのかまでは把握しておりません。すいません(^_^; URLのページのダウンロードのところにあります。

参考URL：: http://www.midl.co.jp/

質問者

お礼 2001/07/23 16:48

ご紹介ありがとうございました。それからいろいろ苦労しましたが結局、パーサを自作して目的を遂げました。CppWebBrowserにQueryInterfaceしてiHTMLDocument2オブジェクトからソースを取り出すという方法もその後見つけました。しかし、BCBでCOM操作は複雑になりがちでまだ勉強中です。

関連するQ&A

RubyのHTMLパーサーで複数のタグを抽出したい
現在、Rubyを用いてあるWebページから特定のタグの要素を抽出してテキストデータに出力したいと思い、プログラムを書いているのですが、途中で行き詰ってしまいました。ちなみにHpricotやNokogiriといったHTMLパーサーを試してみました。パーサーを使うのは初めてです。例えば以下のようにHTML文書に抽出したい部分がDIVタグとPタグに囲まれていた場合、 ===================================== ・・・ <div class="content"> <div class="header">不要部分</div> <div class="title">抽出したい文字列１</div> <div class="subtitle">抽出したい文字列２</div> <div class="subtitle">抽出したい文字列３</div> <p class="paragraph">抽出したい文字列４</p> <p class="paragraph">抽出したい文字列５</p> <div class="comment">抽出したい文字列６</div> <div class="footer">不要部分</div> </div> ・・・ ===================================== このHTMLからまずは抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列４抽出したい文字列５抽出したい文字列６といった出力が得たいのです。プログラムも書いてみました。 ===================================== #ドキュメント全体を取得（dataにはHTMLの文字列が入っている） html = Hpricot(data) #内容部分(contentクラスのdiv)を取得（CSSセレクタで記述） content = html/"div.content" ===================================== ここまでは良いのですが、そのあと、div要素を取り出すだけであれば headerクラスと、footerクラスを抽出しないように ===================================== (content/"div:not(.header):not(.footer)").each{ |line| puts line.inner_html } ===================================== とすることで、抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６が得られますが、pタグをカンマでdivの前に追加して ===================================== (content/"p,div:not(.header):not(.footer)").each{ |line| puts line.inner_html } ===================================== のようにすると、抽出したい文字列４抽出したい文字列５抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６のように出力されます。同様にdivの後にpを追加し ===================================== (content/"div:not(.header):not(.footer),p").each{ |line| puts line.inner_text } ===================================== のようにすると抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６抽出したい文字列４抽出したい文字列５のようになってしまいます。つまり、複数のタグを指定すると、指定した順序で抽出されるようです。代わりに子供すべてを列挙するchildのようなものがあるかと、調べてみたのですが、どうやらそのような書き方はないようです。複数のタグを含む場合にはHTMLパーサーでは解析できないのでしょうか。パーサーは抽出時に順番を保証はしてくれないのでしょうか。あきらめて、正規表現で抽出しようと思いましたが、 ===================================== <div class="comment"> <div class="comment_header">ごちゃごちゃ</div> <div class="comment_body">抽出したい要素６</div> </div> ===================================== などDIVが入れ子となっている場合に、非常にややこしく感じたのでお手上げ状態です。どのように、解決できるでしょうか。よろしくお願いします。
- ベストアンサー
- Ruby
パーサーに関する良本
計算式の文字列を外部から渡し、計算結果を返すプログラムを作ろうとしています。色々調べた結果、パーサーという物があることが分かったのですが、使い方が分りません。日本語での良い本（サイト）があれば、教えてください。
- ベストアンサー
- C・C++・C#
デルファイ5ProでのRichEditコンポーネントのリンクの仕方
お世話になっております。この度Delphi5PROでソフトを作成しているのですが、 RichEditコンポーネントに文字を入力し、http://などから始まるURL文字列が表示されたら、それにリンクを貼るということをしたいと思ったのですが、それは可能なのでしょうか？文字列は、他ソフトのチャットのログを読み込んでURLをみつけて・・・というやり方で表示させようと思っています。文字列にURLのリンクをつける方法をどなたかわかる方が居ましたら、ご教授願います。よろしくお願いします。
- ベストアンサー
- その他（プログラミング・開発）
HTMLタグ内文字を抽出するには
HTMLタグ内の特定<title>タグ内文字列のみをエクセルマクロで抽出する方法はありますか？またエクセルのURL一覧の横に結果を表示させたいです。宜しくお願い致します。
- 締切済み
- オフィス系ソフト
「リンク」について(O.E使用)
「リンク」について(O.E使用)なんですが。「テキスト形式」と「HTML形式」がありますが、この場合、URLで、リンクを貼りたい場合、・「テキスト形式」だと、単にURLアドレスを記入すると自分あてに返信確認してみたところ、「青色の文字」となり、リンクが貼れてました。・「HTML形式」だと、単にる「文字列」で、黒色の文字で、リンクされてませんでした。「HTML形式」の場合は、やっぱ、「ハイパーリンク」のアイコンを選択して URLアドレスを入力してやらなければ、だめなんでしょうか? 要は、「HP作成ソフト」のように、やるってことですか? たぶん、そうなんだろうな・・・と思うのですが、確認みたいな質問ですが、よろしく、お願いします。
- ベストアンサー
- その他（メールサービス・ソフト）
PHP URL→HTML→取得→RSS出力
PHP URL指定→HTMLソース→指定タグ要素取得（複数）→RSS（.xml）出力について URLからHTMLソースを取得し、要素を取得しRSSファイルを作りたいと思っています。例えば、http://shopping.yahoo.co.jp/ranking/のURLのHTMLソース内から <p class="elPhoto"> <a href="○○○.html"> <img src="【取得したい文字列１】" width="200" height="200" alt="○○○"> </a> </p> <h4 class="elTitle"> <a href="【取得したい文字列２】">【取得したい文字列３】</a> </h4> <h4 class="elPrice"> <span>【取得したい文字列４】</span>円 </h4> <p class="elSellStatus"></p> <h4 class="elStore"> ストア：<a href="【取得したい文字列５】">【取得したい文字列６】</a> </h4> など指定する各要素を全件取得し、 <item> <title>【取得したい文字列３】</title> <link>【取得したい文字列２】</link> <description> 【取得したい文字列１】<br> 【取得したい文字列４】<br> 【取得したい文字列６】<br> 【取得したい文字列５】 </description> </item> などとRSSで全件出力し、xmlファイルを作成したいです。アドバイス、ご指導お願いします。
- 締切済み
- PHP
リンクの張り方の違い
回答本文にURLを貼り付けて有る回答がありますが、この中でリンクが張られている場合と単に文字列にしかなっていないものがありますがどうやったら文字列ではなくリンクが張れるのでしょうか
- ベストアンサー
- このQ&Aコミュニティーについて
URLに自動的にリンクをはってHTMLにできるエディタとかソフト探してます
同一のパターンが延々と続く膨大なMSワードの資料があります。まずサイトのタイトルがあって、次の行にURLが記載されています。（それが2000セットくらい続きます。）で、その記載されただけでリンクは貼られていないURLから、実際にリンクを貼って、それをHTMLファイルとして保存する、という、手作業だとまちがいなく腱鞘炎になるであろう作業に迫られています。そこで、たとえばwww.～を自動的にURLと認識してくれて、自動的にリンクを貼ってくれるエディター（ウェブにアップしなければならないのでHTML化できないとだめなのですが）とかソフトがありましたら、教えていただけないでしょうか。もちろん、そのほかでも賢者のアイデアがあれば、、、。どうぞよろしくお願いいたします。
- ベストアンサー
- フリーウェア・フリーソフト
HTML で記述された索引の並べ替え
HTML で記述された索引があります。単に、<a href="***.htm"> と </a> に囲まれて文字列が並んでいるだけのもので、リンクをクリックすると索引語ごとのファイルにジャンプするものです。この索引を、文字列の前後のタグごと50音順に並べ替える簡単な方法はないでしょうか?
- 締切済み
- その他([技術者向] コンピューター)
ラベル内の文字列にHTMLリンクを張る
初心者質問ですみません。フォームにラベルを貼り付け、ラベルのキャプションで設定した一部の文字列にホームページのアドレスがあるのですが、そこの部分をＨＴＭＬのリンクを張りたいのですが、どのようにすればよろしいのでしょうか？ＶＢのバージョンは６です。
- ベストアンサー
- Visual Basic

BCBで使えるHTMLパーサー、リンクの抽出

みんなの回答

お礼 2001/07/23 16:48

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

BCBで使えるHTMLパーサー、リンクの抽出

みんなの回答

お礼 2001/07/23 16:48

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録