• 締切済み

HTMLのparserを探しています。

HTMLのparserを探しています。 XMLのパーサーはかなり見つけたのですが、HTMLのパーサーがなかなか見つかりません。 できれば、フリーのものがいいのですが、 この際、どちらでもいいです。 お願いします。

noname#6448
noname#6448
  • HTML
  • 回答数3
  • ありがとう数4

みんなの回答

  • shigatsu
  • ベストアンサー率26% (511/1924)
回答No.3

mozillaで配布してる Gecko とか使って自作できそうですが、これはいわゆるレイアウトエンジンですから、その手前の部分だけ切り出せばなんとかなりそうですね。 自作は考えられていないと思いますので、かなり外しちゃってるかもしれませんけど・・・ パーサと言って良いかどうかわかりませんが、Dreamweaver3の機能である「HTMLのクリーンアップ」は結構良い感じですよ。特にWordとかで作っちゃったぐちゃぐちゃのHTMLもかなりスッキリします。

参考URL:
http://www.mozilla.org/
noname#4486
noname#4486
回答No.2

解答ではありません。 noa 様に不都合が御座いませんでしたら、便乗で質問させて下さい; パーサとおっしゃるのは、ページの取得能力やブラウジング能力が無いか、またはしないように設定できるものの事でしょうか? 勿論目的にもよりますが、 XML とは異なり、 HTML では定義自体に見栄えが含まれていますので、表示しないというのは解釈していないのと同様な気もするのですが。 SGML パーサか、文法チェッカの事でしょうか? 或いは XSLT のように要素を抽出できれば便利な気もしますね。 いかにも御存知な事かと思いますが、一応関連するかもしれない事を少し書いておきます; ブラウザ(解釈+閲覧表示); W3C の Amaya。日本語が文字化けするそうです。 http://www.w3.org/Amaya/ チェッカ; 「Another HTML-lint」 から ローカル用スクリプトがダウンロードできたと思います。 SGML パーサによる HTML 文書のチェック; 次のサイトで出来ます; http://www.kudpc.kyoto-u.ac.jp/Services/HTML_Parse/html_check.html

noname#25358
noname#25358
回答No.1

 HTMLの場合、あんましパーサーって言い方しませんよね(^_^;  ヴェクターの「インターネット&通信 > HTML作成 > 作成支援」のところにそれっぽいのがちょこっとあるみたいです。

関連するQ&A

  • C++: HTMLパーサを探しています。

    C++のHTMLパーサライブラリを御存じの方がおられましたら、教えて頂けませんでしょうか。 XMLパーサはちらほら見つかるのですが、HTMLの解析ができるものを探しております。 PerlモジュールのHTML::TreeBuilderのようなtree構造の解析までできるものが理想です。 宜しくお願いいたします。

  • HTMLパーサ

    取得したWEBページのソースからHTMLタグだけを抜き出せるパーサを探しています。 一般的に使われているものを教えてください。 よろしくお願いします。

    • ベストアンサー
    • PHP
  • HTML::Parserの解析結果

    HTML::Parserを使ってHTMLからimgタグを抽出しようとしています。 http://homepage3.nifty.com/hippo2000/perltips/html/Parser.htm などの解説どおりに書けばimgタグの各項目を取り出すことは出来るのですが結果を配列で取得することができません。 解析したいHTMLを渡すことでimgタグの各情報を配列で受け取るには堂書けばいいのか教えてください。 HTML::TokeParserも試してみましたがまれに正しく抽出できない場合があり使えませんでした。 同じHTMLをHTML::Parserで解析したところ全て正しく抽出できたのでHTML::Parserで処理したいと考えています。

  • XML::Parser::Expat が無い?

    RSSフィードを読むCGIを作りたいと考えています。 XML::RSSを入れると、 ・XML/Parser.pm ・XML/Parser/Expat.pm が無いというエラーになったので入れました。 が、今度は、 「Can't locate loadable object for module XML::Parser::Expat」 というエラーになりました。 「XML::Parser::Expat」は、Expat.pm内にあるのに何故でしょうか? ちなみにperl5.005で、pmは全てCPANから落としました。

    • ベストアンサー
    • Perl
  • XMLパーサを紹介してください。

    VisualStudio2003でアプリを開発しています。 C或いはC++から利用できるXMLパーサを探しているのですが .NETやMFCを利用せず お手軽で軽量なXMLパーサをご存知ないでしょうか? 機能は単純なもので構いません。

  • XMLパーサの種類について混乱してます

    XSLTをいじる必要に駆られて、現在Java1.4+JAXP1.1を利用しています。 いままで、javax.xml.transformをimportしてメソッドを実行するだけで、「変換系に何を使っているのか」については全く気にしていなかったのですが、その実体は何なのでしょうか? (XTとかXalanとか、単体の変換系がありますよね・・・?) また、DOMパーサ、SAXパーサもJAXPで使えますが、各々のパーサや変換系を集めてパッケージにしたものがJAXPなんでしょうか。 さらに、勉強中にXMLパーサという単語が出てきて混乱しています。XMLパーサは、DOM・SAX・XSLT等とは違うのでしょうか? (XMLパーサと名乗っているXercesは何に使うのでしょうか・・・) DTDとの関連も含めて解説して頂けたら嬉しいです。

    • ベストアンサー
    • Java
  • C#で使用できるHTMLパーサを探しています。

    度々お世話になります。 表題の通り、C#用のパーサを探しています。 自分でも探してはおりますが、少し古いものだと HTML5に対応しているのかどうか等が不安になります。 dll、ソースレベル、どちらでも構いません。 おすすめなものがありましたら、教えてください。 よろしくお願いします。

  • HTML::Parserの挙動がよく分かりません

    CGIプログラミング第2版を読みながらCGIを学習しています。 11章 "ステートの保持"の11.1 クエリ文字列とパス情報の例題ではまっております。。。 これはURLに識別子を埋め込んでユーザーを追跡するという、超ハイテクなスクリプトです。 とりあえず、記載されているとおりにスクリプトを作成してHTMLファイルも用意しました。 HTMLファイルの内容は超簡単で <HTML><HEAD><TITLE>store</TITLE></HEAD><BODY><A href="abc.html">abc</A></BODY></HTML> です。 これでユーザーがhttp://ウェブサーバー/store/下のファイルをリクエストすると、自動的にスクリプトが実行され、カスタマイズされたHTMLファイルが返されるという仕様です。 実際に返されたHTMLファイルを見てみると <HTML><HEAD><TITLE>store</title></head><BODY> なんと<A>タグ以降がばっさり切り落とされていました^^ しかもタグは全部大文字で書いたのに一部小文字になっていたりと、意味不明な状況です。 たぶんHTML::Parserなるものが、いろいろHTMLファイルを操作しているとは思うのですが、今回返されたHTMLはどう見ても壊れているような・・・。

    • ベストアンサー
    • Perl
  • HTML DOM Parserで取得できない

    PHP Simple HTML DOM Parserでスクレイピングをしているのですが、 $row = <<<EOF <a href="http://yahoo.co.jp">yahoo</a> EOF; $row = str_get_html($row); echo $row; // 表示される echo $row->href; // 表示されない 上記の表示されない部分はどうやったらできますでしょうか? よろしくお願いします。

    • ベストアンサー
    • PHP
  • C言語から呼び出し可能なXMLパーサについて

    このたび、XMLで記述されたファイルを読み込んで、 特定のデータのみを取り出すことになりました。 それで、XMLパーサを使用してそれを実現しようかと 思っています。C言語から呼び出し可能なXMLパーサがあれば、教えていただけませんでしょうか。(有償でも無償でもかまいません。実行時のOSはSparc系solarisですが、linux,windowsで使用可能なものでもかまいません。参考にしたいと思っています) JAVAからの呼び出し可能なものであれば、あるようですが、C言語から呼びさせるものは、検索しても見あたりませんでした。