• ベストアンサー

perlでhtml 解析

diszoの回答

  • ベストアンサー
  • diszo
  • ベストアンサー率78% (32/41)
回答No.1

モジュールはいくつかあります。 ・HTML::TreeBuilder ・Web::Scraper など HTML::TreeBuilderの使い方として、 リンクのURLを抽出しているサンプルを紹介しているサイトがありましたので、 参照URLをご覧ください。 onclick="return opendetail(******)の******の部分は、 onclickで抽出して、その後、正規表現などで 抽出すればいいと思います。

参考URL:
http://www.geekpage.jp/programming/perl-network/html-treebuilder-2.php
hi_mawa
質問者

お礼

ありがとうございます! 参考にさせていただきます!

関連するQ&A

  • ポップアップ表示の後のreturn false

    onclickで小ウィンドウを出した後、元のページが最上部に戻らないようにするための処理として <a href="#" onclick="sWin('./popup.html'); return false; "> というように書いています。このreturn falseを 何とか全ての<a>タグ内に書かなくて済む様に、 sWin()関数の中に入れてしまうような方法はないでしょうか? return false; を関数の最後にそのまま書いてもダメでした。 よろしければご指導ください。m(_ _)m

  • perlでHTMLソースを解析してformタグの要素を取得したいのです

    perlでHTMLソースを解析してformタグの要素を取得したいのですが、そのようなライブラリはありますか? できれば、javascriptでHTMLソースから情報を得られるようなAPIだと良いのですが。 即ち、document.forms[].actionとかdocument.forms[].elements[].valueのように。

    • ベストアンサー
    • Perl
  • HTML::Parserの解析結果

    HTML::Parserを使ってHTMLからimgタグを抽出しようとしています。 http://homepage3.nifty.com/hippo2000/perltips/html/Parser.htm などの解説どおりに書けばimgタグの各項目を取り出すことは出来るのですが結果を配列で取得することができません。 解析したいHTMLを渡すことでimgタグの各情報を配列で受け取るには堂書けばいいのか教えてください。 HTML::TokeParserも試してみましたがまれに正しく抽出できない場合があり使えませんでした。 同じHTMLをHTML::Parserで解析したところ全て正しく抽出できたのでHTML::Parserで処理したいと考えています。

  • perl xml解析について

    perl初心者です。 以下のxmlデータの「http://www.google.co.jp」をxml解析して値を取得したいのですが、 どのようなプログラムを記述すればよろしいのでしょうか? <?xml version="1.0" encoding="x-sjis-cp932" ?> <Res_result> <result result="1" /> <result redirect="http://www.google.co.jp" /> </Res_result> いろいろ試してみましたが、どうもうまくいきません。 ちなみにサーバーにインストールされているxml関連のモジュールが XML::Simple XML::Parser となります。 ご教授の方、宜しくお願い致します。

    • ベストアンサー
    • Perl
  • Perlを使って、オークションの落札情報を取得したい

    Yahooオークションの出品をし、落札してもらった情報を一括してダウンロードし、出品物毎に間違いなく落札者のメールアドレスを取得したり、落札価格を取得したりして、一覧表を作りたいと思っています。 自分自身の作業ミス低減のためなので、CGI等でWEBに公開する必要はなく、ローカルマシンのPerlやRubyで実行してテキストファイルが吐き出せればよいと考えているのですが、何か参考例などをご存知の方はいらっしゃいませんでしょうか? 自分で考える手順としては... 1.Yahoo!オークションにログオン 2.マイオークションの出品終了分のページを取得 3.HTMLを解析して、一通りのオークションIDを取得 4.オークションごとに出品ページを取得 5.HTMLを解析して、落札者のID,メールアドレス,落札単価を抽出 というように考えていますが、そもそも、考え方が間違っていたりしますでしょうか? Perlで実装する場合のヒント(このモジュールのこんなメソッドを使う)とか、参考になるサイト、手順の誤りの指摘などいただければ...と思います。 ちなみに自分のスキルとしては、Perlのコードをちょっとは書ける様になったかな?というくらいのPerl駆け出しレベルですが、プログラムの基礎知識(ネットワークプログラムは除く)はありますので、何とか情報のポインタでも頂けると幸いです。

  • リンクにおける挙動の参照と範囲指定

    ほぼ初心者です。 html内に、javascriptを参照させて、以下のように作成しました。 <SCRIPT language="javascript"src="popup.js"></script> <□□> <a href="1.jpg" onclick="popup(href);return false;">テスト1</a> <a href="2.jpg" onclick="popup(href);return false;">テスト2</a> <a href="3.jpg" onclick="popup(href);return false;">テスト3</a> </□□> 普通にポップアップされたのですが、以下の方法ができないかと思っております。 (1)「onclick="popup(href);return false;"」の部分をほかから参照させる (2)特定の範囲のリンクのみ「onclick="popup(href);return false;"」を適用させる。 (1)はLightboxのように、「rel="thumbnail"」みたいに参照できないか、ということです。 (2)は上の「<□□>~</□□>」のように囲われた範囲のリンクで、「onclick="popup(href);return false;"」を適用できないか、ということです。 よろしくお願いします。

  • javascriptで困っています。

    htmlのaタグの<a href="" onClick"hoge(); return false">からjavascriptの関数を呼び出したいのですが、html内に記述したものではなく、外部ファイルに記述した関数を呼び出したい場合はどのようにaタグを記述すればよいのでしょうか?

  • javascripを利用したタブについて

    ご覧くださいましてありがとうございます。 http://okwave.jp/qa/q4800764.htmlのページの、yambejpさんがご回答されたタグ を使用させていただき、javascriptを利用した横並びのタブを作っております。 <p> <a href="#" class="selected" onclick="return ChangeTab(this,'tab1');">1111</a> <a href="#" onclick="return ChangeTab(this,'tab2');">2222</a> <a href="#" onclick="return ChangeTab(this,'tab3');">3333</a> <a href="#" onclick="return ChangeTab(this,'tab4');">4444</a> <a href="#" onclick="return ChangeTab(this,'tab5');">5555</a> </p> の部分の記述だけを、下記のように変更し、 <ul> <li><a href="#" class="selected" onclick="return ChangeTab(this,'tab1');">1111</a></li> <li><a href="#" onclick="return ChangeTab(this,'tab2');">2222</a></li> </ul> <li>をfloatで横並びにしています。 そして、選択中のタブの背景色(#000)をcssで設定しているのですが、2222をクリックしても1111のタブも選択中となってしまい、cssで設定している未選択状態の背景色(#fff)が適用されません。 どのような記述にしたら、2222を選択中に1111を未選択状態に出来ますでしょうか? 初心者で拙く分かりづらい質問になってしまい大変恐縮ですが、お知恵のある方がいらっしゃいまいたらご回答よろしくお願いいたします。

  • 自動的にリンクを貼る・・・

    XMLのテキスト部分をXSLにvalue-ofで呼び出した時 テキストの中にhttp://で始まる英数字のかたまりだけそこにリンクが貼られるようにその部分だけを抽出し、<a href="http://"></a>タグを自動的に付け加えるってことは可能でしょうか? 可能ならば記述方法わかる方いらっしゃいますか? ----------------------------------- =XML= <a>タイトル</a> <b>テキストhttp://~テキスト</b> xslでhttp://を含む英数字の塊に自動的に<a>タグを付ける(疑問の部分)  ↓ =HTML= <html> <body> <h1>タイトル</h1> テキスト<a href="http://~">http://~</a>テキスト </body> </html>

    • 締切済み
    • XML
  • BGMをON/OFFするタグ

    HTML手打ちでHPを作っていて、BGMをボタン(orリンク文字で)ON/OFFできるようにしたいのです。 でも、このタグでは流せないのですが何故でしょう・・・? <bgsound src="" volume="1" id="snd0"> <a href="javascript:" onClick="window.snd0.src='ファイルのアドレス';return false;">ON</a>  <a href="javascript:" onClick="window.snd0.src='';return false;">OFF</a> このタグで本当にBGMが流せるんですか?わたしのやり方が悪いのでしょうか・・・アドバイスお願いします!