ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：Perl 　スクレイピング処理について）

Perlスクレイピングでのtwitterとfacebookの情報抜き出し方法

2011/08/25 16:54

このQ&Aのポイント

Perlのスクレイピング処理で、TwitterとFacebookの情報を抜き出す方法について教えてください。
リンクの構成ページから、TwitterとFacebookの情報を分けて取得する方法を教えてください。
「#share_item ul li」のように#がつく記述と付かないパターンがあるのですが、この違い（#が必要な時）が不明です。教えてください。

Perl 　スクレイピング処理について

以下のような構成のページから、前半２つの twitter ,facebook のみを　　process '#share_item ul li', 't_url' => '@href'; のような形で抜き出したいのですが、これだとtwitterからmixi までの情報を一気に取得してしまいます。 process '#share_item ul li', 'twi_url' => '@href'; process '#share_item ul li', 'fb_url' => '@href'; のように、それぞれ分けて取得するよい方法はありますでしょうか？ ----------(ここから)--------- <div id="share_item"> <ul> <li> <a href="http://twitter.com/share?text=（略）&via=test_mk" target="_blank" onclick="s_omni.trackSNS('twitter')"> <img src="http://aaa.com/btn1.gif" alt="twitterでつぶやく" /> </a> </li> <li> <a href="http://www.facebook.com/share.php?u=http://aaa.com/" target="_blank" onclick="s_omni.trackSNS('facebook')"><img src="http://www.aaa.com/common/btn2.gif" alt="facebookでシェア" /></a> </li> <li> <a href="mailto:?subject= 　　　　　　　　　　　　　　　　～（略）～alt=" 　　　　　　　　　　　　　　メールで知らせる" /> 　　　　　　　　　　　　　　</a> </li> <li> <a href="http://mixi.jp/recent_voice.pl?from=home_profile" target="_blank" onclick="s_omni.trackSNS('mixi')"> <img src="http://aaa.com/btn4.gif" alt="mixiで知らせる" /></a> </li> <li> <link rel="mixi-check-image" type="image/jpeg" href="http://aaa.com//img/site/3.jpg" /> <a href="javascript:void(0);" onclick="window.open('http://mixi.jp/share.pl?u=http://aaa.com/&k=cf6870bacc04932deb167c0ee0483894cf74249b','share',['width=632','height=456','location=yes','resizable=yes','toolbar=no','menubar=no','scrollbars=no','status=no'].join(','));"><img src="http://aaa.com/btn5.gif" alt="mixiチェック"></a> </li> </ul> </div> ----------(ここまで)--------- （２）これは補足的な質問なのですが、「#share_item ul li」のように # がつく記述と付かないパターンがあるのですが、この違い（#が必要な時）が不明です。ご存知の方、教えて頂ければ幸いです。

niko314
お礼率38% (8/21)

Perl
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

_--_1l1_1_
ベストアンサー率67% (102/152)

2011/08/25 22:09 回答No.1

表示がくずれので空白2文字を全角空白にしていることに注意。 use strict; use warnings; use utf8; use Web::Scraper; use Data::Dumper; my $html = << 'END_HTML'; <html> 　<head> 　</head> 　<body> 　　<div id="share_item"> 　　　<ul> 　　　　<li> 　　　　　<a href="http://twitter.com/share?text=xxx&via=test_mk" target="_blank" onclick="s_omni.trackSNS('twitter')">twitter</a> 　　　　</li> 　　　　<li> 　　　　　<a href="http://www.facebook.com/share.php?u=http://aaa.c" target="_blank" onclick="s_omni.trackSNS('facebook')">face book</a> 　　　　</li> 　　　　<li> 　　　　</li> 　　　　<li> 　　　　　<link rel="mixi-check-image" type="image/jpeg" href="http://aaa.com//img/site/3.jpg" /> 　　　　　<a href="javascript:void(0);" 　　　　　　 onclick="window.open('http://mixi.jp/share.pl?u=http://aaa.com/&k=cf68" 　　　　　　 src="http://aaa.com/btn5.gif" alt="mixiチェック">mixi</a> 　　　　</li> 　　　</ul> 　　</body> 　</html> END_HTML my $scraper = scraper { 　　process '#share_item ul li a[href^="http://twitter.com/"]', 'twi_url' => '@href'; 　　process '#share_item ul li a[href^="http://www.facebook.com/"]', 'fb_url' => '@href'; }; my $res = $scraper->scrape($html) || die "$!"; print Dumper($res); # $VAR1 = { #　　　　　 'twi_url' => 'http://twitter.com/share?text=xxx&via=test_mk', #　　　　　 'fb_url' => 'http://www.facebook.com/share.php?u=http://aaa.c target=' #　　　　 }; > 「#share_item ul li」 > のように # がつく記述と付かないパターンがあるのですが、 > この違い（#が必要な時）が不明です。「CSS 一意セレクタ」で調べてみて下さい。

質問者

お礼 2011/08/30 18:21

ご回答ありがとうございました！頂きました回答を基に、なんとか取得することができました。

質問者

補足 2011/08/26 10:12

ご回答頂き、誠にありがとうございました。 a[href^="http://twitter.com/ で、href の行頭が「http://twitter.com/」のデータを抜き取る方法ということですね。私の環境で、全く同じ内容で試してみたのですが process '#share_item ul li a[href^="http://twitter.com/"]', 'twi_url' => '@href'; を実行すると、↓ -------------------------------------- '//*[@id='share_item']//ul//li//a[@href^='http://twitter.com/']' doesn't look like a valid XPath expression: Query: //*[@id='share_item']//ul//li//a[@href^='http:... .....................................^^^ Invalid query somewhere around here (I think) -------------------------------------- のようにXpath の形式が異なると言われ、正常に取得できませんでした。

その他の回答 (1)

_--_1l1_1_
ベストアンサー率67% (102/152)

2011/08/27 16:25 回答No.2

たぶん、Web::Scraperで使われているHTML::Selector::XPathが古いです。

Perlスクレイピングでのtwitterとfacebookの情報抜き出し方法

Perl 　スクレイピング処理について

質問者が選んだベストアンサー

お礼 2011/08/30 18:21

補足 2011/08/26 10:12

その他の回答 (1)

関連するQ&A

jQueryのclickイベントハンドラ

以下ＨＴＭＬからｊｓへのを読みこみがどうしてもできません。

【Jquery】before()でソースを挿入

position fixed内でスクロールさせたい

ドロップダウンメニューを作るこのCSSどこが変？

mootoolsを使ったドロップダウンメニューを同じページ内に複数使用したい

スクレイピングの仕方

リストを一行にせずに横並びにする方法

ＣＳＳレイアウトの配置ずれについて

CSSのリストタグについて

jqueryでの画像表示について

メニューボタン画像のロールオーバー時の処理について

イベントハンドラを完全に外部化にしたい

同HTML内で複数のjQueryを設置したいです

html5でブロックとブロックの間に隙間ができる

JSの変数をHTMLに渡す方法

jCarouselLiteループ時の属性値取得

ドロップダウンの残像

文字サイズ変更のjavascriptが動かない

【jQuery】スライダーについて

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

Perlスクレイピングでのtwitterとfacebookの情報抜き出し方法

Perl スクレイピング処理について

質問者が選んだベストアンサー

お礼 2011/08/30 18:21

補足 2011/08/26 10:12

その他の回答 (1)

関連するQ&A

jQueryのclickイベントハンドラ

以下ＨＴＭＬからｊｓへのを読みこみがどうしてもできません。

【Jquery】before()でソースを挿入

position fixed内でスクロールさせたい

ドロップダウンメニューを作るこのCSSどこが変？

mootoolsを使ったドロップダウンメニューを同じページ内に複数使用したい

スクレイピングの仕方

リストを一行にせずに横並びにする方法

ＣＳＳレイアウトの配置ずれについて

CSSのリストタグについて

jqueryでの画像表示について

メニューボタン画像のロールオーバー時の処理について

イベントハンドラを完全に外部化にしたい

同HTML内で複数のjQueryを設置したいです

html5でブロックとブロックの間に隙間ができる

JSの変数をHTMLに渡す方法

jCarouselLiteループ時の属性値取得

ドロップダウンの残像

文字サイズ変更のjavascriptが動かない

【jQuery】スライダーについて

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

Perl 　スクレイピング処理について

カテゴリ
一覧

専門家に質問してみよう
専門家登録