perlでLWP::UserAgentを使ってgoogle検索結果を取得しようとする際の問題

2013/06/06 20:48

このQ&Aのポイント

perlのLWP::UserAgentを使ってgoogle検索結果を取得しようとしたが、#を含むURLでは正しい結果が返ってこない
同じ操作をYahoo!で行った場合には正常に検索結果が返ってくるため、googleの仕様が問題と考えられる
ブラウザのURL欄に?q=を使ってgoogleを検索すると、トップページに検索クエリが表示される現象が発生する

35fa8e3c
お礼率96% (49/51)

HTML
回答数4
ありがとう数4

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

hirotn
ベストアンサー率59% (147/246)

2013/06/08 01:06 回答No.4

Googleは、Web検索を外部プログラマが利用できるよう、Google Web APIを公開しています。このAPIは制限があり、一日1000クエリまで、検索結果もGoogleの検索サイトと少し異なるようです。この問題を回避するため、Google検索にクエリを投げてHTMLを解析しようとすることがありますが、（Googleの）ライセンス違反の恐れが高いですし（他人のコンテンツをキャッシュしてビジネスしてるのに）、検索結果のHTML自体が頻繁に内容が変わって解析できなくなってしまうことがあります。本音と建前が出てしまいますが、冒頭が回答になります。

質問者

お礼 2013/06/08 01:34

hirotn様、再びありがとうございます。なるほど、クエリーを投げるためのAPIがあり、一日1000回までなんですね。 #を?にしてしまうと自由に検索結果を取得できてAPIを利用する意味がない＝＞Googleのビジネスが成立しない、商品（コンテンツまたはそれをキャッシュしたもの）の提供者としての"世界の管理人たち"に対してGoogleがライセンス違反？したということになりかねないという解釈でよいしょうか。勉強になりました。ありがとうございましたm(_ _)m 結局プログラムにはYahoo!の検索結果を用いましたが、機会があればGoogleAPIに手を出そうと思います！

その他の回答 (3)

hirotn
ベストアンサー率59% (147/246)

2013/06/06 22:40 回答No.3

#q=xxxxxxxx は、jQueryからみかと。以下URLが該当かと。 http://www.kaasan.info/archives/564 これを参考にソースを見てみると、こんな記述があって、知識不足なのでよくわかりませんが匂います。 location.hash.match("[#&]((q|fp)=|tbs=simg|tbs=sbi)") とすると、URLを生成するだけではだめできちんとイベントが起きていないと、#q=xxxxxx表記による検索は実行されないと考えられます。?を使って記述するのではダメでしょうか？

質問者

お礼 2013/06/06 23:10

hirotn様、ご回答ありがとうございます。頂いた情報をもとに調べた結果、#以降をアンカーと呼ぶこと、javascriptでlocation.hashによってアンカーを取得できることを初めて知りました。 googleで検索キーワードを入力している最中に結果が随時表示される（(1)おそらく頻出キーワードに限って(2)yahooにはこの機能はない）ところを見ると、おそらくhirotnさんの推測されるとおりjQueryか何かでajaxを使ってサーバーとやりとりをしていますね・・・ ?を使った表記では、ブラウザ：テキストボックスにキーワードが入力されたトップページが表示される Perl：トップページのソースが返るといった結果ですので、googleに関してはプログラム（javascriptを解析できないようなシンプルなもの）で検索結果を取得するのは無理か、骨が折れるものになるか、GoogleがAPIを出しているかも？ということでしょうな。。とても勉強になりました。ありがとうございます。

hirotn
ベストアンサー率59% (147/246)

2013/06/06 22:20 回答No.2

URI::Escapeは利用可能ですか？ http://search.cpan.org/dist/URI/URI/Escape.pm http://homepage3.nifty.com/hippo2000/perltips/URI/Escape.html use URI::Escape; $safe = uri_escape("10% is enough\n"); $verysafe = uri_escape("foo", "\0-\377"); $str = uri_unescape($safe);

質問者

お礼 2013/06/06 22:40

回答ありがとうございます。日本語ならescapeするつもりです。今回google検索結果のurlとそのurl中パラメータが#で区切られていてしかもそのＵＲＬでHTTPリクエストを投げるとトップページのソースが返るので悩んでいます。エンコ・デコに関しては大丈夫です。

ORUKA1951
ベストアンサー率45% (5062/11036)

2013/06/06 22:16 回答No.1

Perlの#は、どういう意味でしたか？ $ソース = $ua->get("http://www.google.co.jp/#q=asd"); # googleのトップページの検索結果が返るは、 $ソース = $ua->get("http://www.google.co.jp/ では？？＞googleで「asd」と検索するとURLは http://www.google.co.jp/#q=asd となりますが、　なりません。

質問者

お礼 2013/06/06 22:44

回答ありがとうございます。 #はコメントアウトの場合があります。コメントアウト扱いになってたらまずエラーが出てますよね。 #は例外として""中の#と$後の#はコメントアウト扱いさません。あと文末の「なりません」の意味がわかりません。なんかすみません。何かご存知でしたらよろしくお願いいたします。

perlでLWP::UserAgentを使ってgoogle検索結果を取得しようとする際の問題

URLに含まれる「#」,「?」、HTTPリクエスト