pythonを使ったスクレイピング

解決済みの質問

pythonを使ったスクレイピング

pythonでスクレイピングを勉強しております。
例えば、http://www.stardust.co.jp/
といったサイトがあるのですが、そこに市原隼人と入力し
http://www.stardust.co.jp/search/?q=%E5%B8%82%E5%8E%9F%E9%9A%BC%E4%BA%BA
に移動し、市原隼人をクリックすると
http://www.stardust.co.jp/profile/ichiharahayato.html
に移動するのですがそこにある出身地の神奈川県という情報を取り出したいのですが
この一連の操作をpythonを使って出来るのでしょうか。
できればプログラムを見て勉強したいのですがよろしくお願いいたします。

投稿日時 - 2008-09-09 00:10:30

連想キーワード:

QNo.4314520

困ってます

質問者が選んだベストアンサー

import BeautifulSoup
import urllib

url="http://www.stardust.co.jp/profile/ichiharahayato.html"
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

for tag in soup.findAll("tr"):
 if tag.find("span") == "出身地":
  print tag.find("td")
-- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 --

求めているのはこんな感じでしょうか?
まず対象のHTMLを読み込んでその中からtrタグを抽出し、spanタグが出身地と一致したらtdタグを表示します。
あとは、必要に応じて文字コードや抽出条件の追加などしていけばいいと思います。

参考URL:http://www.crummy.com/software/BeautifulSoup/

投稿日時 - 2008-09-09 22:04:48

お礼

ありがとうございました。ちょっとがんばってみます。

投稿日時 - 2008-09-11 16:04:03

ANo.1

1人が「このQ&Aが役に立った」と投票しています

あわせてチェックしたい
  • 市原隼人 ...
  • 市原隼人 ...
  • 市原隼人について ...
PR
【回答募集中】花粉にひと言、物申す![ 詳細 ]

OKWaveのオススメ

教えて弁護士さん!

お金の悩みQ&A特集はこちら