解決済みの質問
pythonでスクレイピングを勉強しております。
例えば、http://www.stardust.co.jp/
といったサイトがあるのですが、そこに市原隼人と入力し
http://www.stardust.co.jp/search/?q=%E5%B8%82%E5%8E%9F%E9%9A%BC%E4%BA%BA
に移動し、市原隼人をクリックすると
http://www.stardust.co.jp/profile/ichiharahayato.html
に移動するのですがそこにある出身地の神奈川県という情報を取り出したいのですが
この一連の操作をpythonを使って出来るのでしょうか。
できればプログラムを見て勉強したいのですがよろしくお願いいたします。
投稿日時 - 2008-09-09 00:10:30
import BeautifulSoup
import urllib
url="http://www.stardust.co.jp/profile/ichiharahayato.html"
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
for tag in soup.findAll("tr"):
if tag.find("span") == "出身地":
print tag.find("td")
-- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 -- >8 --
求めているのはこんな感じでしょうか?
まず対象のHTMLを読み込んでその中からtrタグを抽出し、spanタグが出身地と一致したらtdタグを表示します。
あとは、必要に応じて文字コードや抽出条件の追加などしていけばいいと思います。
参考URL:http://www.crummy.com/software/BeautifulSoup/
投稿日時 - 2008-09-09 22:04:48
お礼
ありがとうございました。ちょっとがんばってみます。
投稿日時 - 2008-09-11 16:04:03
1人が「このQ&Aが役に立った」と投票しています