※ ChatGPTを利用し、要約された質問です(原文:スクレイピングについて【初心者】)
ネットショッピングで価格の違いを比較する方法
このQ&Aのポイント
ネットショッピングで同じ商品の価格が異なることに気付いた。価格比較サイトでも見つからない商品もあるため、自分で安いサイトを探す必要がある。
商品の写真だけでは同じ商品か分からない場合には、JANコードを利用すると便利。
LOHACOのサイトで商品の一覧から商品名、値段、JANコード、URLを抜き出して、エクセルにまとめたい。プログラミングの知識がないため、手作業ではツールを使ってもJANコードを抜き出せなかった。
私はネットショッピングが大好きで、普段からAmazon、楽天、Yahooショッピングなどで買い物しております。
ネットショッピングで買い物するようになって気づいたのですが、サイトが違うと、同じ商品にも関わらず値段が全然違うのですね。(もちろんですが...)
同じ商品の価格を比較してくれる「価格.com」のようなサイトもあるのですが、私が普段買い物するような商品は価格.comに載ってないような商品やサイトもあるため、自分でネットサーフィンしながら、安いサイトで買っています。
その際に、商品が同じであるかどうかは写真だけでは判りません。そこで使っているのが、「JANコード」です。
これは商品ごとに割り当てられた13ケタの数字なので、商品名や写真で同じ商品か分かりにくい場合にも判別することができました。
最近スクレイピングというテクニックの存在を知りました。
もちろん相手のサイトに迷惑がかからないように気を付けないことは承知しております。
岡崎図書館事件の様なことにならないために、スクレイピングするのは一回限りです。
私がやりたいことですが、Lohacoのサイトで商品の一覧から、
(1)商品名(2)値段(3)JANコード(4)URL
以上の4つを抜き出して、エクセルにまとめることは可能でしょうか?
また可能の場合は、どのようなプログラミングで出来ますでしょうか。
LOHACOホーム>コスメ・スキンケア・美容>スキンケア・基礎化粧品>化粧水>エイジング化粧水
http://lohaco.jp/g4/55-5501-5501004-55010040002/?resultCount=100&va...
例えば以上のページです。このページにはスキンケア用品が74商品登録してあります。(現時点)
最終的にはExcelのA列に商品名、B列に値段、C列にJANコード、D列にURLを抜き出したいです。
私はこれまでプログラミングを勉強したことがなかったため、かなりハードルが高かったです。
いちを「データを集める技術(佐々木拓郎 著)」と「ExcelVBAでIEを思いのままに操作できるプログラミング術」という本を購入して勉強してみました。
しかしプログラミングの知識が全くないまま進んで行ったために、一か月くらい勉強しましたが、途中で挫折してしまいました。
また、VBAの基本から勉強しないと思い「Excel VBA 本格入門」という本を勉強しましたが、こちらは一通り理解することができました。
既存のスクレイピングツールを色々試したのですが、「Octoparse」というツールがなかなか使いやすかったです。
しかしホームページごとに構成が違ったためか、なかなか思い通りにツールが動かず、上のサイトのJANコードを抜き出すことができませんでした。
回答を頂ければ幸いです。よろしくお願いいたします。
補足もしプログラミングにお詳しい方がいらっしゃいましたら、一つの例として参考にさせて頂きたいので、上記の質問が解決できるプログラミングをご教授頂けると嬉しく思います。
※言語は問いませんので、幅広い回答をお待ちしております。
お礼
ありがとうございました。