スクレイピング　に関する質問

スクレイピング

http://pubchem.ncbi.nlm.nih.gov/summary/summary.cgi?cid=41774&loc=ec_rcs ここのサイトにある　　Canonical SMILES: の CC1C(C(C(C(O1)OC2C(OC(C(C2O)O)OC3C(OC(C(C3O)O)O)CO)CO)O)O)NC4C=C(C(C(C4O)O)O)COを抜き出したいのですがどうすればいいでしょうか。できればプログラムをみて勉強したいのですがよろしくお願いいたします。

ベストアンサー
C・C++・C#

shiroshi77
回答数1
2008/09/08 03:09

グーグルをスクレイピング

して検索エンジンを作成する方法は何となく想像できますが、そもそも、グーグルのような元となってる検索サイトは、いったい、どこから情報を得てるのでしょうか？

ベストアンサー
CGI

wevenus
回答数1
2012/06/28 16:12

スクレイピングの仕方

phpのgoutteを使用して、下記htmlのスクレイピング結果をDBに格納したいと考えています。 li部分が繰り返し部分後なっております。 ■htmlのスクレイピング部分 <ul id="test"> 　<li class="clearfix"> 　　<div class="thumbox"> 　　　<a href="http://xxxx.co.jp" target="_blank""> 　　　　<img src="http://xxx.co.jp/01.jpg" alt="01" class="thumb"> 　　　</a> 　　</div> 　　<h4> 　　　みだし　　</h4> 　　<p> 　　　文章　　</p> 　</li> 　<li> 　　上記liと同じで、繰り返し。(画像ファイル、文章等は異なります。) 　</li> </ul> phpソースは、下記部分になります。 ■スクレイピングphpソース $crawler->filter('ul#test a')->each(function($element) { var_dump($element->attr('href')); }); 現状のphpソースでは、filter('ul#test a')のため、 aタグのhrefの内容しか抜き取れていません。やりたいこととしては、　1．aタグのhref値　2．imgのsrc値　3．aタグの後のhタグの見出し　4．pタグの文章を抜く上記4つを一回で抜き出し、後はli部分をぐるぐる回して、１～4の値を抜きたいのです。最終的には、　・抜いた4つの値をDBに1行のレコードとして格納。　・残りのli部分も同じように繰り返す。といったことをやりたいので、 $crawler->filter('タグ書き方)->each(function($element) { 変数1 =　1．aタグのhref値　　　変数2 =　2．imgのsrc値　　　変数3 = 3．aタグの後のhタグの見出し　　　変数4 = 4．pタグの文章を抜く　　　DBにIns(変数1,変数2,変数3,変数4) }); と一回の関数の中で、4つの値を取り出し、DBに放り込みたいのです。現状、私が記述しているfilter条件では、aタグしか取り出せないのです。どのようにソースを修正すれば、対応できるのかわかりません。良い知恵をお持ちの方がいらっしゃいまいたら、ご教授お願いいたします。

ベストアンサー
PHP

ShiftTail
回答数1
2014/12/11 23:17

googleをスクレイピング

するのは違反でしょうか？？ google自身は世界一スクレイピングしてるわけですが。。

締切済み
PHP

wevenus
回答数1
2012/07/01 15:33

VBAでスクレイピング

エクセルマクロを用いてスクレイピングをしようと思っているのですがなかなか思うようにいきません。やっていることはクエリを投げてかえってくるページを切り出してセルに格納したいというものです。以下、コードの一部になります。 objX = objIE.Document.getElementById("xx").getElementsByTagName("yy") For n = 0 To objX.Length -1 If InStr(objX(n).OuterHTML, "zz") > 0 Then Cells(1, n+2) = objX(n).InnerText Sleep(1000) End If Next こんな感じです。やりたいこととしては 1. Cell(1,1)に入ってる数字でクエリ投げる 2.ページを表示 ---ここまではできました--- 3.idだけでは絞れなかったのでTagで絞って連想配列(?)化 4.さらにclass属性=zzのタグだけ抽出 5.それを1行目に要素分だけ列で代入 n+2の部分をどうにかして合致するセルだけ詰めて入力というのはどうやるんでしょうか？今のままではデータはとれますが空欄を処理せねばなりませんで、とても煩わしいです。 Cell(1,2) = objX(n).InnerTextとすると一個目しかとってこれないし… getElementsByClassNameがあれば解決なのでしょうが…IEの挙動が怪しくて使えません。どうにかなりませんか？

ベストアンサー
Visual Basic

tomtombouze
回答数1
2014/01/12 23:49

ＶＢＡ　IE操作　スクレイピング

VBA IE操作についてこんばんわ。いつもお世話になっております。初心者の質問ですが、先生方のご意見ご指導宜しくお願いいたします。 OS : windows7 , EXCEL2007 -------------------------------------------------------------- プロ野球のサイトにアクセスし、（セントラル・リーグ）の球団に在籍する選手の画像を自動で取得するコードを作りたいと思っています。 (1)　2012年度選手一覧　→　http://bis.npb.or.jp/players/　を開く (2)　球団名のリンクをクリックして球団ページへ移動する (3)　球団ページ内の選手名のリンクをクリックして選手ページへ移動する (4)　選手紹介欄の画像を取得する上記のような行程なのですが、(2)の球団数も6球団あります。 (4)の選手数にしても何十人もいますので、for ～ next でループさせたいと思っています。このような場合IEで処理することは可能なのでしょうか？参考サイトなどから沢山のお知恵をいただき、下記のようなコードを試してみたのですが、エラーとなり、うまくいきませんでした。 sheet1 　　　　　　Ａ 1 2 3　　中日ドラゴンズ 4　　東京ヤクルトスワローズ 5　　読売ジャイアンツ 6　　阪神タイガース 7　　広島東洋カープ 8　　広島東洋カープ 9　　横浜DeNAベイスターズ Sub Ｔｅｓｔ () Sub Graph_Down2() Dim nmbr As Integer nmbr = Range("A3").End(xlDown).Row - 2 Set objIE = CreateObject("InternetExplorer.Application") 'IEを開く objIE.Visible = True objIE.Navigate "http://bis.npb.or.jp/players/" Do While objIE.ReadyState <> 4 'サイトが開くまで待機 Do While objIE.Busy = True Loop Loop For i = 0 To nmbr '表示されているサイトのアンカータグ一つずつを変数objにセット For Each obj In objIE.Document.getElementsByTagName("a") 'Obj.innerTextと全機種名が一致すれば If Trim(Range("A" & i + 3).Value) = Trim(obj.innerText) Then '該当するタグをクリック obj.Click 'ページジャンプ '// '移動したページの画像を取得する処理コードを書く '// objIE.GoBack '前のページへ戻る　　　'＊　ここでエラーになります Exit For End If Next Next i ' Set Obj = Nothing ' objIE.Quit ' Set objIE = Nothing End Sub 上記コードですが、ＩＥで2012年度選手一覧を開く　→　Ａ３の球団名と一致したリンクをクリック　→　中日ドラゴンズのページに移動　まではできています。この先の処理についてご指導いただければと思います。基礎ができていないど素人のため拙い説明ですが、お分かりの方いましたら是非ご指導願います。宜しくお願いいたします！

ベストアンサー
Visual Basic

tokyo2199
回答数1
2012/05/17 18:46

動的サイトのスクレイピング

スクレイピングは通常、対象サイトのHTMLを保存、パースしてサイトのページ構造を取得しますが、JSで動的に生成された後のサイトのページ構造は取得できますか？取得できる場合、参考サイトを教えてください。

ベストアンサー
PHP

toyoshima72
回答数1
2014/04/11 18:42

Pythonでのスクレイピング

あるサイト（https://gemforex.com/login.php）のログイン後の情報をPythonで抜き出したいのですが以下のソースコードだとログインができていないようです。何が悪いのでしょうか？ import requests email = "メールアドレス" password = "パスワード" session = requests.session() login_info = { "mail":email, "passwd":password, } url_login = "https://gemforex.com/login.php" res = session.post(url_login, data=login_info) print(res.text)

締切済み
Python

penginyarou873
回答数1
2022/02/12 11:35

GASでのWEBスクレイピング

業務効率化のため、以下の記事を参考に GASでのWEBスクレイピングを試してみましたが POSTのUrlFetchApp.fetchでエラーとなってしまいます。 ◯参考記事 http://katsulog.tech/get-the-source-after-logging-in-to-the-site-when-scraping-with-googlespreadsheet/ ◯エラー内容 https://www.fc-hikaku.net/client/sessions のリクエストに失敗しました（エラー: 422） ◯実施したいサイト（ログインページ） https://www.fc-hikaku.net/client そもそもログインができていないと思われるのですが GASにおいてエラーの切り分けなどの仕方もわからず詳しい方にご助力いただきたいです。参考記事内のサンプルは正常に動作しております。宜しくお願いします。

ベストアンサー
Java

sigesigeo1919
回答数1
2018/07/11 19:18

pythonでのスクレイピング

python2.7とBeutifulSoupで特定のHPからHTMLを取ってきて処理するプログラムを作っているのですが、正規表現でちょっと困っています。 soup=BeautifulSoup(HTML) s=soup.findAll("a"[,href=○○○、title=○○○]) でリンク<a>のHTMLを取得でき[]で絞込みが出来ます。さらに○○○には正規表現を使うことが出来ます。私はtilteにAを含まないもの、かつBをも含まないもの。という条件指定をしたいのですが、正規表現で「もしくは「｜」」は見当たるのですが「かつ」がみあたりません。今は絞込みの後、if:continueを使ってBがあれば処理をパスするようにしていますが他によい方法は無いのでしょうか？ beautifulsoupの使い方も合わせて教えていただけるとありがたいです。

締切済み
Python

rusifelu
回答数1
2012/07/31 23:51

スクレイピングに関して

現在はローワークのデータをスクレイプするシステム作ってますが例えば豊岡市で検索しても、八王子市で検索しても全て同じアドレスに https://www.hellowork.go.jp/servicef/130020.do に飛んでしまう為、スクレイピングが不可能な状態です。しかし、ハローワークをスクレイプしたサイトは多数ありますし、出来るのだと思うのですが、どうやったらできるんでしょうか？？恐らくHTTPリクエストで同じ値を飛ばし、受ければ取得できると思いますが <input type="text" name="chiku1" value="豊岡市" /> $post = $_POST['chiku1']; これでもできません。どうしたらいいでしょうか。

ベストアンサー
PHP

drmada
回答数2
2012/06/22 15:00

power automate のスクレイピング

power automateで以下のようにアクションを作成しました「新しいMicrosoftEDGEを起動」「Webページ上の情報を取得します」にて現在のURLを取得し、「pythonスクリプトの実行」にて『r=%WebPageProperty% print r』と、前のアクションで得たURLを代入して出力します。実行すると、 SyntaxError: unexpected token ':' というエラーがでてきますこれは取得したURLのダブルコロンが何か悪さをしているのだろうと、エスケープキーの無効化などを調べましたが、うまくいきません解決方法をお願いしたいです

ベストアンサー
Python

aaaa012345
回答数1
2022/01/29 19:52

visualC#でのスクレイピング方法

こんばんは、いつもお世話になっております。会社にてvisualC#による情報処理を請け負うようになりました。 C#はあまり扱ったことがないのですが、早急に覚えなければならないため、皆様のお知恵をいただきたく投稿させていただきました。 webサイトなどの情報を取得し、適正な値を表示するアプリケーションを作成する業務なので、とりあえずオークションサイトなどの落札価格などを取得し、平均価格をだすようなソフトの工程を勉強したいと思っています。プログラムに疎いため、的確な質問になっていないかもしれませんが、スクレイピングなどの知識が必要だといわれました。試験が9月と12月なのでそれまでにと思っています。何か詳しい参考書や参考になるサイト、またはアプリケーションのサンプル等ありませんでしょうか？宜しくお願いいたします！

ベストアンサー
その他（プログラミング・開発）

tokyo2199
回答数1
2011/05/21 22:16

python スクレイピングに関して

windows vagrant virtualbox ubuntu python3 という環境でubuntu側でdriver = webdriver.Remot('http://10.0.2.2:4444', options=options)を動かして、ホスト側のコマンドプロンプトでchromedriver --port=4444を起動していますが、selenium.common.exceptions.WebDriverException: Message: Host header or origin header is specified and is not whitelisted or localhost.というエラーが発生し、chromeが起動しません。解決方法を教えていただけないでしょうか。

締切済み
Python

deli-ka
回答数1
2020/07/21 16:00

エクセルのスクレイピングでエラー

エクセルVBAでスクレイピングをしたいのですが、エラーが出てしまいます。わかる方がいましたらご教授下さい。 ■環境 Windows10(64bit) ■インストールしたドライバ類 SeleniumBasic-2.0.9.0.exe ChromeDriver 91.0.4472.19 chromedriver_win32.zip ■チェックを入れた参照設定 Visual Basic For Application Microsoft Excel 16.0 Object Library OLE Automation Microsoft Office 16.0 Object Library Microsoft Internet Control Microsoft HTML Object Library Selenium Type Librrary ■プロシージャ Sub test() 　　Dim Driver As New Selenium.WebDriver Driver.Start "chrome", "https://www.yahoo.co.jp/" Driver.Get "/" Driver.Close Set Driver = Nothing End Sub ■エラー内容 3行目「Driver.Start "chrome", "https://www.yahoo.co.jp/"」の所で「実行時エラー33」が表示される

ベストアンサー
Excel（エクセル）

rutohamuni2012
回答数2
2021/05/29 11:25

動的なページのスクレイピング

動的なページのスクレイピングまず下記のurl御覧ください。 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q131988243... これで「静的なページの」スクレイピングできるようになったはいいのですが、問題はここからです。 https://sv.j-cg.com/compe/view/entrylist/1489 ↑このような、「ある程度スクロールすると追加でコンテンツが読み込まれるページ」については、正しくスクレイピングできませんでした。「JavaScriptを実行させて、変化後の要素を取得する」ためにヘッドレスブラウザ(phantomjs)を使っているはずなのに、これは腑に落ちなさすぎるんですが。。ググったところ、やっぱり「phantomjsを使う」のは正しい解決法のようなんですが、（これとか→https://ja.stackoverflow.com/questions/19681/nokogiri%E3%81%A7%E5%8...）やっぱり追加後のDOM?については解析できませんでした。 JCGのサイトについてはスクロール時に読み込まれるのはjavascriptの仕様ではないのか、はたまたコードがよくないのか… 教えてください。

締切済み
Ruby

ont_rt
回答数1
2019/03/08 03:28

pythonを使ったスクレイピング

pythonでスクレイピングを勉強しております。例えば、http://www.stardust.co.jp/ といったサイトがあるのですが、そこに市原隼人と入力し http://www.stardust.co.jp/search/?q=%E5%B8%82%E5%8E%9F%E9%9A%BC%E4%BA%BA に移動し、市原隼人をクリックすると http://www.stardust.co.jp/profile/ichiharahayato.html に移動するのですがそこにある出身地の神奈川県という情報を取り出したいのですがこの一連の操作をpythonを使って出来るのでしょうか。できればプログラムを見て勉強したいのですがよろしくお願いいたします。

ベストアンサー
HTML

shiroshi77
回答数1
2008/09/09 00:10

単体で動くプログラム（スクレイピング）

Pythonでスクレイピングなどのプログラムの経験はありますが、そのプログラムを動作させるには、動作環境やライブラリなどが適正な場所にインストールされていることが前提となります。WIndowsならば、どのような環境でも動かせるプログラムを作るにはどのような言語で書けば良いでしょうか？

締切済み
Windows系OS

nsonoda
回答数1
2022/08/05 19:14

Perl 　スクレイピング処理について

以下のような構成のページから、前半２つの twitter ,facebook のみを　　process '#share_item ul li', 't_url' => '@href'; のような形で抜き出したいのですが、これだとtwitterからmixi までの情報を一気に取得してしまいます。 process '#share_item ul li', 'twi_url' => '@href'; process '#share_item ul li', 'fb_url' => '@href'; のように、それぞれ分けて取得するよい方法はありますでしょうか？ ----------(ここから)--------- <div id="share_item"> <ul> <li> <a href="http://twitter.com/share?text=（略）&via=test_mk" target="_blank" onclick="s_omni.trackSNS('twitter')"> <img src="http://aaa.com/btn1.gif" alt="twitterでつぶやく" /> </a> </li> <li> <a href="http://www.facebook.com/share.php?u=http://aaa.com/" target="_blank" onclick="s_omni.trackSNS('facebook')"><img src="http://www.aaa.com/common/btn2.gif" alt="facebookでシェア" /></a> </li> <li> <a href="mailto:?subject= 　　　　　　　　　　　　　　　　～（略）～alt=" 　　　　　　　　　　　　　　メールで知らせる" /> 　　　　　　　　　　　　　　</a> </li> <li> <a href="http://mixi.jp/recent_voice.pl?from=home_profile" target="_blank" onclick="s_omni.trackSNS('mixi')"> <img src="http://aaa.com/btn4.gif" alt="mixiで知らせる" /></a> </li> <li> <link rel="mixi-check-image" type="image/jpeg" href="http://aaa.com//img/site/3.jpg" /> <a href="javascript:void(0);" onclick="window.open('http://mixi.jp/share.pl?u=http://aaa.com/&k=cf6870bacc04932deb167c0ee0483894cf74249b','share',['width=632','height=456','location=yes','resizable=yes','toolbar=no','menubar=no','scrollbars=no','status=no'].join(','));"><img src="http://aaa.com/btn5.gif" alt="mixiチェック"></a> </li> </ul> </div> ----------(ここまで)--------- （２）これは補足的な質問なのですが、「#share_item ul li」のように # がつく記述と付かないパターンがあるのですが、この違い（#が必要な時）が不明です。ご存知の方、教えて頂ければ幸いです。

ベストアンサー
Perl

niko314
回答数2
2011/08/25 16:54

JSON をスクレイピングするときに

参考アドレス http://api.ce.nicovideo.jp/liveapi/v1/video.info?__format=json&v=lv262629172 http://api.ce.nicovideo.jp/liveapi/v1/video.info?__format=json&v=lv262502077 http://api.ce.nicovideo.jp/liveapi/v1/video.info?__format=json&v=lv260993313 スクレイピングでタグを取得するときに category は必須で、locked と free が両方あったり、片方無かったり、両方無かったりする場合にすべてのタグをうまく取得するにはどのようなコードを書けばよいですか。