検索結果
スクレイピング
- 全てのカテゴリ
- 全ての質問
- 卒論のWebスクレイピングテーマ妥当性
卒論でアプリ開発を計画しています。テーマはWebスクレイピング技術を活用して、卒論の内容を活かせる就職候補先を選定してくれるアプリを作ることです。ですが、このテーマが本当に役立つものなのか、または意味があるのか自信が持てません。皆様のご意見をお聞かせいただけると嬉しいです。
- 締切済み
- アプリ開発
- OKW-C1415075
- 回答数2
- HTML DOM Parserで取得できない
PHP Simple HTML DOM Parserでスクレイピングをしているのですが、 $row = <<<EOF <a href="http://yahoo.co.jp">yahoo</a> EOF; $row = str_get_html($row); echo $row; // 表示される echo $row->href; // 表示されない 上記の表示されない部分はどうやったらできますでしょうか? よろしくお願いします。
- ベストアンサー
- PHP
- doshiroto33
- 回答数1
- PHPで他サイトを取り込んで解析
PHPで他のサイトを読み込んで、javascriptを実行した結果をsimple_html_dom.phpなどのライブラリで解析、スクレイピングすることは可能なのでしょうか? もしできるとしたらどのようなライブラリやフレームワークを使えば実現できますか? どうぞよろしくお願い致します。
- ソースに表示されない部分があります
coconala(https://coconala.com/requests)というサイトをスクレイピングしたいのですが、明細部分(表示される40件)がソースには表示されないようです。 HTTP CSS などあまり詳しくないのですが、こういうことってあるんでしようか?どうなっているのか教えてください。
- ベストアンサー
- Visual Basic
- okidsaya555
- 回答数5
- リアルタイムで数値をOCRで読み込みExcelへ
ウェブサイトの画像の変化する数字をExcelへリアルタイムで読み込みたいです。 どんな方法がありますか? ちなみにWebサイトのスクレイピング以外でお願いします。 出力先はExcelでなくても良いですが、簡単な計算をして結果を表示させたいです。
- 締切済み
- その他(ソフトウェア)
- nanndedanazoda
- 回答数2
- DL不可のものをDLすると違法?合法?
SlideShareのスライドの中で ダウンロードできないようになっているスライドをスクレイピングによりダウンロードできるようにした、 というホームページを見つけたのですが、 http://blogs.bizmakoto.jp/fukuyuki/entry/17012.html http://crazyworks.jp/slideshare_downloder/ これって著作権法にひっかからないのでしょうか? どうぞよろしくお願いいたします。
- Ruby Selenium 要素の待機
Rubyの初心者でSeleniumを使ってスクレイピングを趣味としてしているものです。 ブラウザはchromeです。 スクレイピングをしたいページで404が数回続き、やっと読み込めるサイトがあるので、404エラーで止まってしまうのである要素が無ければもう一度やり直す、そのようになったら初めからやり直してみる形にしたいと思って色々と調べ試行錯誤をしています。 https://www.qoosky.net/references/58/ を参考に require 'selenium-webdriver' driver = Selenium::WebDriver.for :chrome #chrome のdriverを設定 driver.navigate.to "http://google.com" wait = Selenium::WebDriver::Wait.new(:timeout => 10) # seconds begin element = wait.until { driver.find_element(:id => "hoge") } ensure driver.quit driver.navigate.to "http://google.com" end id、hogeが無ければもう一度読み直すような形でやってみたのですが全く意味をなしていないようです。 何卒どうかご教授、よろしくお願いします。
- PHPのphpQueryについて(初心者)
centosでphpQueryのスクレイピングという機能を利用するにはどうしたら良いのでしょうか? 自分はまず、 wget https://phpquery.googlecode.com/files/phpQuery-0.9.5.386-onefile.zip unzip phpQuery-0.9.5.386-onefile.zip で展開した後、何をすれば良いかわからないので、知ってる人がいたら教えて貰えたらありがたいです。
- Selenium Type Library参照設定
Selenium Type Libraryを参照設定すると「DLL 読み込み時のエラーです」 https://lil.la/archives/3436 のページに記された手順でSeleniumBasicやChrome Driverをインストールし、VBEから「Selenium Type Library」を参照設定すると「DLL 読み込み時のエラーです」と表示されます。同じことを別のPCで試したところ、そちらではエラーが発生せず、実際にChromeからのWebスクレイピングに成功しました。 Excel自体の再インストールが必要なのでしょうか?
- 締切済み
- その他(インターネット・Webサービス)
- cookuroshiba
- 回答数1
- 医療機能情報システムから取得した情報で情報サイト
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/teikyouseido/index.html 厚生労働省が創設したサイトで、病院とかクリニックとかの情報を都道府県別にまとめたシステムが公開されているのですが、そちらからスクレイピングした情報を使って情報サイトを運営するのって大丈夫なのでしょうか。 利用規約とかってどうにも苦手で…お手すきな方で代わりに読んで下さる方とかいらっしゃらないでしょうか
- 締切済み
- その他(インターネット・Webサービス)
- yamax011
- 回答数1
- Ruby Seleniumで文章の保存
こんばんは。 当方Ruby初心者です。 現在、Selenium Webdriverでスクレイピングをしており、 その中でputs driver.page_sourceコマンドを使用しています。 その際、putsコマンドで出力されたソースをPC内にファイルとして保存する事は可能 でしょうか?また、可能な場合、どのようにして実行すれば良いのでしょうか。 拙い質問ですが、どうかご教授の程、よろしくお願いします。
- NET.FrameWorkがインストールできない
エクセルVBAでEDGEスクレイピングをする環境を作りたいと思っています。 os:windows11 Selenium → インストール済 Microsoft Edge WebDriver → バージョン 117.0.2045.31インストール済 Microsoft Edge → バージョン 117.0.2045.31インストール済 あとはNET.FrameWorkだけだと思いますが、StartEdge.vbsをダブルクリックすると添付画像のようなエラーが出てインストールできません。 原因・対処法が分かる方がいましたら教えてください。
- 締切済み
- Excel(エクセル)
- rutohamuni2012
- 回答数3
- java window.openメソッド
VBAでWEBスクレイピングに挑戦している初心者です。 あるボタンをクリックするとポップアップのようなミニウィンドウが表示され、その内容をコピーしたいと考えています。 そのリンクのソースを調べてみると、 window.open( url, name, features )メソッドにあたる部分があるのですが、解読ができません。 以下のように記述です。 open('ajax10544','iframe','/maaaaat.cfm?id=10544','ネーム''フィーチャー') ※ローマ字数字は一部変更しています。 これをURLのように直して、直接アクセスできるようにすることは出来ますでしょうか? よろしくお願いいたします。
- ベストアンサー
- JavaScript
- kenthehg
- 回答数1
- チューンナップ用メタルブラシの出番
はじめてお世話になります。 レーシングワックス(ホルメンコール,ハイブリッドFXレッド)を乗せる前にベースワックス(ホルメンコール,ベータミックスレッド)をスクレイピングし,メタルブラシ(TOKO社製)⇒ナイロンブラシ(同)とブラッシングをしていたところ,現役某大学競技スキー部員から「ストラクチャーが崩れるのでメタルブラシは使用せずに、ナイロンブラシからかけた方が良い。」とアドバイスされました。 メタルブラシはホットワックス後の最初のブラッシングにとても重要なツールであると,どこかのHPでみたことがあり,実践しておりました。 実際はどうなんでしょうか?
- ベストアンサー
- スキー・スノーボード
- noname#17709
- 回答数1
- みささんなら、どのように作成しますか?
下記のサイトの機能をもったものを作成したいのですが、 http://lisket.jp/services/keyword_peeker/ その際、WEBスクレイピングで作成可能なのでしょうか? それとも他の方法があるのでしょうか? また、NET Windows C#プログラムで作成した方が容易なのか? 作成方法、手順等みなさんのご意見を頂ければと思います。 見識のある方、ご回答お願いします。 質問者はプログラム知識がある前提でご回答を頂けれれば幸いです。
- ベストアンサー
- その他(プログラミング・開発)
- 高永 了司
- 回答数1
- dos攻撃の基準について
スクレイピングの練習で、ブログサイトなどから 記事ごとのコメントを取得するプログラムを作っています。 サムネイルに50の記事があるサイトですと、1度に50回アクセスすることになります。 作りながらプログラムを走らせて、修正をしてを繰り返していてふと気づいたのですが、 50回ほどプログラムを起動したので、数時間で2000回くらいアクセスしたことになります。 これって、DOS攻撃と間違えられてしまうのでしょうか。 この量のアクセスはDOS攻撃の範疇に入るのでしょうか。 ご教授いただけると幸いです。
- ベストアンサー
- ネットワーク
- takata2223
- 回答数2
- kimonoで取得したjsonファイルの出力
kimonoで取得したjsonファイルの出力 以下のサイトを使用してスクレイピングしたjsonファイルをphpで表示させようとしたのですが、何も表示されません。助言をお願いします。 http://www.kimonolabs.com/ //jsonファイル { "name": "kokunai", "results": { "collection1": [ { "info": "【運航概況】\n本日4日および明日5日の運航状況は、以下のとおりです。" } ] } } //php記述 <?php $request = "http://www.kimonolabs.com/api/kimonoユーザID?apikey=APIキー"//URLの中身は上記jsonファイルと同一 $response = file_get_contents($request); $results = json_decode($response, TRUE); echo $results['results']['collection1'][info]; ?>
- ベストアンサー
- PHP
- noname#244681
- 回答数1
- メソッドから値を引っ張ってこれない。
phpのgoutteを使用して、下記ソースを記述しました。 スクレイピング対象のHTTPアドレスの記述に間違いはありません。 ※アドレスはダミーです。 ただ、elementオブジェクトから、 nodeValueの値を引っ張れないのです。 ■phpソース <?php require_once 'goutte.phar'; use Goutte\Client; $crawler = $client->request('GET', 'http://www.test.xml'); $crawler->filter('item')->each(function($element) { echo $element->nodeValue; }); ?> ■スクレイピング先ソース <rss version="2.0"> <channel> <item> <title>タイトル1</title> <category>本1</category> <link>http://www.test.co.jp/book/book1/</link> <description>本1について詳細を説明します。</description> <pubDate>2015-01-09</pubDate> </item> <item> :以降繰り返し : </iem> </channel> </rss> ■エラー内容 PHP Notice: Undefined property: Symfony\\Component\\DomCrawler\\Crawler::$nodeValue in /php配置ディレクトリ/Test.php ■$erementのvar_dump出力結果 object(Symfony\Component\DomCrawler\Crawler)#908 (4) { ["storage":"SplObjectStorage":private]=> array(1) { ["000000005a6bd4e800000000d42c592e"]=> array(2) { ["obj"]=> object(DOMElement)#19 (18) { ["tagName"]=> string(4) "item" ["schemaTypeInfo"]=> NULL ["nodeName"]=> string(4) "item" ["nodeValue"]=> string(286) " タイトル1 本1 http://www.test.co.jp/book/book1/ 本1について詳細を説明します。 2015-01-09 " } ["inf"]=> NULL } } nodeValueで値を拾えない原因がわからないのです。 var_dumpで確認したところ、nodeValueに値が存在しているように見えていることは確認できています。(Stringの数値286はダミーです) requireが足りないのでしょうか。 それともアクセスの方法が間違っているのでしょうか。 ご教示よろしくお願いいたします。
- さくらのレンタルサーバーでyumが使えない
さくらインターネットのレンタルサーバーでPHPで組んだサイトを作っています。 WEBページを解析するスクレイピングに「tidy」が便利であるとのことでしたので、 http://dozo.matrix.jp/pecl/tidy などを参照しながらインストールを進めましたがうまくいきません。 「phpize」のところで 「Cannot find libtidy」と出てきたため、 libtidyをインストールするためにyumコマンドを使おうと思いましたが、「yum: command not found」となってしまいました。 yumコマンドを利用できる方法はありませんでしょうか? もしくは「tidy」をインストールする他の方法はありませんでしょうか? よろしくお願いします。
- rubyであるサイトのデータを自動でつぶやくbot
http://www.sanabo.com/words/ 上記サイトから言葉を拾ってきて、つぶやかせるという自動botを考えてます。 流れとしては、サイト上からスクレイピングしデータを切り取り(nokogiri)、それをハッシュ?の中に格納して、その値の中からランダムにつぶやかせる。という感じかなと思ってます。 ※TwitterのAPIはなんとか大丈夫です。 ですが、2点疑問があります。 01) サイト見てみると、「あ」…「お」など言葉がディレクトリごとに分かれており、どうやってアクセスして切り取ってくるのか不明?正規表現とか使うのでしょうか? 02) どういうふうにハッシュの中に値を入れるのか? ご教授いただけますでしょうか? よろしくお願いいたします。
- ベストアンサー
- Ruby
- sho27_2009
- 回答数2
