スクレイピング　に関する質問

卒論のWebスクレイピングテーマ妥当性

卒論でアプリ開発を計画しています。テーマはWebスクレイピング技術を活用して、卒論の内容を活かせる就職候補先を選定してくれるアプリを作ることです。ですが、このテーマが本当に役立つものなのか、または意味があるのか自信が持てません。皆様のご意見をお聞かせいただけると嬉しいです。

締切済み
アプリ開発

OKW-C1415075
回答数2
2025/06/12 15:44

HTML DOM Parserで取得できない

PHP Simple HTML DOM Parserでスクレイピングをしているのですが、 $row = <<<EOF <a href="http://yahoo.co.jp">yahoo</a> EOF; $row = str_get_html($row); echo $row; // 表示される echo $row->href; // 表示されない上記の表示されない部分はどうやったらできますでしょうか？よろしくお願いします。

ベストアンサー
PHP

doshiroto33
回答数1
2014/12/23 20:04

PHPで他サイトを取り込んで解析

PHPで他のサイトを読み込んで、javascriptを実行した結果をsimple_html_dom.phpなどのライブラリで解析、スクレイピングすることは可能なのでしょうか？もしできるとしたらどのようなライブラリやフレームワークを使えば実現できますか？どうぞよろしくお願い致します。

ベストアンサー
PHP

suffre
回答数1
2014/09/23 20:24

ソースに表示されない部分があります

coconala(https://coconala.com/requests)というサイトをスクレイピングしたいのですが、明細部分(表示される40件)がソースには表示されないようです。 HTTP CSS などあまり詳しくないのですが、こういうことってあるんでしようか？どうなっているのか教えてください。

ベストアンサー
Visual Basic

okidsaya555
回答数5
2019/08/23 17:06

リアルタイムで数値をOCRで読み込みExcelへ

ウェブサイトの画像の変化する数字をExcelへリアルタイムで読み込みたいです。どんな方法がありますか？ちなみにWebサイトのスクレイピング以外でお願いします。出力先はExcelでなくても良いですが、簡単な計算をして結果を表示させたいです。

締切済み
その他(ソフトウェア)

nanndedanazoda
回答数2
2023/06/28 21:14

DL不可のものをDLすると違法？合法？

SlideShareのスライドの中でダウンロードできないようになっているスライドをスクレイピングによりダウンロードできるようにした、というホームページを見つけたのですが、 http://blogs.bizmakoto.jp/fukuyuki/entry/17012.html http://crazyworks.jp/slideshare_downloder/ これって著作権法にひっかからないのでしょうか？どうぞよろしくお願いいたします。

ベストアンサー
その他（法律）

ding2
回答数2
2016/09/20 06:31

Ruby Selenium　要素の待機

Rubyの初心者でSeleniumを使ってスクレイピングを趣味としてしているものです。ブラウザはchromeです。スクレイピングをしたいページで404が数回続き、やっと読み込めるサイトがあるので、404エラーで止まってしまうのである要素が無ければもう一度やり直す、そのようになったら初めからやり直してみる形にしたいと思って色々と調べ試行錯誤をしています。 https://www.qoosky.net/references/58/ を参考に require 'selenium-webdriver' driver = Selenium::WebDriver.for :chrome #chrome のdriverを設定 driver.navigate.to "http://google.com" wait = Selenium::WebDriver::Wait.new(:timeout => 10) # seconds begin element = wait.until { driver.find_element(:id => "hoge") } ensure driver.quit driver.navigate.to "http://google.com" end id、hogeが無ければもう一度読み直すような形でやってみたのですが全く意味をなしていないようです。何卒どうかご教授、よろしくお願いします。

ベストアンサー
Ruby

kann3589
回答数3
2014/08/19 20:44

PHPのphpQueryについて（初心者）

centosでphpQueryのスクレイピングという機能を利用するにはどうしたら良いのでしょうか？自分はまず、 wget https://phpquery.googlecode.com/files/phpQuery-0.9.5.386-onefile.zip unzip phpQuery-0.9.5.386-onefile.zip で展開した後、何をすれば良いかわからないので、知ってる人がいたら教えて貰えたらありがたいです。

締切済み
PHP

gg-funk
回答数1
2015/09/25 00:22

Selenium Type Library参照設定

Selenium Type Libraryを参照設定すると「DLL 読み込み時のエラーです」 https://lil.la/archives/3436 のページに記された手順でSeleniumBasicやChrome Driverをインストールし、VBEから「Selenium Type Library」を参照設定すると「DLL 読み込み時のエラーです」と表示されます。同じことを別のPCで試したところ、そちらではエラーが発生せず、実際にChromeからのWebスクレイピングに成功しました。 Excel自体の再インストールが必要なのでしょうか？

締切済み
その他（インターネット・Webサービス）

cookuroshiba
回答数1
2022/04/03 09:33

医療機能情報システムから取得した情報で情報サイト

https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/teikyouseido/index.html 厚生労働省が創設したサイトで、病院とかクリニックとかの情報を都道府県別にまとめたシステムが公開されているのですが、そちらからスクレイピングした情報を使って情報サイトを運営するのって大丈夫なのでしょうか。利用規約とかってどうにも苦手で…お手すきな方で代わりに読んで下さる方とかいらっしゃらないでしょうか

締切済み
その他（インターネット・Webサービス）

yamax011
回答数1
2023/11/20 16:39

Ruby Seleniumで文章の保存

こんばんは。当方Ruby初心者です。現在、Selenium Webdriverでスクレイピングをしており、その中でputs driver.page_sourceコマンドを使用しています。その際、putsコマンドで出力されたソースをPC内にファイルとして保存する事は可能でしょうか？また、可能な場合、どのようにして実行すれば良いのでしょうか。拙い質問ですが、どうかご教授の程、よろしくお願いします。

締切済み
Ruby

husho0105
回答数1
2014/07/10 19:17

NET.FrameWorkがインストールできない

エクセルVBAでEDGEスクレイピングをする環境を作りたいと思っています。 os:windows11 Selenium　→　インストール済 Microsoft Edge WebDriver　→　バージョン 117.0.2045.31インストール済 Microsoft Edge　→　バージョン 117.0.2045.31インストール済あとはNET.FrameWorkだけだと思いますが、StartEdge.vbsをダブルクリックすると添付画像のようなエラーが出てインストールできません。原因・対処法が分かる方がいましたら教えてください。

締切済み
Excel（エクセル）

rutohamuni2012
回答数3
2023/09/17 17:22

java window.openメソッド

ＶＢＡでＷＥＢスクレイピングに挑戦している初心者です。あるボタンをクリックするとポップアップのようなミニウィンドウが表示され、その内容をコピーしたいと考えています。そのリンクのソースを調べてみると、 window.open( url, name, features )メソッドにあたる部分があるのですが、解読ができません。以下のように記述です。 open('ajax10544','iframe','/maaaaat.cfm?id=10544','ネーム''フィーチャー') ※ローマ字数字は一部変更しています。これをＵＲＬのように直して、直接アクセスできるようにすることは出来ますでしょうか？よろしくお願いいたします。

ベストアンサー
JavaScript

kenthehg
回答数1
2015/04/14 13:06

チューンナップ用メタルブラシの出番

はじめてお世話になります。レーシングワックス（ホルメンコール，ハイブリッドFXレッド）を乗せる前にベースワックス（ホルメンコール，ベータミックスレッド）をスクレイピングし，メタルブラシ（TOKO社製）⇒ナイロンブラシ（同）とブラッシングをしていたところ，現役某大学競技スキー部員から「ストラクチャーが崩れるのでメタルブラシは使用せずに、ナイロンブラシからかけた方が良い。」とアドバイスされました。メタルブラシはホットワックス後の最初のブラッシングにとても重要なツールであると，どこかのHPでみたことがあり，実践しておりました。実際はどうなんでしょうか？

ベストアンサー
スキー・スノーボード

noname#17709
回答数1
2006/02/14 21:13

みささんなら、どのように作成しますか？

下記のサイトの機能をもったものを作成したいのですが、 http://lisket.jp/services/keyword_peeker/ その際、ＷＥＢスクレイピングで作成可能なのでしょうか？それとも他の方法があるのでしょうか？また、NET Windows C#プログラムで作成した方が容易なのか？作成方法、手順等みなさんのご意見を頂ければと思います。見識のある方、ご回答お願いします。質問者はプログラム知識がある前提でご回答を頂けれれば幸いです。

ベストアンサー
その他（プログラミング・開発）

高永了司
回答数1
2014/07/22 00:19

dos攻撃の基準について

スクレイピングの練習で、ブログサイトなどから記事ごとのコメントを取得するプログラムを作っています。サムネイルに５０の記事があるサイトですと、１度に５０回アクセスすることになります。作りながらプログラムを走らせて、修正をしてを繰り返していてふと気づいたのですが、５０回ほどプログラムを起動したので、数時間で２０００回くらいアクセスしたことになります。これって、DOS攻撃と間違えられてしまうのでしょうか。この量のアクセスはDOS攻撃の範疇に入るのでしょうか。ご教授いただけると幸いです。

ベストアンサー
ネットワーク

takata2223
回答数2
2017/01/26 03:14

kimonoで取得したjsonファイルの出力

kimonoで取得したjsonファイルの出力以下のサイトを使用してスクレイピングしたjsonファイルをphpで表示させようとしたのですが、何も表示されません。助言をお願いします。 http://www.kimonolabs.com/ //jsonファイル { "name": "kokunai", "results": { "collection1": [ { "info": "【運航概況】\n本日4日および明日5日の運航状況は、以下のとおりです。" } ] } } //php記述 <?php $request = "http://www.kimonolabs.com/api/kimonoユーザID?apikey=APIキー"//URLの中身は上記jsonファイルと同一 $response = file_get_contents($request); $results = json_decode($response, TRUE); echo $results['results']['collection1'][info]; ?>

ベストアンサー
PHP

noname#244681
回答数1
2014/05/05 06:42

メソッドから値を引っ張ってこれない。

phpのgoutteを使用して、下記ソースを記述しました。スクレイピング対象のHTTPアドレスの記述に間違いはありません。 ※アドレスはダミーです。ただ、elementオブジェクトから、 nodeValueの値を引っ張れないのです。 ■phpソース <?php require_once 'goutte.phar'; use Goutte\Client; $crawler = $client->request('GET', 'http://www.test.xml'); $crawler->filter('item')->each(function($element) { echo $element->nodeValue; }); ?> ■スクレイピング先ソース <rss version="2.0"> <channel> <item> <title>タイトル1</title> <category>本1</category> <link>http://www.test.co.jp/book/book1/</link> <description>本1について詳細を説明します。</description> <pubDate>2015-01-09</pubDate> </item> <item> ：以降繰り返し： </iem> </channel> </rss> ■エラー内容 PHP Notice: Undefined property: Symfony\\Component\\DomCrawler\\Crawler::$nodeValue in /php配置ディレクトリ/Test.php ■$erementのvar_dump出力結果 object(Symfony\Component\DomCrawler\Crawler)#908 (4) { ["storage":"SplObjectStorage":private]=> array(1) { ["000000005a6bd4e800000000d42c592e"]=> array(2) { ["obj"]=> object(DOMElement)#19 (18) { ["tagName"]=> string(4) "item" ["schemaTypeInfo"]=> NULL ["nodeName"]=> string(4) "item" ["nodeValue"]=> string(286) " タイトル1 本1 http://www.test.co.jp/book/book1/ 本1について詳細を説明します。 2015-01-09 " } ["inf"]=> NULL } } nodeValueで値を拾えない原因がわからないのです。 var_dumpで確認したところ、nodeValueに値が存在しているように見えていることは確認できています。(Stringの数値286はダミーです) requireが足りないのでしょうか。それともアクセスの方法が間違っているのでしょうか。ご教示よろしくお願いいたします。

ベストアンサー
PHP

ShiftTail
回答数1
2015/01/10 00:36

さくらのレンタルサーバーでyumが使えない

さくらインターネットのレンタルサーバーでPHPで組んだサイトを作っています。 WEBページを解析するスクレイピングに「tidy」が便利であるとのことでしたので、 http://dozo.matrix.jp/pecl/tidy などを参照しながらインストールを進めましたがうまくいきません。「phpize」のところで　「Cannot find libtidy」と出てきたため、 libtidyをインストールするためにyumコマンドを使おうと思いましたが、「yum: command not found」となってしまいました。 yumコマンドを利用できる方法はありませんでしょうか？もしくは「tidy」をインストールする他の方法はありませんでしょうか？よろしくお願いします。

締切済み
PHP

kan-chi
回答数3
2013/03/04 14:06

rubyであるサイトのデータを自動でつぶやくbot

http://www.sanabo.com/words/ 上記サイトから言葉を拾ってきて、つぶやかせるという自動botを考えてます。流れとしては、サイト上からスクレイピングしデータを切り取り(nokogiri)、それをハッシュ？の中に格納して、その値の中からランダムにつぶやかせる。という感じかなと思ってます。 ※TwitterのAPIはなんとか大丈夫です。ですが、2点疑問があります。 01) サイト見てみると、「あ」…「お」など言葉がディレクトリごとに分かれており、どうやってアクセスして切り取ってくるのか不明？正規表現とか使うのでしょうか？ 02) どういうふうにハッシュの中に値を入れるのか？ご教授いただけますでしょうか？よろしくお願いいたします。