• 締切済み

Webスクレイピングに適している言語は?

複数のクライアントからサーバー経由で平行してスクレイピングをする場合、適している言語・フレームワークは何でしょうか?

みんなの回答

  • notnot
  • ベストアンサー率47% (4848/10262)
回答No.2

対象ページがJavaScriptを使って作られていないのであれば、言語は何でも良いので、自分の得意な物でいいでしょう。 JavaScriptで作られたページなら、ブラウザを起動してそれをコントロールするということが必要なので、例えばSeleniumライブラルを使うならそれが出来る言語としては、Java/Python/Rubyでしょうか。 フレームワークは何でも良いです。

回答No.1

何が適してるかより、何が使えるかの方が重要かもですね。 抜きポイントが、ピンポイントの場合、 strstrで文字抜きしたほうが、手っ取り早いですし。 DOM再構築まで考えると、階層構造も吸ったほうがいいわけですが。 こちらでは、そのまんまPHPをつかってますよ。 (自作の、HTML分解エンジンで分解してます) ローカルで、Jqueryで分解するのもありかもしれません。 (実際作ったとき、そう感じたので^^) あれなら、最初から分解済みですから、キーとなるIDなりCLASSから 割と簡単に据えますしね。。 で、すい終わったらそれを、サーバーにPOSTするまでを一本化したほうが 早かったかな。。って気持ちはありましたね。。(ここは余談)

関連するQ&A

  • Google検索結果に対して、スクレイピングを実行

    Google検索結果に対して、スクレイピングを実行したい。 Webサイト上で、JavaScriptなどの処理で、 バックグラウンドでGoogleカスタム検索などを使用して、 複数サイトに対して検索後、Googleの検索結果に対して、 データを加工して、サイト上に一覧表示したいと考えております。 サーバー負荷を考慮して、クライアントサイドスクリプトのJavaScriptを 検討しておりますが、他に最適な言語はありますでしょうか? 【質問まとめ】 1.スクレイピングの実行処理をサイト閲覧者に分からないようにバックグラウンドで実行する事は可能でしょうか? 2.Google検索結果に対して、データを加工する事は可能でしょうか? 3.サーバ負荷が掛かりにくい最適な言語について 以上、ご教示頂けますと幸いです。 宜しくお願い致します。

  • プログラム言語について質問です。よろしくお願いします。

    プログラム言語について質問です。よろしくお願いします。 CakePHPなどのフレームワークを使ってサイトを作ったとして、 その上で、Visual Basicなど他の言語で作ったアプリケーションは動作するのでしょうか? サーバー側は、使える言語が限られていると思うので、その辺がわからないのですが。 通常は、サーバー側PHP,クライアント側javascriptで連携して作成すると何かの雑誌で読んだのですが、それでは、リアルタイムなソフトは出来ないと思うし。

  • GASでのWEBスクレイピング

    業務効率化のため、以下の記事を参考に GASでのWEBスクレイピングを試してみましたが POSTのUrlFetchApp.fetchでエラーとなってしまいます。 ◯参考記事 http://katsulog.tech/get-the-source-after-logging-in-to-the-site-when-scraping-with-googlespreadsheet/ ◯エラー内容 https://www.fc-hikaku.net/client/sessions のリクエストに失敗しました(エラー: 422) ◯実施したいサイト(ログインページ) https://www.fc-hikaku.net/client そもそもログインができていないと思われるのですが GASにおいてエラーの切り分けなどの仕方もわからず 詳しい方にご助力いただきたいです。 参考記事内のサンプルは正常に動作しております。 宜しくお願いします。

    • ベストアンサー
    • Java
  • 独自ドメインがスクレイピングされました。

    独自ドメインがスクレイピングされました。スクレイピングされたサイトはhost.ioです。APIも公開されています。移管する予定のドメイン会社に問い合わせしてみた所、スクレイピング対策はしていない、質問する場を探すならYahooかGoogleで検索と行っても内容的にドメインもしくはサーバー会社で対策しないとダメなような理由は→APIがLinuxコマンド用。ほぼ個人で出来る事柄があればやりますの段階です。 また、詳しい人でも回答が出来ない内容なのであれば、適切に質問出来るサイトを探しています。よろしくお願いいたします。問題のAPI hxxps://host.io/docs#authentication ※画像に出ているサーバー名の部分は既に解約済み。

  • WEBのプログラミング言語

    hiroです。 今、会社でWEB画面を作ろうと思っているのですが、 下記の条件があって、どの言語を使用するか、困っています。 使用したことがあるのがVBA,VB,VB.NET等ありますが、 お勧めのプログラミング言語を教えてください。 よろしくお願いします。 条件 (1)クライアント側のPCのOS種類がXPとWindows2000 (2)クライアント側はダウンロード 禁止 (3)サーバー側Windows Server 2008+Oracle 11g

    • ベストアンサー
    • CSS
  • 単体で動くプログラム(スクレイピング)

    Pythonでスクレイピングなどのプログラムの経験はありますが、そのプログラムを動作させるには、動作環境やライブラリなどが適正な場所にインストールされていることが前提となります。WIndowsならば、どのような環境でも動かせるプログラムを作るにはどのような言語で書けば良いでしょうか?

  • WEBサイトの設計を学びたい

    プロでは無いですが、社内向けのちょっとしたWEBアプリというかサービスを作成したいと考えています。 やることは今のところ大したこともなく、既存の改変がメインなのですが、 ある程度余裕を見て設計なども勉強したいと考えております。 言語レベルと上流レベルはある程度学習の目処がたったのですが、 実装に近いレベルの設計をどうやって学ぶか少々悩んでいます。 フレームワークを使う場合でもサーバサイド、クライアントサイドそれぞれ作る場合でも構いませんので、 ある程度キレイに拡張できるような設計手法を学ぶための参考サイト、書籍を教えて下さい。 可能であれば特定の言語や環境に依存しない、考え方的な部分を学べるものが良いです。

  • WEBの開発言語について

    hiroです。 現在、社内だけで使用するWEB画面を作る予定です。 内容は表一覧(住所一覧みたいなもの)、グラフを表示する程度です。 以前、1度質問させてもらい、以下の項目で検討していますが、(3)しかないのかなと思っています。 希望としましては(1)とか(4)を使用したいのですが…。 本とか、インターネットで調べたのですが、認識があっているのか不安です。 認識が間違っている箇所、もっとお勧めの言語があれば、教えてください。よろしくお願いします。 (1)ASP.NET:クライアント側にWindows2000があって、ASP.NETの画面は表示できないと思っています。(FrameWorksが入れられないため) × (2)Javascript: DB接続ができないので、これだけでは不足 (3)PHP:クライアント側に影響されない ○ (4)JAVA: 全てのクライアント側にはMS Javaが入っているが、Sunはダウンロードできないので、今後使えなくなるのではと不安に思ってます。 × 条件 (1)クライアント側のPCのOS種類がXPとWindows2000 (2)クライアント側はダウンロード 禁止(社内で禁止されています) (3)サーバー側Windows Server 2008+Oracle 11g

  • 異なる言語間でのソケット通信について

    簡単なネットワークプログラムを作成して、ソケット通信の確認をしています。 クライアントとサーバが両方ともにC++の場合と、両方ともにJavaの場合で、正常に通信が行われていることは確認しました。 そこで、クライアントでC++のプログラムを動かし、サーバでJavaのプログラムを動かしてみたのですが、うまくいきませんでした。 (ポート番号を合わせたので、相互接続は出来てるみたいですが、データが渡ってきませんでした。OSはクライアント/サーバともに、Windowsです。) 言語が異なる場合の、ソケット通信について良いサイトをご存知でしたら、教えていただけないでしょうか?

    • ベストアンサー
    • Java
  • GASスクレイピング ログイン毎回必要か

    GASでスクレイピングを行いたいと思います。 pythonででスクレイピングを行う場合、ログインが必要なサイトの場合には、(すでにブラウザでログインしていてもそのログインは有効とならず)seleniumを用いて、毎回ログインする必要があると思います。 GASでparserなどを活用してスクレイピングを行う場合、ログインが必要なサイトの場合には、やはりログインの部分を作成する必要があるのでしょうか(ネットで見るとちょっと私には高度なので)。 ログインしている状態で、そのまま見に行ってくれるわけにはいかないものなのでしょうか。 (実際にやってみろと言われそうですが)