• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:プロキシ設定&HTMLパースの方法)

プロキシ設定&HTMLパースの方法

このQ&Aのポイント
  • PHPを使用して別のサイトからHTMLをパースする方法についての質問です。プロキシを使用する場合の手順も知りたいです。
  • HTMLパースに関してはPEARを使用することを勧められましたが、何をするべきか分かりません。他の方法も調べる時間がありません。
  • 処理としては、質問サイトの回答を全て取り出し、CSVに出力したいです。方法をご存知の方は教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • yambejp
  • ベストアンサー率51% (3827/7415)
回答No.2

ポイントは3つ (1)質問ページを探す (2)質問内容と回答をきりだす →回答は一つとは限らない →サイトによってどこの部分が質問で回答なのか見極められる? (3)質問部分と回答部分を保存・データ管理する どこがわからないのでしょうか? とくに(1)はすでに解決されていないならクローラとしてのロジックは かなり面倒ですよ

non05410
質問者

お礼

回答ありがとうございます! 結局、調べているとあちこちで書かれていた「Simple HTML DOM Parserというライブラリを使用することでなんとかやれそうです。 現在はプロキシの取得方法でまた悩まされていますが、こちらは自分で考えてみたいと思います! このような質問に回答頂きありがとうございました!

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • shimix
  • ベストアンサー率54% (865/1590)
回答No.1

>何をして良いのか全くわからずにいます。 まずは「php html parse」で検索してみるといいんじゃないでしょうか

non05410
質問者

補足

もちろん検索に関しては行いましたが、多数の方法が表示されるため、どの方法が良いのか分からずにいます。 お恥ずかしい話ですが、プログラマとしてまだ経験が浅いため、検索で出てきた方法をひとつひとつを確かめていると大変時間を要すると思い今回質問させて頂きました。 時間があればひとつひとつ調べてみたいとは思うのですが、今回与えられた時間が短いため、適切な方法をすぐに調べる必要がありました。 質問が不適切で申し訳ありません。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • vbaでieのプロキシ設定を変更する方法

    VBAからIEを操作し、サイトを閲覧する処理を作成しています。 質問はサイトを閲覧する処理の前にプロキシ設定を行い、サイト閲覧処理が終われば、プロキシ設定を無効に戻したいのですが、方法がわからないので、ご教授いただきたくm(_ _)m

  • プロキシの設定

    チャツトするときにプロバイダー名が出てしまいます。 みんなはプロクシでプロバイダー名が出ていないのに 別な記号か何かで表示できないでしょうか。教えてください。 ネツトはルーター経由でつながっているため、プロキシが使えません。プロキシ以外の方法で何かあれば教えてください。よろしくお願いします。 ルーターのメーカーに質問すると、別々の二人の担当者が、「ルーターには プロクシは使えない ルーターとはそういうものだ・・」と回答されたんですが・・

  • パースなどを教えてくれる学校

    マンガで使うパース(透視法)の考え方を詳しく教えてくれる学校というのは、ないでしょうか? 別にプロになりたいとかそういうことじゃないのです。ただ、空間的なものの考えが元々苦手なのでパースがわからないと、趣味のマンガを描くのにとても時間がかかっていくら時間があっても足りず、パースの本を読んだのですがどうにも理解できない部分が出てきまして。 そういう知識がある知り合いが周りに誰もいないし、ネットなどでこちらのような質問サイトで質問をするにもやはり実際に疑問に思った絵などを見てもらわないとわからない部分が多々ありまして。 短期間でマンガのパースなどを教えてくれる機関というのはあるものなのでしょうか?また、あるとしたら金額はいくらぐらいかかるのでしょうか? 教えてください。

  • プロキシ設定

    何処で質問したものかまよったのですが、自分が使用しているPCのOSがXPなのでこちらで… IE6とOpera9を使っているのですが、プロキシの設定方法がいまいち分かりません。 設定できる時と出来ない時があるのが分かりません。 なので、設定の説明をしているサイトなどあれば教えてください。 プロキシが何かなどの基礎知識などはあるのですが、利用方法が分かっていません。 あと、出来ればですが、自動設定の方法も知りたいです。 自分で設定をかけるようになりたいです。 合わせてお願いします。

  • プロキシの設定

    ひょんなきっかけから普段のインターネットをする際プロキシサーバーを経由して接続する方法をしり、後学の為に実際やって見たのですがどうしても出来ません。 色々サイトを見て、試してみたのですがどうも変更されていないようなんです。方法としてはhttp://www.proxyforest.com/ このサイトでプロキシを拾ってきて、同様に上記サイトで拾ったプロキシを一発設定するツールを試してみたり、インターネットオプション⇒接続⇒LANの設定 で設定して『診断君』というサイトで検証してみるのですが、 自分の使ってるプロバイダとコマンドプロンプト⇒ipconfigで調べたipアドレスがそのまま表示されてしまいます。 現在の環境なのですが、 windows xpでフレッツ光×ocnを使っています。自宅にあるのはONUだけです。 ipconfigで出てくるのは 下記の様になっています Windows IP Configuration Ethernet adapter{567B2310-****-****-****-********} Media State.............:Media disconected PPP adapter {*********-****-****-****-********} Connection-speciefic DNS Suffix:     IP Address.....................:118.*.***.*** subnet Mask....................:225.225.***.*** Default Gateway................:118.*.***.*** となっております。 ちょっと漠然とした質問になってしまったのですが、 どなたか教えていただければ助かります。 宜しくお願いします!!!

  • プロキシ設定について

    現在 色んなアンケートサイトに登録し、アンケートに参加していますが、今回 あるアンケートサイトの要望でプロキシの設定をしました。 設定は下記の手順で行ないました。 インターネットを起動し、「ツール」~「インターネットオプション」~「接続」~「LANの設定」~「プロキシサーバー」~「アドレス」と「ポート」を入力。 ※この「アドレス」と「ポート」はアンケートサイトから指定されたものを入力しています。 プロキシサーバーの「LANにプロキシサーバーを使用する」のチェックを入れた状態で色んなサイトにアクセスすると、下記の画面が表示されます。 Proxy.○○○.jpに接続→(○はアンケートサイト名なので表記できません) ○○○ auth ユーザー名 パスワード ユーザー名とパスワードは、私が登録しているサイトのユーザー名とパスワードを入力すれば、アクセスしたいサイトにアクセスが可能になります。 ただ 色んなサイトにアクセスしたい時、いちいちユーザー名とパスワードを入力するのは面倒なので、これを記憶させる設定方法があると思い、パソコンメーカーとアンケートサイトに質問してみましたが、解決には至りませんでした。 ちなみに もう1台のパソコン(Vista)も同じ手順でプロキシの設定をしましたが、こちらはユーザー名とパスワードは記憶されており(自分で設定した記憶はありませんが)、いちいち入力する必要はありません。 只今 Vistaは修理に出しており、今はXPで作業をしていますので、XPでの設定が必要です。 Windowsの機能に「オートコンプリート」という機能があるようですが・・・プロキシを設定した場合も、この機能と同じ設定をすれば良いのでしょうか?

  • VBAでJSONをパースする方法について

    VBAでJSONをパースしたく、以下サイトを参考に実装しています。 http://kenchanz.blogspot.com/2011/01/vbajson.html こちらのサイトで記述されている形式のJSONデータをパースすることはできたのですが、 今回パースしたい以下データのアクセス方法を見つけることができません。 ■パースしたいJSONデータ {"lists":[{"KEY":{"NAME":"yamada"}},{"KEY":{"NAME":"hanako"}}]} ■取得したい値 最終的にはlistsキーの値となっている配列に対して、 ループ処理を行い、NAMEキーの値であるyamadaや、hanakoを取得したい ■実装方法 Set objJSON = sc.CodeObject.jsonParse(JSONデータ) Set objJSON2 = objJSON.lists ここまでは動くのですが、以降がわかりません。 有識者の方、どうぞアドバイスを頂けますようお願いいたします。

  • JavascriptでHTMLをパースするライブラリの使い方

    javascriptでHTMLをパースして、DOMに変換してくれるライブラリを探していたら以下のサイトにたどり着きましたが使い方がわかりません。 http://ejohn.org/blog/pure-javascript-html-parser/ サイトの中段あたりに、 「DOM Document Creator」 というところのサンプルのように、 <script src="htmlparser.js"></script> で外部ファイルをちゃんと読み込んで、 var dom = HTMLtoDOM("<p>Data: <input disabled>"); のようにすると、 domという変数にHTMLtoDOMの引数がDOMに変換されて 格納されるはずなんですが・・・ FirefoxでHTMLtoDOM is not defined とエラーがでてしまいます。 見識ある方、このライブラリを使用する方法を教えていただきたいです。

  • HTMLを解析し一部書き換えたい

    お世話になります。 javaでプロキシー処理をするプログラムを書いているのですが、HTMLの書き換えで困っていますのでお力をお貸しください。 タグの書き換えをする為、jsoupでHTMLを解析しているのですが、「&」が「&amp;」に変換されてしまいます。 Jsoupで上記のような変換がされないようにするにはどうしたら良いのでしょうか? もしそのような方法が無いのであれば他のパーサーでも構いません。 タグを抜き出して内容を書き換えるサンプルを教えて頂けないでしょうか。 HTMLパーサーとしてJsoupの他に、HtmlCleaner、NekoHTML、Jericho、HTML Parserがあるのは分かっているのですが、タグの抽出方法はサンプルが有っても、書き換え方法のサンプルは見つけることができず使えませんでした。 全てを試した訳ではありませんが、Jerichoはパースして、結果のHTMLを出力させるとJsoupと同じような変換はされなかったので、できればJerichoでタグの置換をするサンプルがあると嬉しいです。 よろしくお願いします。 【やりたいこと】 タグの置き換え(Aタグ等で指定されたリンクを書き換えたい) 【できていること】 jsoupでHTMLをパースし、タグの置換をしています。 【困っていること】 意図せず内容がエンコードされてしまう。 <meta http-equiv="Refresh" content="0; URL=https://xxx.yyy.com/index.html?a=1&b=2" /> ↓ <meta http-equiv="Refresh" content="0; URL=https://xxx.yyy.com/index.html?a=1&amp;b=2" /> 例) String doc = "<HTML>・・・"; Document doc = Jsoup.parse(doc); System.out.println("doc.outerHtml:\n" + doc.outerHtml()); System.out.println("doc.toString:\n" + doc.toString()); 上記でdoc.outerHtml()もdoc.toString()も「&」が「&amp;」に変換されてしまいます。

    • ベストアンサー
    • Java
  • ADSLで、プロキシの設定が有効にならない

    接続環境がADSLなんですが、 IEのプロパティ→接続(タブ)→LANの設定 で 「プロキシ サーバー」の箇所にチェックマークを入れ、 アドレスとポートを入力したんですが 環境変数を確認できるサイトでチェックした見たところ、 どうもそれが有効になっていないようです。 (自分自身のIPアドレスが表示されている。) 何か別の方法があるのでしょうか? 良い方法をご存知の方、教えて下さい。

    • ベストアンサー
    • ADSL