• ベストアンサー

webページの内容取得の方法

はじめまして。 私は今、Webページの内容を取り出し、Webページのジャンル(傾向)を取得したいと考えています。 しかし、初心者のため何から勉強したらいいのかわかりません。 自分でも調べてみたのですが、これは、統計、クラスタリングの部類に入るのでしょうか?恥ずかしながら、全く分からなくて・・・ これからどんなことを勉強すべきか、 またもし参考になる本やサイトなどもあれば、お教えいただけると嬉しいです。 よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • Oh-Orange
  • ベストアンサー率63% (854/1345)
回答No.2

★まずは Web ページ(HTML)ソースを取得することですね。 ・過去に参考になる質問があります。 ・http://oshiete1.goo.ne.jp/qa2630445.html→『InternetReadFileで大きいファイルが読み取れない』  この質問&回答では Windows API 関数『InternetReadFile』でホームページのソースを  読み取ってファイルに保存しています。→つまり、ダウンロードです。 ・私は『Java』と『Perl』は詳しくありませんが、上記の API 関数を呼び出してメモリ内に  HTMLソースを蓄積します。もちろん、一時ファイルへ保存しても良いでしょう。 ・その後、HTMLソースからタグの解析を行いますが、ここがポイントですね。  『JavaScript』には『DOM』や『XML』をオブジェクトとして扱う関数が用意されていますが、  『Java』はどうでしょうか?→あればこの関数群を利用してタグを解析します。 ・もしも、ない場合は自分で HTML タグを文字列として解析します。  文字列の解析ですので『開始タグ』と『終了タグ』をペアで処理します。  タグの解析に再帰処理などを使えば楽になります。 ・まずは『HTMLソース』の文字列を取得する方法を探って下さい。API関数を『Java』で呼び出せる  または、類似処理の関数が見つかるか探して下さい。 最後に: ・HTML の文法はきちんと理解していますか?これが理解できていないと解析・解読できませんが…。 ・下に参考になりそうな HTML のサイトを紹介します。また、『DOM』で検索すると『XML』や『HTML』  の解読する手がかりになると思います。 ・単語を抽出した後は、ジャンル別に用意した単語と比較することで種類を決定できるようにします。  このとき、一番多いジャンルの単語が出現したものをそのジャンルとして決めましょう。  ジャンル別の単語データを作成するだけでも大変そうです。 ・以上。→『HTMLソースの取得方法』と『HTMLの文法』を理解することから始めましょう。 リンク: ・http://www.tohoho-web.com/→『とほほのWWW入門』 ・http://www.htmq.com/index.htm→『HTMLクイックリファレンス』 ・http://www.hajimeteno.ne.jp/dhtml/index.html→『JavaScript,ダイナミックHTMLサンプル』 ※この質問『webページの内容取得の方法』は長期戦になりそうです。頑張って下さい。

参考URL:
http://nienie.com/~masapico/api_InternetReadFile.html
titoRINGO
質問者

お礼

お礼遅くなり、すみません。 >『JavaScript』には『DOM』や『XML』をオブジェクトとして扱う関数が用意されていますが、 >『Java』はどうでしょうか? Javaにも確かあったような・・・ >HTML の文法はきちんと理解していますか? あやふやです・・・ リンクまで貼っていただき、ありがとうございます。 参考にさせていただきます! 回答どうもありがとうございました!

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • Oh-Orange
  • ベストアンサー率63% (854/1345)
回答No.1

★最初にどの『コンピュータ言語』を使いますか? ・『初心者』とはどの程度ですか?  つまり、プログラミングの知識が全くない状態なのか、Webページの取得する方法に関して  初心者なのか、いろいろありますがどうなの? ・また、Web ページのどんな内容を取り出したいのですか?  まずはどんな感じで実現したいのかをはっきりと決めましょう。 最後に: ・『コンピュータ言語』には、C、C++、C#、Java、JavaScript、VB、VBA、VBScriptなどなどがありますよ。 ・他にも CGI、Perl などがあります。プログラム(ソフト)を作成するのならば、上記の言語のお勉強から  になります。参考になる『本』や『サイト』は言語などを指定してくれれば、それなりに良い回答が  出来そうです。→よって補足要求します。プログラムを言語などで作り取得させたいのかな?

titoRINGO
質問者

お礼

回答ありがとうございます! 説明不足ですみません。 補足しましたので、よろしくお願いします。

titoRINGO
質問者

補足

>★最初にどの『コンピュータ言語』を使いますか? 言語はJavaかPerlを用いたいと考えています。 >『初心者』とはどの程度ですか? 初心者というのは、プログラミングの知識はある程度学んだことはあって、 Webページの取得方法についての初心者という意味です。(Javaは何とかできる状態で、Perlは全くの初心者です。) >また、Web ページのどんな内容を取り出したいのですか? Webページのタグ以外の部分(単語、語句)を取り出して、そのWebページの内容が政治だったら、ジャンルは政治であるということを判定するものを作りたいと考えています。 >プログラムを言語などで作り取得させたいのかな? はい、既存のものを使うのではなく、プログラミング言語で作って取得させたいと思っています。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • ログイン処理を自動で行い、目的のWEBページの内容を取得したい

    ログイン処理を自動で行い、目的のWEBページの内容を取得したい http://dobon.net/vb/dotnet/internet/webrequest.html 上記のサイトを参考にWEBページの取得には成功したのですが、 IDやパスワードを入力する必要のあるページはどのようにしたらよいでしょうか?

  • WEBページのデータ取得方法(プログラム?)

    WEBページのデータ取得方法について質問させて下さい。 趣味レベルでプログラミングの勉強をしようと思い、言語の選択等、色々と悩んだ末に「Delphi」を使ってみる事にしました(無料版もあったので・・)。そして何か目的があった方が良いだろうと言う事で、今現在はWEBページのデータ(主に数字)をエクセルに貼り付けて分析を行っている作業があるのですが、カット&ペーストだけもでそれなりの量になり大変なので何とか自動で・・って訳で、当面の目標にしようかと思います。(エクセルだけでもWEBのデータ取得は出来るみたいですが、あくまでプログラミングの勉強って事で・・) さて前置きが長くなってしまいましたが、質問は以下のとおりです。 ・「Delphi」を使ってWEBページのデータを取得するプログラム作成は可能か否か?  因みにWEBページのデータは有料データの為、アクセスするにはIDとPassが必要です。 ・上記質問が可能な場合、方法等が詳しく掲載された書籍、或いはサイトがありますか?  入門(変数・if 文~グラフィック等)書籍&サイトは何冊か読みました(立読みです(照)。)が、  WEB関係?が見つからないので・・・ お手数ですが、ご回答頂ければ幸いです。

  • webページからのテキスト取得

    皆様お世話になっております。 データ収集のhtmlを作成しております。 すでに存在するいくつかのwebページ内の テキスト文字を取得して、 別のひとつのwebページへ貼り付け表示したいのですが、 何か方法はございますでしょうか? 何卒宜しくお願い致します。

  • webサイトにプログラム(システム?)を絡めたページ作成方法について

    うまく説明できませんが宜しくお願いします。 現在、サイト製作をしたいと思っております。 ユーザーが見るサイトとは別に、サイト管理者だけ利用する管理ページも作成し、管理ページより内容入力をしてページ更新をしたいと思っています。 他でも同様の質問をしたところPHP、JAVAを勉強しては?と言われました。 なにか他に勉強する必要なものはありますか? あと参考になる参考書やWEBサイトも教えて頂けると嬉しいです。 こちらはプログラムは全く素人です。 webデザイナーとして2年半やっていました。 しいていえば高校生のころに情報処理検定3級とったくらいです^^;

  • ログインが必要なページ内容の取得方法を教えてください

    file_get_contents 関数でページ内容(データ)を取得しようと思ったのですが・・・ログインが必要なページ(マイページ)内だったので取得できずログインページになってしまいました・・・ このような場合、どうすればよいのでしょうか? 自分のやりたい目的としては、会員サイトのマイページ内の特定のページのデータを取得したいのですが・・・ 他の関数などでよいのですが、何か良い方法はありますでしょうか?教えてください。

    • ベストアンサー
    • PHP
  • 次へのページの内容を取得

    今見ているサイトで多数の商品があり、1ページ30件でしか表示がなく 1000件以上あるので次へのページに行くのが大変苦労しております。 商品の登録を行うため、simple html domを利用して情報を取得しています。 しかし、次のページの商品を取得する方法が思いつきません。 手間はかかりますが、例:1~30(全1500件) とかの部分を取得し 全ページの取得もできると思いますが もっとスマートな取得方法はありませんでしょうか。 ご教示のほどよろしくお願い申し上げます。

    • ベストアンサー
    • PHP
  • web上のhtmlファイルから文字データを取得するには

    c言語を勉強中の初心者です、 自分が今作りたいプログラムはweb上のhtmlにある文字データを取得し、 整理し、プログラム内で表示するような物ですが、どの本を読んでもweb上からデータを取得する方法が紹介されていません、(見つけられないだけかもしれませんが…) 例えば、yahooの株情報からデータを取得するソフトなんてのはよくありますよね? こういった方法は何か凄く特殊なのでしょうか? 一般的にこういった事をプログラミング用語で何と呼ぶのかすらわからないので、検索で調べようがありません… ただweb上のhtmlファイルから文字列を取得したいだけです、 コードの例などを紹介している書籍やwebページを教えてください よろしくお願いします。

  • Webページとのやりとり

    お世話になります。りょと言います。 1.IDとパスワードを自動的にWebに入力 2.Webページに表示されている内容(銀行残高など)をプログラムに取り込んで処理 などをしたいと考えています。 例えば、Webページにログインする時には、手動でIDと パスワードを入力し、ログインボタン等を押しますが、 それをプログラムで実行するには、どのような技術を 用いれば簡単に実現できるのでしょうか。 色々な方法があると思うのですが、参考になる書籍を 買おうにも、どのような本を買えば良いかわからず、 一般的に上記のようなことをする際には、どのような 技術を使うものなのか、質問させて下さい。 (簡単にできるほど嬉しいです) VC++6.0か、C++Builder6辺りでの開発を考えています。 こんな技術を勉強すれば、簡単にできるよというのがあれば、教えて下さい。 よろしくお願いします。

  • Webページが見られない。

    ibookG4 / OS10.3.2 を使用している、PC初心者です。 Safariから、教育関係のサイトを開き、あるページを開くと、画面が白くなり、中央には小さな?マークが入った青色レゴの画像が表示されます。 どのようにすればそのページを見る事が出来るのでしょうか。 (そのページは統計グラフなどが書かれているページだと思います) また、Winユーザーから送られたメールの添付画像も時々、同じようなマークが出て見る事が出来ないことがあります。 エンコードの部分を変えましたが、変化無しでした。 アドバイスを、よろしくお願い致します。m(_ _)m

    • ベストアンサー
    • Mac
  • Rails 指定Webページの情報取得方法

    Ruby on Railsで「はてなブックマーク(http://b.hatena.ne.jp/)」のように、 URLを入力すると、ページタイトル、ページ内容、ページ画像 を取得する方法をご教授お願いします。 参考URL,参考ソースコード(Github等)があれば助かります。

    • ベストアンサー
    • Ruby