• 締切済み

Webから日本語取得、無難なクローラーは?

言語処理のために大量の日本語文章が欲しいです。 Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。 各ページ1回だけで、取ったら更新はほぼしません。 取得対象に影響を与えない事を優先したいです。 オススメのクローラーがあれば教えてください。 取得先の情報で分類出来るとうれしいです。 取得はlinuxサーバから行う予定です。

みんなの回答

回答No.1

SEOとかサイトのランク付けとか関係なくて、ただのダウンローダーがあればいいんですよね? ならば、wget で再帰処理すればリンクをたどってhtmlが取り出せるんで あとは、sedでHTMLタグを削除して文章のみにすればよいのでは。 取得先のドメイン名/階層名 と文章を紐付けしてDBに格納するとか ドメインごとに1ファイルにまとめる 必要があるなら そのスクリプトは自作することになるでしょうけど。

k_kota
質問者

お礼

どうもありがとうございます。 そうすれば出来るのは分かるのですが、それをきっちり実装しようとするろ結構な工数が掛かるので質問しております。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • webクローラー

    webクローラーを作成したいと考えています。 (blogを対象にしたクローラーを行いたい、具体的には個々のblogごとに記事の内容を抽出し、記事内で張っているリンクを収集したい) プログラム言語はperlかpythonあたりを使おうかと考えているのですが、 webクローラーの作成の参考になる書籍やwebページ、アドバイスなどがあれば 教えていただきたいです。 よろしくお願いします。

  • ホスト名の取得できないアクセスはクローラなのでしょうか?

    ホスト名の取得できないアクセスはクローラなのでしょうか? Webページのアクセス解析でクローラ判別しようとしています。 基本はUser-Agentチェックです。 これでだいぶはじいたのですが、怪しいのがまだ残ってます。 User-Agentは 「Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)」 とかクローラっぽいキーワードはありません。 IPアドレスは取れましたが、ホスト名は取得できませんでした。 PHPのgethostbyaddr()でホスト名取得しようとしてもできませんでした。 ということは、ホスト名非公開のサーバーってことですよね? 普通のユーザさんが使っている普通のプロパイダならホスト名公開しているはず なので、上記のようにホスト名の取得できないアクセスはクローラだ というように決め付けても大丈夫でしょうか? ちょっとカテゴリ違いの気もしますが大目に見てください。 ご回答よろしくお願いします。

  • 自作webクローラーの実行サーバ

    phpで自作でクローラーを作成しました。 とあるサイトのすべてのページを徘徊し、詳細ページの情報のみ取得してくるといったものです。 ちなみにphpのhtmlsqlを拡張して作成しております。 phpスクリプトでの実行時の想定最大使用メモリ数は512Mほどあれば足りるといった感じです。 ■サイト規模 google総インデックス数:300,000件程 詳細ページ数:60,000件程 そこで質問なのですが、このような重い処理を実行する場合に搭載するサーバはどのようなものがいいのでしょうか? おそらく共有サーバですと、サーバ管理会社側にバッチ処理をkillされてしまうかとおもうので、 専用サーバなどになってしまうかと思ってします。 できるだけコストが安いサーバを希望しています。 どなたか知識のある方いらっしゃいましたらご教授いただけませんでしょうか。 どうぞ宜しくお願い致します。

  • クローラーがhtaccessでリダイレクト

    現在、WEBサイトを作成しており、当該サイトは、レンタルサーバーを借りる際にhttpのドメインも一緒に新規で取得しました。 ただ、その後、全ページ https で作成していくこととなり、各リンクは全てhttpsでつながっています。 検索エンジンからTOPに入ってくるときに、httpならば、httpsにリダイレクトするように、htaccessに記述していました。 しかし、昨日、googleにサイト登録して、本日まで待ってみたところ、ウェブマスターツールの 「クローラーエラー」と「検索クエリ」はまだ反映されていませんでした。 以前は単純なhttpのサイトですと、1日程度で何かしら反映されていたと思うのですが、 やはりなにか設定が足りないのか、それともクローラーは、htaccessのリダイレクトを読み込まないのでしょうか。 どなたか体験されたことのある方がいらっしゃいましたら、教えてください。 よろしくお願い致します。

  • webサーバに

    webサーバに Pentium4 300GHz を使っていますが、 インテルCore i7 300GHz に変えたとして、 性能はどれくらい向上するのでしょうか? webサーバなので、画像処理という処理ではなく、 アクセスが大量にくるような処理になります。 なのでCPUが向上してもそれほど性能が向上するわけではないのでしょうか?

  • クローラーについて

    私の名前をグーグルやヤフーに入れて検索すると、関係した記事が出てきます。 しかし、どれも嫌な文章ばかりで、名前を入れても出てこないようにすることはできないでしょうか? 何でもクローラーという巡回機能が関係していると言うことですが、説明文を読んでも良く分かりません。 【robots.txtで登録拒否をするには】 robots.txtを置いて登録を拒否する方法は以下のとおりです。 ・サイトで公開されているすべてのページをモバイル版Yahoo!検索の[サイト検索]の検索対象から除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身(Y!J-SRD/1.0を拒否する場合の例) User-agent: Y!J-SRD/1.0 Disallow: / ・モバイル版Yahoo!検索を含む、すべての検索エンジンから除外する場合 下記のテキストを「robots.txt」という名前で保存し、サイトのあるウェブサーバーのトップレベルに置きます。 ファイルの中身 User-agent: * Disallow: / これ一体どこにどう貼り付けろと言うのですか? とにかく (1)今までに特定の投稿された文章を、検索されても表示できないようにしたい。 (2)私の名前を検索されても、今後一切関連した文章が表示されないようにした。 以上の2点、どなたか分かりやすくご説明して頂けませんか? 誹謗中傷ばかりで困っています。

  • C++言語 更新ファイルからログ情報取得

    随時更新されるログファイルから、 linux のC++言語でログ情報を随時取得するプログラムをつくっています。 ログ情報は、毎秒更新されるので、更新されたログ情報だけを 取得したいのですが、どうすればよいでしょうか? ログをどこまでよみとったかを覚えておく方法はあるのでしょうか? よろしくおねがいします。  

  • Webサーバとアプリサーバの違い

    Webシステム(サーバ-クライアントモデルではないほう)の 三階層モデルについて教えてください。 このモデルではWebサーバ、アプリサーバ、DBサーバの三階層構成をとられていますが PHP、perlといった動的言語の処理はWebサーバ、アプリサーバどちらで 行われるのでしょうか? はじめ、私はアプリサーバ側かと思っていたのですが、こっちは「Javaプラットフォームを 動かすためのサーバ」と書かれているソースが多く、PHP、Perlについては Webサーバ側と書かれてたりアプリサーバ側と書かれてたりしていて判断に悩んでいます。 単純に「動的な処理を行う」という基準で考えればPHP、Perlの処理はアプリサーバ側だと 思うのですが、いかがでしょうか ご回答よろしくお願いします。

    • 締切済み
    • PHP
  • HTMLを少し勉強、Rubyを勉強したいが

    何から始めたらいいですか? Windows10なのですが、開発環境は 仮想でlinuxとか動かすんですよね? Unixのコマンドも覚えなければならないし、敷居がたかいですか? VBとかC言語とかより難しいんでしょうか? ウェブクローラーを作りたいんですが、どうすればいいでしょうか? CSSとかHTML、Javascriptの勉強もしなければならないとは思うのですが、 rubyも勉強しなければできませんよね?

    • ベストアンサー
    • Ruby
  • DBサーバーのOracleからのデータ取得について

    WEBサーバー(Linux)とDBサーバー(WindowsServer2003)が分かれている環境で、WEBサーバーのPHPからoci8で、DBサーバーのOracleからデータ取得をしており、データ取得量?が多いとエラーとなってしまします。 SQL自体はOracle環境で実行して正常にデータ取得することは確認しているのですが、10万行程度のレコード数でもレスポンスの時点?でエラーとなります。 (レスポンスの情報が無いので、エラー内容が分からず、データ件数を絞ると抽出が出来ます) 解決方法をご存じの方や、PHPもしくはLinuxの設定で取得データサイズの設定方法について分かる方がおりましたら、ご教授ください。 宜しくお願い致します。