• 締切済み

探してます→リンク先の特定単語を抽出してくれるダウンロードソフト

お世話になります。 ダウンロードソフトを探しています。 サイトのリンク先にある単語Aを含んだ情報を 抽出し、テキストやワード・エクセルにペーストしたいのです。 毎回ページを閲覧して、コピペしてたのですが、 大変要領が悪く、非効率でした。 数百ページにも及ぶともうお手上げです。 わかりづらいのですが例えば、研究者関連のサイトで、 雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、 出版年Bを特定検索かけると、出版年Bを含んだテキスト、 と言った具合でリンク先を自動検索して抽出するソフトが あれば大変大変助かります^^ さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc. のリンクページなどにも自動検索してくれるともっと嬉しいです。 諸先輩方どうか助けてください・・・><

みんなの回答

  • notnot
  • ベストアンサー率47% (4848/10261)
回答No.1

抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。 目的とするサイトごとにスクリプトを書くことになります。 質問の文章から察すると、ちょっと荷が重そうですね。 一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。

yoroshikumail
質問者

補足

notnotさまご回答ありがとうございます。 教えて頂いたキーワードで軽く調べたところ、 Web3.0的要素が高くまだまだ私には使いこなせそうにありません>< PHP素人かじりの私です>< 簡単に言うと、スパイダーやクローラーのようなイメージの ソフトを探していました。 ただ、アドレス収集が目的ではないので、困っているのです。 @認識の変わりに、単語認識とした抽出を狙っていました。 巷には、画像ファイルや動画などの自動ダウンロードソフトは ごろごろ転がっているのですが、テキストとなると難しいみたいですね。 説明下手で申し訳ありませんでした。 もしもnotnotさまがおっしゃる方法を実行するならば、 http://www.testtest.ne.jp/test.html/test1.html http://www.testtest.ne.jp/test.html/test2.html http://www.testtest.ne.jp/test.html/test3.html にある末端階層の情報を抽出するのには、 http://www.testtest.ne.jp/test階層 のスクリプトを記入するのではなく、 (この例だと1回) http://www.testtest.ne.jp/test.html/test1.html階層 毎にスクリプト記入しなければならないのでしょうか? (この例だと3回) もしそうならば確かに荷が重いですね…^^;

関連するQ&A

  • リンク先のアドレスを一括抽出するソフトを探しています

    今回探していますのは、ネットで表示しているページのリンク先アドレスを一括抽出できるものです。 以前、この機能を有するソフトを所持していたのですが、初期化の際に消してしまいました。(ソフト名も忘れてしまいました) そのソフトは以下のような機能を備えています。 ・IE、Lunascape(あやふやです)etc...に対応(Firefox非対応) ・IEのサイドバー(左)でソフトを動かす ・ボタン一つで、表示中のページのリンク先アドレスを一括抽出 ・抽出したアドレスリストのソート可能(あやふやです) ・抽出したアドレスリストを.txtとして保存可能 もし、上記のソフトウェア、また同様の機能を持つソフトウェアをご存じの方いましたら、お教え下さい。 どうぞ、宜しくお願い致します。

  • 不特定の掲示板を巡回するソフトフェアはありますか?

    不特定の掲示板を巡回して、指定するキーワードを含む掲示板やページを抽出するソフトは存在しますか? 特定のページを巡回して検索するものや画像を抽出する自動巡回ソフトはあったのですが、見つからないので、もしご存知の方いらっしゃいましたら教えて頂けますと助かります。 フリーフェアでも有料のソフトフェアでもどちらでもかまいません。 よろしくお願いします。

  • 【JavaScript】リンク先の折り畳みについて

    失礼します。 現在JavaScriptを使った折りたたみをサイトで使用しているのですが、 あるページからリンクで複数の折りたたみがある他のページに飛ぶ場合、リンク先のページにある特定の折りたたみだけを展開して表示させたいと考えています。 たとえばAからBというページに行く際に、BにあるC、D、Eの折りたたみのうちDのみを展開して表示させたいと言う感じです。 折りたたみをあらかじめ開いた状態にして表示させる方法自体は知っているのですが、リンク前のページから特定の折りたたみを選んで展開できるような仕組みはないかと探しています。 このようなことができるJavaScriptなどは有るでしょうか。 初心者のため意図の伝わりにくい質問かと思いますが、よろしくお願いします。

  • インラインフレーム内の特定箇所へのリンク

    あるページAと別のページBがあるとします。 BのページにはCのページをiframeで埋め込んで あるとします。 AのページからBのページの特定場所にリンクを 貼るには行き先にnameをつけてやれば可能ですが、 今回やりたいことは、Aのページのリンクボタンを クリックするとBのページに埋め込まれているCの ページの特定場所に移動させたいのです。 ※Bのページはもちろん表示 このようなリンクの貼り方はできますでしょうか?

    • ベストアンサー
    • HTML
  • Webページ上の、特定の画像リンクをクリックしてくれるソフト

    ネットでいろいろ調べても出てこなかったので ここなら知っている人がいるかもしれないと思い質問しました。 Webページ上にある、特定の画像リンク (画像ファイル名や、用意してある画像と照合して特定する。)を 何秒かすると自動的にクリックしてくれるというソフトはないでしょうか? 又そのリンクしている画像ファイル名は、わかっています。 できればフリーソフトでお願いします。 だれか教えてください。

  • テキストから単語だけを抽出する

    たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?

  • リンク先のテキストボックスへの値の自動入力

    アクティブディスクトップの昨日を使用して、リンク先のページを記載したページを壁紙にして使用しています。 <a href=link.html target=a>リンク<a> で、開いた先のページのテキストボックスに、値が自動入力された状態でページを開く用にする方法は無いでしょうか? 常に入力の必要のある、ユーザ名等を、リンクボタンを押下することで自動入力したいのです。 よろしくお願いします。

  • 特定の単語に対してすべて同じリンク先を指定したい

    はじめまして。PHP初心者です。 色んなページに出てくる特定の単語(文章)に対して同じリンク先を指定したいのですが、そういうことってできますか? 私よりPHPに詳しい友人が「出来ると思うけど自分には分からん」といっていました。

    • 締切済み
    • PHP
  • HTMLのAタグからURLとリンクラベルを抽出できるソフト

    初めまして。 閲覧中のページ内のリンクを、URLとラベルのセットで抽出して一覧表示してくれるソフトを探しています。 具体的には <a href="url">リンクラベル</a> となっていた場合、"url"と"リンクラベル"を自動的に抜き出して それを外部ファイルなどに出力してくれるソフトです。 自分で調べた中で近いソフトがあったのですが、どうも思ったような結果が得られなかったです。 http://www.forest.impress.co.jp/article/2005/06/17/ablink.html よろしくお願いします。

  • リンク先をひらかないようにするにはどうしたらよいのでしょうか?

    サイトを閲覧していると、そのページ内にいろいろリンクが貼られていますが、ある特定のリンクバーをクリックした時に、リンク先にいかないようにする、または、リンク先を表示させないという方法ってありますか? ちなみに、コンテンツアドバイザでパスワードを設定したりするあのやり方"以外"で知ってる方がいましたら教えてください。よろしくおねがいします。

専門家に質問してみよう