• ベストアンサー

Webページからテキストを自動で抽出するプログラム

複数のWebページ(html)からテキストだけを抽出する作業を自動で行うツールが必要なのですが、知っているのがあれば教えて欲しいです。 または、それを開発するにはどの言語が教えてくださると嬉しいです。 Webページのテキストの一部でもいいですが、すべてを抽出しても構いません。

質問者が選んだベストアンサー

  • ベストアンサー
noname#138894
noname#138894
回答No.1

「テキストだけ」という条件は、HTMLソースコードからHTMLタグ部分を削除するという感じでしょうか? であれば、web関係の関数を持ってる言語ならどんな言語でもいけると思いますよ。 なので、もう少し条件が必要です。 ・ツールをwindowsから使えるGUIアプリで使いたいのか ・どこかサーバ上で動作させる ・webページの更新まで自動でやるのか etc・・・ ちなみにPHPならサーバ上で動かす前提ですが、下のようなコードで出来ます。 //webページを読み込む $res = file_get_contents('http://example.com'); //HTMLタグを除去する $result = strip_tags($res); $resultをファイルに保存する という感じで一つのwebサイトを読み込むことが 出来るので(head内をどうするかとか、詳細は積める必要があります) これに加えて、何らかの形で読みこみ先URLを保存しておいて、 ループで全部処理するような形にすれば自動的に処理が行えます。

CheNelle
質問者

お礼

僕にはまだ早かったみたいです。ありがとうございました。

関連するQ&A

  • 透明テキスト付きPDFから任意の複数ページのテキスト抽出

    透明テキスト付きPDFから任意の複数ページのテキストを一括して抽出できますか。 たとえば10ページのPDFから最初の5ページのテキストだけ抽出できますか。 1ページづつ5回テキストの抽出をするのが面倒でこまってます。

  • Webページ保存によるテキストボックス内文字の抽出

    次の課題を考えています。初心者ですのでよろしくお願いします。 課題 Excel2007のシートに複数のテキストボックスを作成して、このテキストボックス内の文字(テキスト)をExcelのセルまたはWordにコピーしたいと考えています。OSはWin7です。 方法 Windows XP SP2とワード2003の場合に関して、下記URL http://okwave.jp/qa/q4673231.html に説明があったので、これを参照して 1 Excel2007ファイルを名前をつけて保存 → Webページで保存 2 保存されたhtmlファイルをブラウザで開き、それを名前をつけて保存(テキストファイル選択) しかしながら保存されたテキストファイルをメモ帳で開いてみてもテキストボックス内の文字は保存されていません。 Webページで保存した場合、filesフォルダ内にテキストボックスがそのままイメージで保存されているので、この方法ではむずかしいのかもしれないと思っていますが、なんとかWebページ保存の方法でテキストボックス内の文字を抽出したいと考えていますので、どなたかよろしくお願いします。

  • pdfファイルから、テキストを抽出したい

    pdfファイルから、テキストを抽出したいと思っています。 テキスト選択ツールで、テキストを選択し、コピー&ペーストでも良いのですが、これだと一ページずつ細切れになってしまいます。 何とか、これを一度で、コピー&ペースト、ないし、抽出できる方法はないでしょうか?

  • 自動巡回+一部のテキストを抽出するソフト探しています

    ホームページのデータを収集してEXCELで表にしたいのですが、 ホームページのURLおよびHTMLソースは一定しているものの、 収集したいデータは数百ページもあり、いちいちソースを開いて、 探して抽出するのは非常に非効率で、途方にくれています。 一定の連番の持つURL(予め用意したURLリスト)を自動巡回して、 HTML内の一部のテキスト(行指定して1行~数行)を抽出するソフト探しています。 もちろんHTMLソースが一定の法則になっています。 (htmlタグは変わらないが、テキストとURLだけは違う・・・) 例えば、  http://www.***.com/data/1255.html  http://www.***.com/data/1256.html  http://www.***.com/data/1428.html のようにURLは一定していること。 個別のHTMLソースでは例えば、 18行目の・・・ 『 <td width="100"><b><font size="-1">●●●●</font></b></td>』  の●●●●だけを抽出するとか・・・  これをCSVやウェブでテキストベースで表示できれば幸いです。 そのようなソフトはございますか? よろしくお願いします。

  • WEBページ 抽出

    WEBページの選択範囲のソースコードを抽出したいのですが、 どのようにすればいいのかわかりません。 最終的には、選択範囲のソースコードを抽出し、エディタ編集できるようにして、一つのHTMLファイルとして再構成したいと考えているんですがどこから手をつけていけばいいかわからない状態です。 教えてください。お願いします。

    • ベストアンサー
    • HTML
  • HTMLページからタグを除くテキストデータのみを抽出したい

    既出かもしれませんが、ホームページの更新作業を任されたのですが、今までのHTMLページのタグを除いてテキストデータを抽出できる、フリーソフトなるものはあるのでしょうか?

  • 【WEBページのタイトルをテキストに書き出したい】

    かなり大まかなご相談なのですが、どうすればいいか悩んでおりますため、どうかお知恵をお貸しください。 IEで表示しているページのURLを取得して、ローカルに置いてあるテキストに書き出したいと思っております。 (1)右クリックで出てくるコンテキストメニューに「URL保存」という項目を追加 (2)それを選択すると、右クリックしたWebページのURLが、テキストファイルに追加記入される。 という機能を作ろうと思っておりましたが、 (1)については 右クリックメニューを拡張できるフリーソフト(SHCML等)をいくつか利用してみましたが、 「IE上(WEB上)」で右クリックした時に出てくるメニューに、フリーソフトを使って登録した項目が出てきてくれません。 IE用のコンテキストメニューを追加するには、また違った作業が必要なのでしょうか。 (2)については、 ↑の右クリックで登録できる実行ファイルはexeかvbs拡張子、と以前どこかで読んだため(間違った情報かもしれませんが…) 当初VBSで作っていたのですが、どうしても「表示されているページ」を選んで取得することができませんでした。 JavaScriptであれば、http://www.openspc2.org/reibun/javascript/link/011/index.htmlこちらの ページなどを発見できたのですが、JavaScriptはWebページ作成時にHTML内に記載して使用したことしかなく、 これをどう”実行ファイル”として「右クリックで動作する」ようにしていいのかがわかりません…。 上記についてご教授いただけませんでしょうか。 最終的に【IEで表示しているページ(複数開いていた場合、選択したページのみ)のURLを取得して、 ローカルに置いてあるテキストに書き出す】という事が出来れば良いので、 やり方は上記にこだわりません。 もし”こうした方がいい””こうすればできる”などございましたら、アドバイスいただけますと嬉しいです。 色々と素人で、分からない事だらけのため、言葉足らずな質問になっておりましたらすみません。 宜しくお願いします。

  • エクセル webページの保存と発行

    エクセルで、Webページの保存と発行の違いが分からないので、教えていただけないでしょうか? テキストでは  <保存>  Webページとして保存すると、作業中のブックは自動的に閉じられ、保存したWebページを開いて作業している状態になります。  <発行>  Webページとして保存すると、作業中のブックはそのまま開かれた状態で、Webページは指定したフォルダに保存されます。 とありますが、意味が分かりません。

  • 「次へ」で更新する複数のWEBページを自動で次ページを開いてWEBページを保存したいのですが・・・

    サイトを開くとページが複数ページにわたっていて、「次へ」を押すことにより次ページを開くようになっていますが、私の保存したいサイトは80ページぐらいになるのでとても手作業で開いては保存、という作業をするには時間がかかりすぎます。 こういった作業を自動で実行してくれるフリーのソフトはないでしょうか?

  • webページを簡単にテキスト化

    webページをあとでまとめてipodのメモ機能で読むために プレーンなテキストにしたいのですが、そのようなソフトはありますか? また、おすすめはありますでしょうか。