• 締切済み

タグ内容の抽出方法

htmlファイルが約50000ファイルほどあります。 この中からタグの内容を抽出したいと考えています。 例えば 指定フォルダ以下のhtmlファイル内の <title>を検索条件とした場合 <title>○○○1</title> <title>○○○2</title> <title>○○○3</title> ・ ・ ・ といったようにリスト出力してくれるようなフリーソフトや 出力方法をご教示ください。 単純作業ですが手動でやるのは気が遠くなります。 お知恵を貸していただけると幸いです。

  • HTML
  • 回答数1
  • ありがとう数0

みんなの回答

  • STICKY2006
  • ベストアンサー率29% (1536/5269)
回答No.1

その程度なら、何かしらのテキストエディタの「Grep」機能使って出てきた結果をちょっと加工すればよいかと。 http://freesoft-100.com/pasokon/editor_text.html http://www.shuiren.org/chuden/teach/hidemaru/05.htm http://www.sophia-it.com/content/grep

関連するQ&A

  • preg_matchで指定ファイルのタグを抽出?

    preg_matchを使って指定したファイルのタグを抽出するにはどうしたらいいのでしょうか? 例えば、 <title>●●</title> の●●を抜き出すにはどうすれば良いのでしょうか? ご回答よろしくお願いいたします。

    • 締切済み
    • PHP
  • ファイルのリスト作成ソフト

    フリーソフトのファイルリスト作成ソフトで以下の条件すべてを満たしたものを探しています。 ・複数のフォルダを指定でき、下層フォルダにあるファイルまでリストに含めてくれる。(指定できるフォルダの数は二桁以上できること) ・ファイル名だけでなくフルパスで出力される。 ・一度登録したフォルダは次回以降入力しなくてもよい。 ・2度目からはリスト作成ボタンを押すだけで新しいファイルを作成してくれる。 ・リスト化するフォルダはネットワーク先の物も可能、もしくはリストのファイルの出力先をネットワーク先に出すことが出来る。 ・フリーソフトが望ましいが、上記すべての条件を満たしているならシェアウェアでもよい。 ・これは必須ではないが、起動させるだけでリスト作成の実行が出来るような機能があればなおよい。 結構条件は難しいと思うのですが、これだ、というのがあったら教えてください。 いろいろリスト作成ソフトは試してみましたが、上記を満たすソフトはありませんでした。 よろしくお願いします。

  • フォルダ内にあるファイルを複数一気に抽出したい

    フォルダに画像を格納しています。 その中に画像は多数あって、WEBにアップするものとしないものが混ざっています。 ファイル名はエクセルで管理しており、今回WEBにアップする画像をリスト抽出します。 そのエクセルリストで指定した、フォルダ内の画像を一気に取り出すことの出来るフリーソフト、ご存知であれば教えていただけますでしょうか?

  • データの抽出機能

    質問のタイトルが適切ではなかったらごめんなさい。 いま、HPビルダーでHPを作成しているのですが、一覧リストなのどから 条件を指定してデータを抽出したいと考えているのですが、どのように すればそれはできるのでしょうか? accessでいう、一覧データをフォームのドロップダウンリストから条件を指定して抽出して表示・・・ というような、機能をつけたいのですが、javasdriptを使わないと できないと言われました。なにかいいHPなどないでしょうか。 よきアドバイスをお願いいたします。

  • HTMLページからタグを除くテキストデータのみを抽出したい

    既出かもしれませんが、ホームページの更新作業を任されたのですが、今までのHTMLページのタグを除いてテキストデータを抽出できる、フリーソフトなるものはあるのでしょうか?

  • MP3ファイルを検索抽出できるソフト

    お世話になります。 現在HDDにMP3形式でオーディオファイルを格納しています。 聴きたい音楽を適宜デジタルプレイヤーなどに転送して楽しんでいるのですが、気がついたら膨大な量になっていました。 今は各アルバムごとにフォルダわけして整理していますが、フォルダタイトルがアルバムタイトルを基本としているため、特定のシンガーの曲のみ聴きたいとか、最近のドラマ音楽だけ抜き出したいというときにとても苦労しています。何か適切なソフトはないでしょうか。 条件としては下記のとおりです。 ・サブフォルダまで検索できる ・入力済みのタグ情報に基づいた検索、抽出ができる ・抽出した結果をそのままデジタルプレイヤーなどに転送できる ・PC負荷が少なく出来ればインストール不要 ・フリーソフトである ちなみにOSはXP SP2です。 MP3ファイルにはすべてタグ情報を入力済みで、タグ入力にはSuperTagEditorを使用しています。 Officeなどの基本的なソフトは使用できます。プログラミングはhtmlを除いてよくわかりませんが、ヒントをいただければ勉強します。 よろしくお願いいたします

  • URL抽出

    指定したURLのソースから<A HREF="~">タグの"~"部分を抜き出してリスト化するようなURL抽出ツールを作りたいのですが、どのようにプログラムを書けばよいのかわからずに困っています。 わかるかた、回答のほどをよろしくお願いします。

  • TXTファイルからExcelへ指定行を抽出

    OffceXPを使用しております。 表題の通りなのですが、テキストファイル内のデータから指定した行をExcelのファイルへ抽出する方法を教えて下さい。 (ファイルは「.TXT」形式と「.CSV」形式の2種類が用意できます。) 当初はファイル名の一覧行を作り 「='ドライブ名:\フォルダ名\[ファイル名.csv]シート名'!$A$1」 の式を用いて表を作成しようとしたのですが、この方法ではファイルを全部開き値を更新しないとエラーが出てしまいました。 ファイルは200以上有り、1つ1つを開いてデータを引っ張るには無理があります。 フリーソフトを探してみましたが、指定文字を含む行を抽出するソフトは数多くあったのですが、 「指定行」というのが見つからず、お手上げです。 関数や数式・VBAもしくはフリーソフト等、簡易にデータ抽出が出来れば何でも結構です。 但し、VBAに関しては殆ど知識が無いので、解り易く書いて頂けると幸いです。 欲を言えば、ファイル名も同時に抽出出来ればあり難いですが、こちらはさほどこだわりません。 良い方法をご存知な方がいらっしゃればどうかご教示下さいませ。 宜しくお願い致します。

  • データ抽出のご質問

    下記のようなことができるバッチファイルを作成できないかと思ってます。 一つのフォルダに 複数のテキストファイルがあり、 そのテキストファイルの 指定した行と その指定した行の3番目~5番目の文字を抽出したい考えてます。 フォルダ内の情報は、下記の感じです。 フォルダ内(フォルダ名:folder)には、このようなファイルがあります。 ファイル名: testX.txt ファイル内容: 1:aaa 2:bbb 3:ccc 4:ddd ファイル名: textY.txt ファイル内容: 1:ooo 2:ppp 3:qqq 4:rrr ここでは、2行目の「ccc」と「qqq」を考えてます。 皆さんからのご教示頂けると幸いです。 宜しくお願い致します。

  • テキストファイルからの抽出

    VBAでもコマンドプロンプトでもいいのですが、1000行くらいあるテキストファイルを読み込んで、キーワード「タイムアウト」を含む行の1つ手前の行の文字列を抽出、それらを1つのファイルにまとめて出力させたいのです。 VBAで自分なりにやってみたのが http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12142881517 の最後の回答にあるマクロに手を少し加えて「タイムアウト」のある行番号をテキストファイルに出力し、その出力ファイルを読み込んで、一つ手前の行番号のリストを作ることまではできました。 ですが、どうやってそのリストから行番号を指定して、元のファイルからタイムアウトを含む行の1つ手前の行を抽出し、1つのファイルにまとめて出力させられるのかが分かりません。 後Powershellはまだ勉強途中なのですが、こっちでならできますか? アドバイスをお願いします。

専門家に質問してみよう