キーワードパターンの抽出

2023/09/05 04:53

このQ&Aのポイント

linuxのコマンドを使用して、あるキーワードから次のキーワードまでの文章を抜き出す方法について教えてください。
キーワードパターンに基づいて、文章から特定のキーワードを抽出する方法を知りたいです。linuxのコマンドを使用して実現することは可能でしょうか？
キーワードパターンを指定して文章から必要な部分を抽出する方法について教えてください。linuxのコマンドを活用した方法が知りたいです。

ベストアンサー

キーワードパターンの抽出

2013/06/24 00:24

あるキーワードから次のキーワードまでを文章を抜き出し、ファイルへ書き込みたいのですが、 linuxのコマンドでできますでしょうか？例 --------- キーワード１ --------- 文字や数字・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ --------- キーワード２ --------- 文字や数字・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ --------- キーワード３ --------- 文字や数字・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・からキーワード１とキーワード３を抽出したい場合 --------- キーワード１ --------- 文字や数字・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ --------- キーワード３ --------- 文字や数字・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・などと抜き出されるようにしたい。

devid
お礼率34% (166/478)

Linux系OS
回答数5
ありがとう数2

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

pixie-grasper
ベストアンサー率49% (28/57)

2013/06/25 11:33 回答No.4

#1です。 > 難しいです。t(if・・・について > このような書き方は始めてみました。awk以外でも書くのでしょうか？ awk特有の文法なので、awk以外では、例えばLispのcond特殊形式が似た記法をするくらいで、あまりお目にかかれません。丸カッコではなく波カッコであることに注意。 > tが否定のときは以下のif処理を飛ばすといういみでしょうか？考え方は合っています。 > tはブーリアン型？if (t=true) {if・・・}というイメージでしょうか？概ねそのイメージであっていますが、awkを含め古代の言語にはブーリアン型というものが存在しないことが多いです。例えば、今でもかろうじて生き残っているC、Fortran、Basicの3つの言語は、最初発表された時にはブーリアン型に相当するものがありませんでした。awkの場合には、基本型として数値型と文字列型が存在します。そして、そのような言語で論理値(真偽値)を表す場合、0等を偽、それ以外を真とみなすことが通例となっていて、awkでもそのように、0と長さ0の文字列を偽、それ以外を真とみなすようになっています。 http://gauc.no-ip.org/awk-users-jp/blis.cgi/DoukakuAWK_165 > !t&&s{print$0}について > tが否定でsは１のときに以下実行？ > 因みに!t&&sのsはなぜ0以外で正の意味になるのですか？ tが偽(0)でsが真(非0)の時にprint$0を実行、で合ってます。上にも書きましたが、0以外の値が真であるとみなされるので、そのようになります。

質問者

お礼 2013/06/26 01:25

解説まで有難うございます。大変参考になりました。

その他の回答 (4)

kmee
ベストアンサー率55% (1857/3366)

2013/06/25 14:42 回答No.5

考え方の一つです。区切りキーワード(1行) 区切り本文(複数行) となっているので、 t : 現在の行がキーワードと本文のどちらか?と示す変数 s: 現在のブロックが表示対応キーワードのものかを示す変数という変数を用意すると (初期t=0,s=0) 区切り : t=0からt=1へ : 出力するかどうかは下のキーワード次第キーワード(1行) : t=1 : 該当キーワードならs=1にして出力/ そうでないならs=0 区切り : t=1からt=0へ : s=1なら出力本文(複数行) : t=0: s=1なら出力 (次の)区切り : t=0からt=1へ: 出力するかどうかは下のキーワード次第 ... となります。このt,sに注目して、それぞれの処理を分岐すると、#2さんのawkスクリプトみたいになります。さて。キーワードが日本語の場合、この方法ではうまく動作しない可能性もあります。その場合は、マルチバイトに対応した言語を使いましょう。 awkのスクリプトですが、標準の文法は次の通りです条件1 { 処理1 } 条件2 { 処理2 } 条件3 { 処理3 } ... これは、他の言語流に書けば if (条件1) { 処理1 } if (条件2) { 処理2 } if (条件3) { 処理3 } ... です。他の言語に移植するさいには、参考にしてください。

質問者

お礼 2013/06/26 01:32

有難うございます。参考にさせて頂きます。

pixie-grasper
ベストアンサー率49% (28/57)

2013/06/25 00:46 回答No.3

再び#1です。解説が必要なくらい面倒くさいコードに対する解説を行います。主に awk '/^-+$/{t=!t} t{if($0~/キーワード1|キーワード3/){print"---------";print$0;s=1}else{s=0}} !t&&s{print$0}' の部分の解説です。awkは、1行づつ読み込む度に指定されたプログラムを実行する、というプログラムです。少し複雑なテキスト処理に好んで用いられました(Perl等に殆ど置き換えられましたが)。前提として、$0には今読み込まれた行の内容が格納されており、その他の変数は全て0等(型にもよる)の値で初期化されます。また、中括弧の直前の式や正規表現は、その中括弧が実行される条件を示しています。詳しくは $ man awk とするか、「man awk」でググって下さい。 /^-+$/{t=!t} キーワード部が---------で始まり、同じく---------で終わることから、「その行が'-'だけで構成されている場合は、tの値をトグルする(tにtの否定を代入する)」という処理を行い、今からキーワードの判定を行うのか、それとも判定が既に行われていて(その結果はsに代入されている)、あとは適宜出力するだけなのかを選択することにしました。問題ないかと思いますが、/から/で囲まれた正規表現については、最初の^は行頭を、最後の$は行末を、-は文字-を、+は直前の文字(ここでは-)が1回以上続くことを意味しています。 t{if($0~/キーワード1|キーワード3/){print"---------";print$0;s=1}else{s=0}} この行はキーワードあたり2度実行されます。1度目は---------だけの行、2度目はキーワードが書かれた行です。その直後の---------の行は、この部分が実行される直前にtが偽に戻ってしまうため、この部分は実行されないことになります。現在キーワード部に差し掛かっている場合(tが真の場合)、今読み込まれた行($0)がキーワード等と一致するかどうかを判定し、もしも一致する場合には、直前の行の内容であろう---------を出力した後、キーワード(=今読み込まれた行=$0)を出力し、ここからは暫く出力し続ける事を示すための変数sに1を代入しておきます。キーワードと一致しない場合には、sに0を代入しておき、暫く出力しない事を意味させます。 !t&&s{print$0} !t&&sという事で、現在キーワード部ではなく、かつ、選択されたキーワードに対応するデータの部分である場合に、今読み込まれた行を出力します。というような構成になっています。今思えば2個目の正規表現は/キーワード1|キーワード3/よりも/^(キーワード1|キーワード3)$/の方が事故が少ないかも知れません。

質問者

補足 2013/06/25 01:22

難しいです。t(if・・・についてこのような書き方は始めてみました。awk以外でも書くのでしょうか？tが否定のときは以下のif処理を飛ばすといういみでしょうか？tはブーリアン型？if (t=true) {if・・・}というイメージでしょうか？ !t&&s{print$0}について tが否定でsは１のときに以下実行？因みに!t&&sのsはなぜ0以外で正の意味になるのですか？

pixie-grasper
ベストアンサー率49% (28/57)

2013/06/24 12:38 回答No.2

#1です。「ちょっと難しい」と言ったとおり、やり方はあります。私ならawkを使って、 $ cat ファイル名 | awk '/^-+$/{t=!t} t{if($0~/キーワード1|キーワード3/){print"---------";print$0;s=1}else{s=0}} !t&&s{print$0}' とします。急ごしらえなのでちょっと稚拙ですが。この場合、「文字や数字」の部分に、-だけからなる行があるとうまく動きません。ただのデータなのかキーワードが間に入るのか判別できないので。

質問者

補足 2013/06/24 19:03

すみません、わかりません、解説お願いします・・。全体で３つの{}になっているようですが、{t=!t}　t{if~..} !t&&s{} t=!tとは等しくないことだと思いますがｔやｓは何を表しているのでしょうか？

pixie-grasper
ベストアンサー率49% (28/57)

2013/06/24 03:28 回答No.1

抽出と言えばgrepですが、その形式だとちょっと面倒です。行単位のデータに出来るのであれば、つまり入力をキーワード1 データキーワード2 データキーワード3 データ・・・という形式にできるのであれば、 $ egrep ファイル名 -e '^(キーワード1|キーワード3)' で行けるんですが・・・

質問者

補足 2013/06/24 10:23

データはランダムで、特定できません。 linuxは無理？

キーワードパターンの抽出

キーワードパターンの抽出