コマンドライン上でのデータ突き合わせ方法

2023/10/18 18:29

このQ&Aのポイント

UNIX系のコマンドのみを利用して、二種類のファイルを突き合わせする方法がないか悩んでいます。
file_a.csvに記載されたIDが、file_b_01.csv～file_b_20.csvのIDにあるか確認し、一致した場合はその行を別ファイルに出力します。
grepを使用した場合、行全体がスキャンの対象になるため使用できません。コマンドラインからperlなども使えない状態です。何かいい方法はないでしょうか。

ベストアンサー

コマンドライン上でのデータの突き合わせについて

2010/06/16 15:48

コマンドライン上でのデータの突き合わせについて UNIX系のコマンドのみを利用して、二種類のファイルを突き合わせする方法がないか悩んでいます。 file_a.csv → ユニークなIDのみ file_b_01.csv～file_b_20.csv → ユニークID,aaaaa,bbbbbb,cccccc・・・・ file_a.csvに記載されたIDが、file_b_01.csv～file_b_20.csvのIDにあるか確認し、一致した場合はその行を別ファイルに出力します。 grepを使用した場合、行全体がスキャンの対象になるため使用できません。コマンドラインからperlなども使えない状態です。何かいい方法はないでしょうか。

yasagure-kun
お礼率81% (27/33)

Linux系OS
回答数5
ありがとう数26

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

trapezium
ベストアンサー率62% (276/442)

2010/06/18 01:13 回答No.5

> 質問が間違っていました。file_bのマッチさせたいフィールドが3つ目のフィールドとなります。それでもほとんど一緒ですよ。 while read a; do egrep "^(.*,){2}${a}," file_b*; done < file_a.csv > out.csv とか、${a} が正規表現に引っ掛りそうなら while read a; do awk -F, '{if ($3=="'${a}'") print $0}' file_b*; done < file_a.csv > out.csv あと必要なら sort | uniq すれば。

質問者

お礼 2010/06/19 15:11

ありがとうございます。ようやく理解できました。 read a の「a」はリダイレクトしたfile_a.csvが対象だったんですね。 > awk -F, '{if ($3=="'${a}'") print $0}' file_b* また、awkで切り出しつつ比較して、そのまま出力という事ができるとは思ってもいませんでした。これで何とかなりそうです。とても助かりました。

その他の回答 (4)

tux_the_penguin
ベストアンサー率42% (69/163)

2010/06/17 14:47 回答No.4

まだよくわかりません。＞　awkでfile_b*.csvの該当箇所を切り出し、＞　file_a.csvを読み込んで比較させて、これ逆じゃないですか？ file_a.csvが改行区切りになっているなら「切り出す」必要はなくシェルが１行ずつ読み込みますそして検索されるファイルを１行毎に処理するgrepやawkの標準的な動作で充分です＃１さんのwhileを書き直してみました for a in `cat file_a.csv`; do grep -h "${a}" file_b*.csv; done whileループをforループに置き換えただけですこれならわかりますか？（検索語が行頭ではないとのことなので「^」を外しています）また、file_b*.csvの第３フィールドにIDがあるとのことですがそれがどれほど重要なのかが不明です。第３ではない他のフィールドに別のIDが含まれるデータが存在すると言うのでなければまったく考慮する必要のない情報ということになります grepは１行毎にその検索語があるかないかだけ見ますもしID(と同じ文字列)を含むデータが他のフィールドに存在する可能性があるなら、 file_b*.csvの第３フィールドに限定して検索する必要があるので awkで「切り出し」て比較することになり、ちょっと複雑な処理です。 I　台本をmickyに覚えてもらい１つずつ教えてもらう II　mickyのセリフの書かれたＴシャツをタンスからさがしてminnieに持たす　　　　（胸だろうが背中だろうが区別しない(できない)） III　minnieの持っているＴシャツの胸の言葉をdonaldに覚えてもらう IV　mickyとdonaldが同じ事を言っていたら　　　　minnieのＴシャツを箱にしまう　　　　そうじゃなければそのＴシャツは放り投げる V　Iに戻ってmickyに次のセリフを聞くさらに、件の「ユニークID」はfile_b*.csv群のなかに１回だけ現れるのか複数回登場するのかはたまた存在しないこともあるのかが重要だと思います。この場合minnieがＴシャツを一度に２枚持つことになりさらに複雑化する＃何をもって「ユニーク」と呼称したのかにもよりますが＃他フィールドに含まれていたり複数回登場したりだったら「ユニーク」ではないような。検索でヒットした行全体をそのまま出力で元はどのファイルにあったデータなのか(file_b3.cvsだったのかfile_b14.csvなのか両方なのか)が必要ない情報なら至極単純なgrepで事足りるのです minnieに持たせずそのまましまうだけ。donaldも出る幕無し。＃　…で出力ファイルは１つ？各IDごと？

質問者

お礼 2010/06/19 15:00

返信が遅くなって申し訳ありません。 > これ逆じゃないですか？ > file_a.csvが改行区切りになっているなら「切り出す」必要はなくシェルが１行ずつ読み込みます > そして検索されるファイルを１行毎に処理するgrepやawkの標準的な動作で充分です切り出すつもりだったのは、file_b*.csvの方でした。 perlで書くとこんな感じのことをやりたかったのです。 #　file_b*.csvをカンマで分割 #　第3フィールドがあらかじめ読み込んだ検索キーと一致したらファイル出力 my @data = split(/,/, $_); if($data[3] eq $keys){ 　print OUT $_; } 前後してしまいますが、対象のフィールド以外に、検索キーを含む文字列が存在する可能性があったため、対象部分だけを切り出そうと考えました。あらためて整理しなおしてみました。・file_b*.csvは商品名、商品ID、商品概要などを記載した商品リストである・file_a.csvはある条件に一致した商品IDのみを記載した改行区切りのリストである・全ファイルを通して、第3フィールドには対象の文字列は一度しか出現しない・商品概要の文中に検索キーである、対象の文字列が出現する可能性がある・検索キーが第3フィールドに一致したらfile_b*.csvの行を、そのままout.csvに出力するおっしゃるとおり、対象の文字列が複数でてくるならユニークとはいえませんが、商品IDとして第3フィールドに出現するのはユニークなので、ユニークであると表現させていただきました。 > for a in `cat file_a.csv`; do grep -h "${a}" file_b*.csv; done > whileループをforループに置き換えただけです > これならわかりますか？ > （検索語が行頭ではないとのことなので「^」を外しています）よくわかりました。 a in に対して`cat file_a.csv`という使い方ができるとは、想像もしていませんでした。シェルスクリプトを勉強して出直してきます。

Tacosan
ベストアンサー率23% (3656/15482)

2010/06/17 10:25 回答No.3

あと, file_b_*.csv の中身が「どのくらい複雑なのか」によっても変わってきます. つまり「カンマで区切られたデータ」の中にカンマが含まれていたりするとめんどくさい. そうじゃなくて単に「3つ目のカラムにある」というだけなら, grep でも awk でも.

tux_the_penguin
ベストアンサー率42% (69/163)

2010/06/16 20:05 回答No.2

重要な情報が提示されていないので明確な回答がつきにくいと思います file_a.csv　にある「ID」はどう並んでいるんでしょうか？ csvというからにはカンマ（もしくは他の文字）で区切られているのでしょうが改行はあるのですか？１行１IDで構成されていれば＃１さんのご提案どおり簡単な話だと思います。んじゃfile_a.csvをそういう構成に変換すればよいということですカンマを改行に置換すれば済みます出力先となるファイルの作り方もどうしたいのかわかりません該当する行全体を出力するのか ID毎に１つずつファイルをつくるのか１つのファイルに追記していくのか。行全体の出力で１つのファイルだと　cat file_b_*.csv を何らかの形でソートした事と同一かも知れない質問内容からは難しさが読み取れません入出力データがどんな状態なのかはっきりさせると有用・的確なアドバイスを得られるかもしれません

質問者

お礼 2010/06/17 10:59

ご指摘ありがとうございます。 ■目的・file_a.csvに改行区切りで並んでいる文字列を検索ワードとして、file_b*.csvの特定部分を比較する・一致したfile_b*.csvの行を別ファイルにコピーする当初考えた手順が awkでfile_b*.csvの該当箇所を切り出し、 file_a.csvを読み込んで比較させて、ヒットした行をfile_b*.csvの元のフォーマットのまま同一ファイルに書き出す、というものでした。ワード検索ということで真っ先にgrepを思いつきましたが、grepのヘルプを見ても、検索ワードを別ファイルから読み込む様なオプションが見当りませんでした。また、awkで切り出して比較するとしても、元のfile_b*.csvのフォーマットで吐き出す方法がわからなかったのです。 awk -F , '{print $3}' file_b_01.csv | grep ファイル読み込み？ > んじゃfile_a.csvをそういう構成に変換すればよいということです > カンマを改行に置換すれば済みますファイルの読み込みってそんなに簡単なんでしょうか？試しに『grep < file_a.csv』とやってみたら怒られましたし。 #1さんの回答を考えてみたのですが、全く内容が理解できませんでした。 while read a; 　　do 　　　grep -h "^${a}," file_b*.csv; 　　done < file_a.csv ^${a}なので、file_b*csvの行頭にマッチするものをgrepしていると検討はつけたのですが・・・。他に必要な情報がありましたら、ご指摘ください。

trapezium
ベストアンサー率62% (276/442)

2010/06/16 16:39 回答No.1

別に grep でも良さそうな気がする while read a; do grep -h "^${a}," file_b*.csv; done < file_a.csv awk でもいいかもしんない。

質問者

お礼 2010/06/16 19:58

申し訳ありません。質問が間違っていました。file_bのマッチさせたいフィールドが3つ目のフィールドとなります。 file_b*.csv aaaa,bbbb,ユニークID,cccc・・・・ awkの場合だと、該当箇所だけ切り出してチェックはできると思いますが、マッチした行の出力方法がわかりませんでした。

コマンドライン上でのデータ突き合わせ方法

コマンドライン上でのデータの突き合わせについて