SQLで重複を無視した結果を得る方法

2008/12/11 21:49

このQ&Aのポイント

大規模商談の営業リストを作成するために、SQLで重複を無視した結果を得る方法を教えてください。
提供されたテーブルから、特定の列を重複なく取得するためには、DISTINCTキーワードを使用します。しかし、この方法では特定の列だけが重複なくなりますが、他の列は重複したままです。
重複を無視して全体の行を取得するためには、GROUP BY句を使用します。GROUP BY句は、指定した列でグループ化し、各グループの1行だけを採用します。そのため、GROUP BY句を使用してname列をグループ化することで、全体の行で重複をなくすことができます。

annyG
お礼率70% (67/95)

PostgreSQL
回答数5
ありがとう数6

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

chukenkenkou
ベストアンサー率43% (833/1926)

2008/12/12 16:52 回答No.4

SQLの基本操作の一つである「group by」を、理解できていませんね。基本操作から、しっかり勉強すべきです。 >実はgroup by も試してみたのですが、どうもうまくいきません。 >とりあえず、下記のようなSQLを書いてみました。 >select name,max(amount),customer >from test.deal,test.person >where person.id=deal.person_id >group by name >order by max(amount) desc 理解できていないまま、いい加減なことをやっていますよ？ > ERROR: column "deal.customer" must appear in the GROUP BY clause or be >used in an aggregate function; >言われるままに、group byの中にcustomerを入れると下記のような結果に >なり、group byを付けても付けなくても同じになりますエラーの内容を取り違えて、デタラメな対処を行っていますよ？ >group by を使用するとして、名前の重複を避けるにはどのようにしたら名前の重複を起こさない（つまり、どのデータを活かすか？）が、不明瞭だし、SQLとして指定されていないのですよ。どうしたい（どのデータを活かしたい）のですか？また、得たい結果（仕様）で、まだまだ不明瞭な点があります。 person_id毎に、最大のamountを得るのは簡単です。しかし、同じperson_idで求めた最大のamountが、二箇所以上のcustomerで記録されていた場合、どういう結果を得たいのでしょうか？理解できていないのに、デタラメの上にさらにデタラメを繰り返すのでなく、簡単なクエリから順次、組み立てていきましょう。今回のクエリは、次の(1)～(3)の順に組み立てていくと、具体的な仕様が明確でない部分が明確になり、SQLの理解も進むと思います。 (1)test_deal表で、person_id毎に最大のamountを得る (2)(1)に該当するtest_deal表のidを得る　→全idとするのか、最大のidあるいは最小のidとするのか、仕様の明確化が必要 (3)(2)のidと、test_person表を結合する

その他の回答 (4)

chukenkenkou
ベストアンサー率43% (833/1926)

2008/12/12 17:28 回答No.5

#4回答の1箇所訂正。＜訂正前＞ (3)(2)のidと、test_person表を結合する ↓ ＜訂正後＞ (3)(2)のidの行のperson_idと、test_person表を結合する＝＝＝＝＝以下、独り言＝＝＝＝＝ select person_id,max(amount) from test_deal group by person_id ; select * from test_deal as d where id=(select min(id) from test_deal where d.person_id=person_id having d.amount=max(amount) ) order by id ; select * from test_person as p inner join ( select * from test_deal as d where id=(select min(id) from test_deal where d.person_id=person_id having d.amount=max(amount) ) ) as x on p.id=x.person_id order by p.id ;

質問者

お礼 2008/12/12 18:55

　すばらしいです。これは難しいんじゃないかと思っていたので、正直いって驚きました。　実は質問を投稿する前から、これはgroup by で解決できそうに見えて実はそうじゃない、というパターンじゃないかという気がしていました。ですが相関サブクエリなどをちょっと書いてみても、どうもいい方法が思いつかないので質問させていただいた次第です。　group by なしの having というのはまだあまり勉強していないところなので、これを機に調べてみたいと思います。　SQLの奥の深さを改めて教えていただいた気分です。本当にありがとうございました。

denbee
ベストアンサー率28% (192/671)

2008/12/11 23:41 回答No.3

回答にあるような条件づけをしたいのであれば、Distinctではいけません。ちゃんとamountがMAXのものだけを収集する条件づけのためにも、Group by句が必要です。とりあえず、以下のページを参考にしてみてください。 http://www.techscore.com/tech/sql/05_08.html

質問者

補足 2008/12/12 00:35

ありがとうございます。実はgroup by も試してみたのですが、どうもうまくいきません。とりあえず、下記のようなSQLを書いてみました。 select name,max(amount),customer from test.deal,test.person where person.id=deal.person_id group by name order by max(amount) desc すると、下記のようなエラーになります。 > ERROR: column "deal.customer" must appear in the GROUP BY clause or be used in an aggregate function; 言われるままに、group byの中にcustomerを入れると下記のような結果になり、group byを付けても付けなくても同じになります name | max | customer ------+-------+---------- 山田 | 20000 | XX商事田中 | 10000 | BB電機山田 | 8000 | RR証券高橋 | 2000 | ZZ不動産　group by を使用するとして、名前の重複を避けるにはどのようにしたらよろしいでしょうか。よろしくお願いいたします。

denbee
ベストアンサー率28% (192/671)

2008/12/11 23:05 回答No.2

何をしたいのかがよくわかりません。上記の例ですと、山田は2件の商談をまとめたにもかかわらず、どちらか1件（金額が大きい方？）でしかランキングに載せたくないわけですか？「各部員のまとめた商談を、金額の大きい順に並べる。ただし、複数の商談をまとめた部員は、もっとも金額の大きい商談だけを表示させる」という動作？

質問者

補足 2008/12/11 23:06

はい、そういうことです。例を変えるならば、こんなものです１２．１９．４１渋井　陽子三井住友海上２００４．　９．２５大　　　阪２２．２１．４７高橋　尚子積水化学１９９８．１２．０６バンコク３２．２１．１８野口みずきグローバリー２００３．　１．２６大　　　阪４２．２１．４５千葉　真子豊田自動織機２００３．　１．２６大　　　阪５２．２１．５１坂本　直子天　満　屋２００３．　１．２６大　　　阪６２．２２．１２山口　衛里天　満　屋１９９９．１１．２１東　　　京７２．２２．４６土佐　礼子三井住友海上２００２．　４．１４ロンドン８２．２２．５６弘山　晴美資　生　堂２０００．　１．３０大　　　阪９２．２３．２６大南　博美ＵＦＪ銀行２００４．　９．２５ベルリン１０２．２３．３０小崎　まりノーリツ２００３．　１．２６大　　　阪 http://www.geocities.jp/majikanahappy/marathonkiroku.html 高橋尚子は2時間22分台で何回か走っていますが、ここには載ってません。

chukenkenkou
ベストアンサー率43% (833/1926)

2008/12/11 21:58 回答No.1

>nameをdistinctしているにもかかわらず重複排除しているのは、nameでだけでなく、name,amount,customerの組み合わせでの指定になっています。 >期待している検索結果「RR証券」を検索対象から外すのは、どういう条件でですか？

質問者

補足 2008/12/11 22:20

ありがとうございます。なるほど、distinctは全てにかかるのですね。とても勉強になりました。 RR証券をはずす条件（というか、理由）は、この検索結果は営業部員個人のランキングですので、山田さんが1位と3位に2回出てくるのは望ましくない、ということです。上記、補足になっておりますでしょうか。よろしくお願いいたします。

SQLで重複を無視した結果を得る方法

無視されるdistinct

質問者が選んだベストアンサー