• ベストアンサー

クラスター分析について

はじめまして。 クラスター分析について最近勉強を始めたところです。似たもの同士をくっつけていくというイメージはできましたが、類似度の測定方法やクラスターの合併方法がたくさんありすぎて困っています。そこで、 (1)どうゆう時にどの方法を使うのが効果的なのか? (2)各測定方法、合併方法を使う時の利点と弊害は? 以上2点についてやさしく教えて下さい。 また、詳しく分かりやすく説明してある文献があれば 紹介して下さい。 よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.1

自信はありませんが,手持ちの資料を参考にいくつかアドバイスをしたいと思います.浅学なため間違いがあるかもしれませんので,その点御了承下さい. クラスター分析には実に様々な手法が用意されています. (1)階層的/非階層的 (2)距離(類似性)の算出法 (3)結合(合併)の方法 この三ポイントでどの手法を用いるかが別れていきます.クラスター分析はオプションが様々あり,分析する人もちゃんと理解して使っている人というのはあまりいないのでは? と個人的に思います. (1)階層的/非階層的 少なくともこの違いだけは押さえたい基準です.クラスター分析は樹形図を描く……これが一般的な連想だと思いますが,あのような,階層的な図である樹形図を求めるのは,階層的クラスター分析です.非階層的クラスター分析は分析者が予め何個のクラスターにデータを分類するか,を指定して分類させる手法のことです.非階層的クラスターでは樹形図は描かれません. 類似性の過程を見たい,あるいは自分でクラスターを分類したいのならば階層的を,とにかくコンピュータに分類させるのであれば非階層的な手法を選びます. (2)距離(類似性)の算出法 有名な統計ソフトにSASとSPSSがあります.SPSSはこの分類を簡単に選択できますが,SASではこの距離算出は選べない……はずです(最新版ならばあるいはできるのかもしれませんが).また,使用する統計ソフトによって選択可能な距離法が違います. 一般的な距離選択法はユークリッド距離法でしょう.恐らくデフォルトはこれが多く,最も制限が少ない汎用性が高いものと思われます.この距離算出法の使い分けを勉強しようとすると,難しい専門書に手を出さなければなりません((1)と(3)の説明を簡単にといえども説明している比較的入門的な統計学の教科書はありますが,この(2)の解説をしたものは入門書では見たことはありません). ただし,使い分けるための基準としては,そのデータが名義/順序/間隔/比率尺度のどれか,の観点で分けられます.例えば相関係数を利用する距離算出法がありますが,相関係数は間隔×間隔尺度データで算出可能な統計値であるので,名義尺度や順序尺度データには使うことはできません.このような観点から距離法を勉強されると良いと思います.使い分けに自信が出るまではデフォルトのユークリッド距離法を使われるが良いでしょう. (3)結合(合併)の方法 主要なものに最近接法,最遠隣法,群平均法,重心法,ウォード法が挙げられます.解説書を見ると,数学的な意味算出法は説明されてはいます.例えば,最近接法はクラスター内の最も近い点同士の距離を参考に,最遠隣法は逆に遠いものを,群平均法は近い距離と遠い距離との平均を,重心法はユークリッド距離が保証されているときに重心を求めてその距離を算出などなど書かれています. 残念ながら,どのときにはどの手法が有効か……というHow to的なものを解説してくれているものはほとんどありません.一応手持ちの資料には ・最近接法:結果として鎖状の大きなクラスターができやすい ・最遠隣法:サイズのほぼ等しいクラスターができやすい ・ウォード法:各クラスター内の分散の残差が最も小さくなるようにする. とあり,「どの手法を用いてもそのアルゴリズム内において最良のクラスターが得られるようになっている」とも書かれています(その他の結合法の特徴は触れられていません). なお,結合法の中では,分散に注目したウォード法が優れれているといわれています. クラスター分析は,その他の多変量解析(重回帰分析など)とはその考えが違います.その他の多変量解析とは,その結果は正しいかどうかを判定するものが多いです.これは逆に言えば,正しい結果があるものだ,と考えているわけです.しかしクラスター分析は,そもそも「正しい」結果なんて一概には決められるものではない,分析者が考える結果を考えるための材料を提供するものだ,という精神に則っています. これに関連して,データ解析の基本的な立場について二三思う所を述べます.データ解析法では,大きく二つの立場があると思います.選択肢が限定されている非常に固定されたものと,非常に開放的で選択肢が豊富(その代わりに一概に「正解」を導けない). 質問者さんの御存知の通り,クラスター分析とは「似たもの同士をくっつける」解析法です.これまでの,その他の分析法では「『似たもの』というのは,素人にはその正確な定義はよくわからなくとも専門家の間では一致してはっきり○○だ,と共通の意味を持っているに違いない」と明確に「似たもの」が定義されていると考えるところです.この考えは,先の「固定的立場」です. しかしクラスター分析では,「『似たもの』にもいろいろ意味があるよ.あなたはどの意味で『似る』って考える? 色々あるからその中で自分の考えに適したものを選んでね.『くっつける』っていろいろ結合の仕方はあるよ.そのうち,あなたの考えている『くっつける』ってどれ? いろいろな中から選んでよ」と分析者に選択を任すようになっています.これは「開放的立場」です. クラスター分析がもしも伝統的な「固定的立場」から作られたとすると,例えば「『似る』や『くっつける』とは色々あるだろうが△△に意味を限定するぞ! え? その意味に納得できない? しらん.その意味に納得できないなら,この解析法を使うな」となるかもしれません. この意味からすると,クラスター分析のオプションの選択には「利点や弊害」というものはないと思います.例えば,最近接法では「大きなクラスターができやすい」とあります.これが何か問題があるのでしょうか? もし「サイズのほぼ等しいクラスターを作りたい」と分析者が考えていれば,これは「弊害」になるかもしれません.でも,最近接法の基準でいえば,自分の基準内で理想的なクラスターを作成しているだけで,利点も弊害もありません. こう考えるとクラスター分析では「効果的」という考えも不適で,「そもそも分析者はどんなクラスターができれば理想なの?」と大本に立ち戻る必要があると思います. そういうわけで,実際問題としては,あまり数学的な意味をあれこれ押さえるよりも,実際に統計ソフトで分析させみて,実際にどのような結果になるのか,を見て判断するのが一番「効果的」だと思います. ……と書きながらも,私自身も,どの合併法ではどのような特徴があるのかを知りたい,という微妙な気持ちを持っているのですが…… 参考資料 「Q&Aで知る統計データ解析」サイエンス社(ISBN4-7819-0915-9) 「初心者がらくらく読める多変量解析の実践」現代数学社(ISBN4-7687-0212-0)

peko24
質問者

お礼

お礼が遅れて申し訳ございません。 ご丁寧に説明して頂きありがとうございます。 分析って難しいですね。まず言葉の意味がわからないですからね。用語や定義の仕方を理解するために、更に別の文献を探さなければ進むことができないですしね。 とりあえず様々な実践例を調べて、自分はどういう分析を使ったら良いのか考えてみたいと思います。 今後お世話になるかもしれませんが、その際はよろしくお願い致します。

関連するQ&A

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • 統計学 クラスター分析について

    動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • クラスター分析の時系列適用のオーソドックスな方法について

    クラスター分析の時系列適用のオーソドックスな方法について アンケートデータをもとに世の中の人をそのライフスタイルにより いくつかのクラスターに分類した上で、今回(現在)はそれぞれのクラスター における自社製品のシェアや認知率などはこうだった、それが1年後は こう変化した、ということを今後時系列比較したいと思っています。 今回のクラスターづくりは10数個の設問をもとに、これをSpssで 因子分析→クラスター分析をして仮につくりましたが、はて、 次回以降は同様のクラスターづくりをどうやったらいいのかと疑問に なってきました。 他の質問では、何を重視するかにより異なるとのことですが、 分類ロジックを同一とするということが求められるかと思います。 良くあるケースだと思うのですが、オーソドックスな方法はこうだ よというのが分かる方(やったことある方)がいらっしゃいましたら ぜひご教示ください。

  • 腐植の定量分析法を教えて

     土壌の腐植の測定に465nmと665nmの吸光度の比(E465/665)を測定して定量ができるらしいことを知りました。  本を探したのですが、そのようなことを書いてあるものに出会いませんでした。  この測定方法をご存知の方教えていただけませんでしょうか? No.1455974 質問:腐植物質の定量方法 質問者:zlatan-ibraさん     使用されていた分析法および文献を教えていただけないでしょうか?

  • フミン質の分析方法を教えてください

    水道原水に河川水や井戸水などを使用しますが、その中にフミン質があると色度が高くなったり、塩素による消毒でトリハロメタンがたくさん生成してしまいます。そのため河川水や井戸水に含まれるフミン質の含有量(濃度)を測定したいと思いますが、上水試験方法や河川水質試験方法などを見ても分析方法が記載されていません。どなたか参考になる文献や、分析方法をご存知の方は教えていただけないでしょうか。

  • 磁力線とクラスター分解について

    最近ガソリンの価格高騰により燃費削減できるものをネットでかなり調べて見たのですが、少し前に公正取引委員会で販売禁止になった商品などあり磁石を使った商品と言うのは少し昔のトルマリンやマイナスイオンみたいな「まじない的」な物なのかな?と思い始めてきました。 そこで磁力関連に詳しい方にお伺いしたいのですが、この手の商品の決まり文句とも言える「磁力線を通す事によってクラスター分解で分子を細かく細分化して燃焼効率を上げる」と言われています。 逆に他のサイトでは「数ピコ秒単位でクラスターはくっついたり離れたりしてるのでこんな事意味がない」とか「そもそもクラスター分解しているかどうかを測定する方法がない」など言われていたりでどんどんわからなくなってきました。 実際のところ磁力線によってクラスター分解する効果はあるのでしょうか? また、分解したとしてもそれをある程度の時間くっつかないように維持できるのでしょうか? そして細分化されれた分子は燃費に対して恩恵はあるのでしょうか? 大学などでこういった研究をされてる方などいらっしゃいましたら何卒教えていただければと思います。 以上、よろしく御願い致します。

  • HPLCによるクロロフィル含有量分析

    HPLCによるクロロフィル含有量分析 今度、藻類のクロロフィルの含有量を調べる実験を計画しています。 文献検索をして、アセトンで抽出して分光光度計で測定する方法を見ました。 HPLCでクロロフィル量を測定することは可能でしょうか??

  • 排ガス分析器比較

    ボイラ等の燃焼ガス(燃料:都市ガス、A重油等)を測定するため 分析器を購入しようと考えています。 調べてみるといろいろなメーカーがあり、メーカーによって分析方法が 異なります。 何が一番いいのかよくわかりません。それぞれ特徴があると思いますが 比較等教えてください。 また、環境計量士の資格が無ければメーカーとして保証できないのか? どなたか教えていただけないでしょうか? URL、本等があれば紹介下さい。

  • 温泉の浸透圧分析

    温泉の浸透圧分析について質問です。 温泉の分類に用いられる鉱泉分析法指針では、鉱泉の浸透圧の分類は、凝固点と溶存物質量の測定により行われています。 しかし、溶存物質量の測定は、試料を乾燥させて、残った物質の質量を用いているため、この方法では正確な浸透圧の測定はできません。 あくまで目安にすぎないということでしょうか?さらにより正確な分析法は?