クラスター分析のクラスター数について

2005/09/19 00:57

このQ&Aのポイント

クラスター分析の初心者が、クラスター数を決める方法について悩んでいます。統計的な示し方に興味があるため、BealeのF値を使いたいと考えていますが、うまく行きません。詳しい方に教えていただきたいです。
BealeのF値（Beale's Pseudo F statistic）は、２つのクラスター結果の間の偏差平方和から求められます。具体的な計算式は、F*=(W2-W1)(n-c1)k1／W1[(n-c2)k2-(n-c1)k1]です。ここで、nは全個体数、c1とc2はクラスター数、k1とk2は変数の数に関係した係数です。また、FcritはF分布の一定のパーセンタイル点であり、C1を採択するかどうかを決める指標です。
W1とW2の求め方について説明します。W1とW2はそれぞれのクラスター内のクラスター平均からの偏差平方和です。具体的には、各クラスター内の個体ごとに変数の値を取り出し、クラスター平均との差を求めた後、その差の二乗を計算します。そして、それらの値を変数ごとに合計し、W1とW2を求めることができます。なお、ご参考になるサイトのURLを記載しておきます。

haba999
お礼率68% (34/50)

数学・算数
回答数2
ありがとう数0

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

solla
ベストアンサー率59% (45/76)

2005/09/24 15:14 回答No.2

> どのように考えたらいいのでしょうか？先の回答そのままです。クラスター k に属する個体 Xi(k), i=1,…,22 とクラスター k の重心 m(k)がそれぞれ100次元のベクトルになりますから、その差のノルム || Xi(k) - m(k) || （ユークリッド距離に相当）が偏差になりますので、偏差の2乗 || Xi(k) - m(k) ||^2 を全ての i について和をとればいいのではないかと思います。文字通り偏差平方和です。具体的な計算はベクトルの成分を書いてみれば解るかと思います。

その他の回答 (1)

solla
ベストアンサー率59% (45/76)

2005/09/20 13:47 回答No.1

クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。 > k1=c1-2/p、k2=c2-2/p は、 k1=c1^(-2/p), k2=c2^(-2/p) の誤りではないかと思います。そして > それを用いて変数毎にクラスター間で偏差平方和をして、ではなく、各クラスター内での偏差平方和をとるのではないかと…。つまり、クラスター k に属する個体 Xi(k) とクラスター k の重心 m(k) とのユークリッド距離の2乗 || Xi(k) - m(k) ||^2 を全ての個体について合計するのだと思います。 > 個体数２２、変数１００となっています。クラスター分析では必ずしも誤りとは言えないと思いますが、100個の変数を使っていても、結局個体は21次元の部分空間に布置されており、79の冗長な次元を扱うことになるので、主成分分析などで変数の余分な次元を減らしたほうがいいのかもしれません（この点はもっと自信が無いので参考程度に…）。

質問者

補足 2005/09/21 10:59

ご回答ありがとうございます。　１・３つ目については、よくわかりました。　すいませんが２つ目について、再度お伺い致します。あの後、よく考えて、sollaさんのように考えたのですが、個々のクラスターでユークリッド距離（偏差平方和）について求め、その後が解りません。その数値を合計するのか平均を出すのか、またユークリッド距離を出すのか解りません。どのように考えたらいいのでしょうか？