クラスター分析のクラスター数について

このQ&Aのポイント
  • クラスター分析の初心者が、クラスター数を決める方法について悩んでいます。統計的な示し方に興味があるため、BealeのF値を使いたいと考えていますが、うまく行きません。詳しい方に教えていただきたいです。
  • BealeのF値(Beale's Pseudo F statistic)は、2つのクラスター結果の間の偏差平方和から求められます。具体的な計算式は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]です。ここで、nは全個体数、c1とc2はクラスター数、k1とk2は変数の数に関係した係数です。また、FcritはF分布の一定のパーセンタイル点であり、C1を採択するかどうかを決める指標です。
  • W1とW2の求め方について説明します。W1とW2はそれぞれのクラスター内のクラスター平均からの偏差平方和です。具体的には、各クラスター内の個体ごとに変数の値を取り出し、クラスター平均との差を求めた後、その差の二乗を計算します。そして、それらの値を変数ごとに合計し、W1とW2を求めることができます。なお、ご参考になるサイトのURLを記載しておきます。
回答を見る
  • ベストアンサー

クラスター分析でのクラスター数について

クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。  そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、 BealeのF値(Beale’s Pseudo F statistic) 2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数 F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。 http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf このように書かれていました。わからない点は、W1,W2の求め方です。  私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?  分析対象は、個体数22、変数100となっています。

質問者が選んだベストアンサー

  • ベストアンサー
  • solla
  • ベストアンサー率59% (45/76)
回答No.2

> どのように考えたらいいのでしょうか? 先の回答そのままです。 クラスター k に属する個体 Xi(k), i=1,…,22 とクラスター k の重心 m(k)がそれぞれ100次元のベクトルになりますから、その差のノルム || Xi(k) - m(k) || (ユークリッド距離に相当)が偏差になりますので、偏差の2乗 || Xi(k) - m(k) ||^2 を全ての i について和をとればいいのではないかと思います。文字通り偏差平方和です。具体的な計算はベクトルの成分を書いてみれば解るかと思います。

その他の回答 (1)

  • solla
  • ベストアンサー率59% (45/76)
回答No.1

クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。 > k1=c1-2/p、k2=c2-2/p は、 k1=c1^(-2/p), k2=c2^(-2/p) の誤りではないかと思います。 そして > それを用いて変数毎にクラスター間で偏差平方和をして、 ではなく、各クラスター内での偏差平方和をとるのではないかと…。 つまり、クラスター k に属する個体 Xi(k) とクラスター k の重心 m(k) とのユークリッド距離の2乗 || Xi(k) - m(k) ||^2 を全ての個体について合計するのだと思います。 > 個体数22、変数100となっています。 クラスター分析では必ずしも誤りとは言えないと思いますが、100個の変数を使っていても、結局個体は21次元の部分空間に布置されており、79の冗長な次元を扱うことになるので、主成分分析などで変数の余分な次元を減らしたほうがいいのかもしれません(この点はもっと自信が無いので参考程度に…)。

haba999
質問者

補足

ご回答ありがとうございます。  1・3つ目については、よくわかりました。  すいませんが2つ目について、再度お伺い致します。あの後、よく考えて、sollaさんのように考えたのですが、個々のクラスターでユークリッド距離(偏差平方和)について求め、その後が解りません。その数値を合計するのか平均を出すのか、またユークリッド距離を出すのか解りません。どのように考えたらいいのでしょうか?

関連するQ&A

  • 分散分析の結果の見方を教えて頂けませんか??

    生データをエクセルで二元配置分散分析しましたが、結果が出ましたが、結果の見方が分からなくて、困ります。結果としては以下になりますが 因子A(発音)の平方和84.7568自由、度1、平均平方84.7568、F値24.7145、P値0.00000 因子B(意味)平方和0.2432、自由度1、平均平方18.2703、F値0.0709、P値0.7904 この結果の見方や分析し方が分かりませんが、誰かをお教えて頂けませんか。この結果を考察後もう一つのデータ結果と比較します。そのデータは以下にあります。 因子A:平方和4.1771、自由度1平均平方4.1171、F値12,6188、P値0.0007、 因子B:平方和1.0863、自由度1、平均平方1.8063、F値5.5358、P値0.0215 日本語は変なところもあるかもしれませんが、よろしくお願いします。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • 統計学 重回帰分析についての問題

    問題 目的関数をy、説明変数を他の二つとして重回帰分析を行え。 この問題をRで実行し、※は自分がつけた補足です。 以下は間違ったことを言っていないか見てほしいです。 よろしくお願いします。 > condo<- read.table("clipboard",header=TRUE) ※Excel上で範囲指定したデータを読み込む > condo x1 x2 y 1 12 4 22 2 12 3 24 3 11 3 21 4 7 1 19 5 8 3 19 6 9 2 22 7 14 5 24 8 11 4 23 > attach(condo) > lm1<- lm(y~.,data =condo)  ※yを目的変数、他のすべての変数を説明変数として線形重回帰分析を実行 > summary(lm1) ※実行結果の要約 Call: lm(formula = y ~ ., data = condo) Residuals: ※残差の8数要約 1 2 3 4 5 6 7 8 -0.7477 0.6682 -1.3259 -0.4708 -0.3084 1.1016 -0.1752 1.2582 Coefficients: ※係数の最小二乗推定値と対応t値など Estimate Std. Error t value Pr(>|t|) (Intercept) 13.0140 2.1917 5.938 0.00193 ** ※β_0 x1 1.0058 0.3465 2.903 0.03369 * ※β_1 x2 -0.5841 0.6478 -0.902 0.40854 ※β_2 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.087 on 5 degrees of freedom Multiple R-squared: 0.7852, Adjusted R-squared: 0.6992 ※寄与率、自由度調整済み寄与率 F-statistic: 9.137 on 2 and 5 DF, p-value: 0.02139 最後の行は、母集団において、得られた回帰式 y= β_0+ β_1 x_1+ β_2 x_2+ ε_i が全くあてにならないという仮説(H0: β_1= β_2= 0 )を分散分析で検証している。検定統計量 F=S_R・(n-p-1)/ S_e・p ( n:標本数、p:説明変数の数、S_R:回帰による平方和、S_e:残差平方和 ) が自由度(p,n-p-1)のF分布に従うことを用いている。上記では、p値が0.02139と極めて小さいので、有意水準0.05で仮説H0は棄却され、母集団においてもこの式はあてになるという結論に至る。 ・・回答よろしくお願いします。

  • ポアソン分布

    {Xj}を同一分布をなす互いに独立なベルヌーイ確率変数列とする(ここで、P[Xj=1]=p, P[Xj=0]=1-p)。SN=X1+X2+・・・+XNを確率変数Xjのランダムな個数N個の和とする。ここで、Nは平均λのポアソン分布をなすものとする。このとき、SNは平均λpのポアソン分布をなすことを証明せよ。という問いに対してなのですが、 Xj の和をとる個数 N がポアソン分布に従って変化するとき、Xj の和の分布を考えればよいことはわかりました。 N 個の確率変数の和が n になる確率は N C n p^n (1-p)^(N-n) であり、和を取る確率変数の数が N である確率はポアソン分布なので e^(-λ) λ^N / (N !) 和が n になる確率は、 確率変数が N=n 個でかつ和が n 確率変数が N=n+1 個でかつ和が n 確率変数が N=n+2 個でかつ和が n ・・・・ で N が無限個まで確率の和を取ればよいので、 Σ(k=0→∞)の{ (n+k) p^n (1-p)^k } と考えたのですが、ここから先に進めません。 おそらく途中で間違えてしまったと思うのですが、ご指摘いただけないでしょうか。

  • 統計ソフトを利用した散布図作成とクラスタ分析について

    表1のような変数から散布図(図1)を作成して、商品郡(かたまり)を調べる分析方法をご伝授ください。 [表1] 縦軸(指標1)    横軸(指標2)    商品名(変数名) 商品A(1)商品B(2)商品C(3)商品A(4)商品B(5)商品C(6) 3    3    3    2   30   54 10   10    10   30   35   2 3    20    20   40   30   3 20   20    50   45   30   20 10   30    30   10   35   5 [図1] %|%%%%% %|C  % %| D % %|D%%%% %|D% @ @      A %|C%  @B@ %|%%  @CBB@  |  @A CD@     A  |A  @ABB@   C  |-------------------- %で囲まれたグループ、@で囲まれたグループみたいなグループを発見して、そのグループ内の商品数を求める。 [表3] %グループ A-0個 B-0個 C-2個 D-3個 @グループ A-・・・・・・ 使用可能ツール - SPSS、クレメンタイン、R、エクセル SPSSを利用して散布図を描くことはできました。 商品郡を調べる方法として、 SPSSだとtwostepクラスタか大規模ファイルのクラスタ を使えばいいと思うのですが、変数の指定の方法がよくわかりません。 変数を(1)~(6)をそのまま放り込むと、 変数(1)と変数(4)が同じ商品であることが考慮されない気がします。 ちぐはぐなこと言っているかも知れませんが、よろしくお願いします。

  • 回帰分析です

    ある論文を読まされています. 論文の中で回帰分析が用いられているのですが,「被説明変数が5%水準で有意に正」であるとなっているのですが,被説明変数名とサンプル数,AdjR2,B-P.het.test,F-statisticしか書かれていません. 説明変数のT-statisticが|2|以上なら5%有意(P-statisticで0.005)だとは教わったのですが… 一体,被説明変数が5%水準で有意と何で判断してるのでしょう? 教えて下さい!

  • 【エクセル2010での回帰分析】

    現在エクセルでの回帰分析に取り組んでいるのですが、おかしな結果になってしまいます。 原因がわかる方いらっしゃいましたら、ご教授いただけないでしょうか。 回帰分析は説明変数2つ、ダミー変数5つ、観測数466で行っています。 添付画像のように、 概要のうち、一つの変数の係数・標準誤差が0、tが65535、P-値が#NUM!になってしまい、 その一つ下の行の変数が、P-値が同様に#NUM!になってしまいます。 また、説明変数とダミー変数の種類・数を変えて回帰分析を行うと、変数の数が多いときに、この現象(変数のうち一つが係数・標準誤差・t・P-値がおかしな値になり、その下の行の変数のP-値が#NUM!になる)が生じます。 このような場合 どういった原因が考えられ、対策としてはなにが必要でしょうか? よろしくお願いいたします。

  • 重回帰分析での説明変数

    重回帰分析で説明変数が、例えば5因子あったとします。 通常は、重回帰分析した後に、有意な因子(目的変数に対して効果のある因子)を例えばF>2等の基準でもって、抽出すると思いますが、 これら説明変数のがMKSA(mg、um、sec等)の次元が異なる場合、同じ基準で有意な因子が抽出できるのでしょうか?  例えば、同じ次元であっても、cmとmmの因子を混在させては、平方和計算から異なってくるので、同じ基準で有意な因子は抽出できないですよね? もし、出来るのであれば、証明するにはどうしたらよいですか?  よろしくお願いします。

  • 数学☆★素数の性質

    「平方数n^2が素数pの倍数⇒nは素数pの倍数」 と参考書に書いてあるのですが 理解ができません。 n^2=9(3の倍数)⇒n=±3(3の倍数) と成立しますが、 n^2=14(7の倍数)⇒n=±√14(7の倍数でない) と不成立だと思うのですが。 誰か教えてください。 お願いしますm(_ _)m

  • 自由度及び平均平方について(統計解析)

    お世話になります。 初歩的なことかと存じますが、ご回答いただきたくお願いいたします。 統計解析で ”平均平方=(平方和)/(自由度)”とあり、私は ”平方和”・・・ばらつきを表す指標 と理解していますが、「”平方和”を自由度で割る」ことが、何を表す 指標になるのか、理解できません。 自由度の意味を、根本的に理解できていないからかもしれません。 自由度及び平均平方について解説いただきたく、お願いいたします。 以下例題の分散分析表の、平均平方から、F値、p値へ進むに当たり 平均平方の部分で、つまづいています。 例) 要因  平方和  自由度 平均平方 F比  p値     回帰  1000.35   5    200.07  65.17  0.000    残差   78.17   26      3.01  よろしくお願いいたします。