• 締切済み

twostepクラスタ分析について

SPSSにあるtwostepクラスタとはどういうアルゴリズムを用いて分類しているのでしょうか? SPSSのwebでは日本語では簡単にしか説明されていないので、あまり分かりません。 詳しい方がいましたら、ぜひ教えていただきたいです。

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

私はSPSSについて無知なのですが、  http://www.spss.ch/upload/1122644952_The%20SPSS%20TwoStep%20Cluster%20Component.pdf の参考文献(リファレンス)にあげられている文献に従っているのではないでしょうか? この文書には次のように書いてありますね。 The first step, calculates BIC for each number of clusters within a specified range and uses it to find the initial estimate for the number of clusters. The second step refines the initial estimate by finding the greatest change in distance between the two closest clusters in each hierarchical clustering stage. k-means methodという方法はランダムな数を発生させて、その数に近いデータポイントを1つのクラスターとし、これを何回も繰り返し行って最終的なクラスターを決めていく方法です。ここでいうtwo-stepも同じようなものですが、クラスタリングの方法(判断基準)としてBICを用いているようですね。でもこれだけじゃ、結局、詳細なアルゴリズムは分からない・・・^^; k-meansやEMアルゴリズムというキーワードも参照にして検索してみるとよいでしょう。

関連するQ&A

  • クラスター分析法を詳しく教えてください。

    spssを使ってクラスター分析法で解析を行いたいのですが、spssを使うのが始めてで、どのようにやれば良いか、困ってます。これから自分でも調べてみますが、もし何か参考になる本やHP等があれば、教えていただきたいです。また簡単な説明などしていただけたら幸いです。よろしくお願いします。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • クラスタ分析後のカイ二乗分析

    クラスタ分析後のカイ二乗分析 SPSSを使ってカイ二乗検定をしようとしていますが、以下のようなケースについておたずねしたいと思います。 1000人の被験者をあるアンケートによって4つのクラスターに分け、そのクラスターごとに「喫煙の有無」の割合に差があるかどうか調べます。 しかし、各クラスターの人数がまちまちで、第一クラスタは100人、第二クラスタは200人、第三クラスタは500人、第四クラスタは200人に分かれました。 第一クラスタで「喫煙する」と答えた割合が80人だった場合、第一クラスタの喫煙率は80%と高くなりますが、全体から見ると8%という小さい数字になってしまいます。 第一クラスタの喫煙率が他のクラスタと比べて高いことを検定するには、どうすればいいでしょうか?

  • クラスター分析の時系列適用のオーソドックスな方法について

    クラスター分析の時系列適用のオーソドックスな方法について アンケートデータをもとに世の中の人をそのライフスタイルにより いくつかのクラスターに分類した上で、今回(現在)はそれぞれのクラスター における自社製品のシェアや認知率などはこうだった、それが1年後は こう変化した、ということを今後時系列比較したいと思っています。 今回のクラスターづくりは10数個の設問をもとに、これをSpssで 因子分析→クラスター分析をして仮につくりましたが、はて、 次回以降は同様のクラスターづくりをどうやったらいいのかと疑問に なってきました。 他の質問では、何を重視するかにより異なるとのことですが、 分類ロジックを同一とするということが求められるかと思います。 良くあるケースだと思うのですが、オーソドックスな方法はこうだ よというのが分かる方(やったことある方)がいらっしゃいましたら ぜひご教示ください。

  • SPSSでクラスタ分析の際のデータ

    SPSSは使ったことがありませんが、仕事で急に必要になりました。ご存知の方はお教えください。 SPSSで、クラスター分析(デンドログラム出力)を行いたいと思います。 その際、データとしては通常の観測変量(変数)ではなく、独自に計算した距離データを使うことになりました。 色々な書籍をあたったのですが、指定した変数から、SPSS内で距離(距離行列)を求め、分析、作図されることはわかりました。 しかし、距離(距離行列)を与えて、分析、作図する方法がわかりません。 メニューから距離行列を与えての操作はできないのでしょうか? シンタックスで、コマンドを指定し、距離行列を読み込んで処理させるしかないのでしょうか? シンタックスで処理するしかないのならば、主なコマンド名だけでもお教えいただけませんでしょうか? コマンドでもクラスタ化の方法は指定できますでしょうか? また、距離行列は、左下だけの三角領域の指定だけを想定していますが、これで良いのでしょうか? SPSS初心者(それよりひどいかも)のため、質問ばかりになってしまいましたが、よろしくお願いいたします。

  • クラスター分析でのクラスター数について

    クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。  そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、 BealeのF値(Beale’s Pseudo F statistic) 2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数 F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。 http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf このように書かれていました。わからない点は、W1,W2の求め方です。  私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?  分析対象は、個体数22、変数100となっています。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • クラスター分析について

    はじめまして。 クラスター分析について最近勉強を始めたところです。似たもの同士をくっつけていくというイメージはできましたが、類似度の測定方法やクラスターの合併方法がたくさんありすぎて困っています。そこで、 (1)どうゆう時にどの方法を使うのが効果的なのか? (2)各測定方法、合併方法を使う時の利点と弊害は? 以上2点についてやさしく教えて下さい。 また、詳しく分かりやすく説明してある文献があれば 紹介して下さい。 よろしくお願い致します。

  • 統計学 クラスター分析について

    動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

  • 破損クラスタ・不良クラスタ・不良セクタとは・・?

    宜しくお願いします。 色々なWEBページで 破損クラスタ・不良クラスタ・不良セクタ等が色々説明されていますが、どうも ページによって解説がまちまちのような気がします。 実際HDDが物理的に壊れてしまっているのはどれなの でしょうか? 宜しくお願いします。