統計学 クラスター分析について

このQ&Aのポイント
  • 動物行動学研究においてアンケート調査のデータ分析を行っています。
  • 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。
  • クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。
回答を見る
  • ベストアンサー

統計学 クラスター分析について

動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

こんにちは。メーンは社会調査を用いた主成分分析なのであくまで参考までにとどめてください。 階層と非階層は調べた限りでは、 生成するクラスタ数を決めている場合は非階層を用い、そうでない場合は階層を用いるようです(『新・社会調査のためのデータ分析入門』(2011)参考)。 また、質問者さんのおっしゃっているTwo stepですが、IBM Knowledge Centerによると探索ツールの一種のようなので、面倒であればそちらを使ってもいいのではないでしょうか(素人判断ですが)? また、尺度が混在しているとのことですが、個人的には問題ないのではと思います(例えば男性を1、女性を2として分類して、2に近いので女性が比較的多く持つ傾向のあるクラスタなのかな?と考える材料にはなりますし。私はよく使います。)。気になるようでしたら名義尺度を排除するのもありかもしれません。

miku3001
質問者

お礼

お忙しいところ早々にアドバイスいただきましてありがとうございます。 おっしゃるよにTwo stepとクラスタ数を決めて非階層でやってみようと思っています。もう一つ質問させていただきたいのですが、尺度が順序と名義で混在していますが、その場合はやはり値を標準化すべきでしょうか。名義が0-1の2値だとすると順序をそれに合わせて同じように0-1にしなければ正確な分析はできないと考えていいのでしょうか。順序尺度は1位、2位、3位、回答なし0という形の回答になっていますが、その場合はどのように合わせるべきでしょうか。アドバイスいただけるとありがたいです。よろしくお願いいたします。

その他の回答 (3)

回答No.4

No.1です。補足分に対する回答です。 >...NAとして除外している形と考えてよろしいでしょうか。0を入れたままでZ得点を取ればいいでしょうか。 回答なしに意味が無いのであれば、NAとして処理すべきでしょう。0を入れたままZ得点を取ると標準化した後の得点が歪みます(平均値と標準偏差がずれてしまうため)。私はSPSSを2年ほど触っていないので処理のしかたは覚えていませんが、一度該当部分をNAとした別データを作って(当然名前も変えて)クラスター分析をしてみてください。

回答No.3

No.1です。忘れていたので一つだけ質問です。 >順序尺度は1位、2位、3位、回答なし0という形の回答になっています 質問者様の実験計画では、「回答なしに意味があるのでしょうか?」意味があるのであればNo.2で書いたとおりで構いませんが、意味が無いのであればNAとして除外するべきです(分析結果が変わってしまうのを防ぐためです。)。

miku3001
質問者

補足

早々にありがとうございます。回答なし0は分析には意味はないのですが、Missing dataになってしまうため、0を入れているだけです。そういう意味ではおっしゃっているNAとして除外している形と考えてよろしいでしょうか。0を入れたままでZ得点を取ればいいでしょうか。何度もすみません。

回答No.2

No.1です。 追加質問の件ですが、 >尺度が順序と名義で混在していますが、その場合はやはり値を標準化すべきでしょうか。 標準化して分析を行うほうが良いと思います。正確な分析のためと言うよりは、比率を保ったまま正規分布に近づけて処理させたほうが解釈する際に都合がいいからです。 また、 >…その場合はどのように合わせるべきでしょうか。 無難にZ得点(平均値0、標準偏差1)でいいのではないでしょうか。

関連するQ&A

  • クラスター分析法を詳しく教えてください。

    spssを使ってクラスター分析法で解析を行いたいのですが、spssを使うのが始めてで、どのようにやれば良いか、困ってます。これから自分でも調べてみますが、もし何か参考になる本やHP等があれば、教えていただきたいです。また簡単な説明などしていただけたら幸いです。よろしくお願いします。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • SPSSでクラスタ分析の際のデータ

    SPSSは使ったことがありませんが、仕事で急に必要になりました。ご存知の方はお教えください。 SPSSで、クラスター分析(デンドログラム出力)を行いたいと思います。 その際、データとしては通常の観測変量(変数)ではなく、独自に計算した距離データを使うことになりました。 色々な書籍をあたったのですが、指定した変数から、SPSS内で距離(距離行列)を求め、分析、作図されることはわかりました。 しかし、距離(距離行列)を与えて、分析、作図する方法がわかりません。 メニューから距離行列を与えての操作はできないのでしょうか? シンタックスで、コマンドを指定し、距離行列を読み込んで処理させるしかないのでしょうか? シンタックスで処理するしかないのならば、主なコマンド名だけでもお教えいただけませんでしょうか? コマンドでもクラスタ化の方法は指定できますでしょうか? また、距離行列は、左下だけの三角領域の指定だけを想定していますが、これで良いのでしょうか? SPSS初心者(それよりひどいかも)のため、質問ばかりになってしまいましたが、よろしくお願いいたします。

  • クラスター分析について

    (1)階層型について:デンドログラムの図から、そのクラスター分けの信頼性、妥当性の判断というものができるかどうか (2)非階層型について:K-means法の具体例やデータはありませんでしょうか。URLもしくはこのようにやったら良いなどの方法、資料などありましたら教えてください。

  • 心理学のデータ分析でどの統計処理を使えばいいのか?

    はじめましてわたしは心理学科の4年です 今現在SPSSで作成したデータを用いて分析しているのですが,どの統計処理を使って良いのか分からなくなっています。 得られたデータとして3つの尺度を用い,ソーシャルサポート尺度10項目、Lyubomirsky Happiness Scale尺度(幸福感)4項目、S-H式レジリエンス尺度3下位尺度27項目をそれぞれ得点化したのですが、どの分析を用いればいいのかわかりません。 仮説では、(1)レジリエンスは,ソーシャル・サポートと相関がある。(これはピアソンの相関分析で行いました)(2)レジリエンス及びソーシャル・サポートが高ければ主観的幸福感は高くなる。(この分析をSPSSでどう分析すればいいのか困っています。) わかりづらい文章で申し訳ないですが、よろしくお願いいたします。

  • SPSS17で二項ロジスティック回帰分析を行うには

    SPSS統計に関する基礎的な質問です。 SPSSを使って二項ロジスティック回帰分析を行う方法として、「分析」→「回帰」→「二項ロジスティック」を選択するとネットで調べました。 以前使っていたSPSS12ではこのやり方で二項ロジスティックの変数増加法、尤度比で解析していたのですが、SPSS17でやってみたところ、同じようにできず困っています。 SPSS17では「分析」→「回帰」を開くと、「線形」、「曲線推定」、「偏相関最少2乗法」、「順序」の4つしかなく、あちこち探ってみたのですが結局分からずじまいでした。 急いで解析しなければいけないデータがあり、また、SPSS12はもう使えない状況であるため、なんとかSPSS17で対応していかねばと思っております。 どうぞ具体的なやり方をご存じの方がいましたら、ご指南いただけないでしょうか。 宜しくお願いいたします。

  • 最適尺度法を伴う回帰分析

    最適尺度法を伴う回帰分析 SPSSでカテゴリカル回帰をしたいと思います。 従属変数は「1.全く不満足~5.非常に満足」までの5つのカテゴリです。 説明変数は、X1~X20まで20コあります。二値のデータで、仮に「A~Tまでの教材を使用したかしないか」という設問で、Aを使用したら1,しなかったら0というように入力しています。 これらのデータでカテゴリカル回帰を行い、A~Tまでのどの教材が満足度への影響力が強いのか「重要度 」を分析したいと思うのです。 SPSSでは、「回帰」から「最適尺度法」、従属変数は「スプライン順序」で「内側ノット」は「2」、説明変数は「スプライン名義」で「内側ノット」は「0」と設定しています。しかしエラーが出て計算ができません。カテゴリカル回帰ご存じの方おられましたら、御指南ください。

  • SPSS 分散分析とノンパラメトリック

    心理学の実験データをSPSSにて分析しようと考えています。 3時点で2群を比較する場合2要因の分散分析(一要因のみ対応あり)で分析すると聞いたのですが、対応のあるデータが順序尺度の場合(正規分布を仮定できない場合)でも可能なのでしょうか?もしできない場合はどのような分析方法を用いるのでしょうか? また、3時点でN群(3群以上)、対応があるデータが同様の順序尺度の場合どのように分析をすればいいのでしょうか?

  • SPSSでの統計方法について

    各グループに高低2群がある3つのグループ間(名義尺度)の差を見る為に,SPSSで何か方法がありますでしょうか?SASでは,2×3のχ2検定があると書いてあるのですが。SPSS(v.16)では何か方法がありますか?順序尺度ならカテゴリーでも分散分析が使えると言うことですが,単なる名義尺度です。3つのグループ一緒でなくても,2つのグループ間の違いが見れる方法でも良いのですが,何かありますでしょうか。