クラスター分析の時系列適用のオーソドックスな方法について

このQ&Aのポイント
  • クラスター分析の時系列適用について、オーソドックスな方法を教えてください。
  • アンケートデータをもとに人をライフスタイルでクラスター分類し、時系列比較したいです。
  • クラスターづくりのための設問や分類ロジックについても参考になる情報があれば教えてください。
回答を見る
  • ベストアンサー

クラスター分析の時系列適用のオーソドックスな方法について

クラスター分析の時系列適用のオーソドックスな方法について アンケートデータをもとに世の中の人をそのライフスタイルにより いくつかのクラスターに分類した上で、今回(現在)はそれぞれのクラスター における自社製品のシェアや認知率などはこうだった、それが1年後は こう変化した、ということを今後時系列比較したいと思っています。 今回のクラスターづくりは10数個の設問をもとに、これをSpssで 因子分析→クラスター分析をして仮につくりましたが、はて、 次回以降は同様のクラスターづくりをどうやったらいいのかと疑問に なってきました。 他の質問では、何を重視するかにより異なるとのことですが、 分類ロジックを同一とするということが求められるかと思います。 良くあるケースだと思うのですが、オーソドックスな方法はこうだ よというのが分かる方(やったことある方)がいらっしゃいましたら ぜひご教示ください。

  • go321
  • お礼率100% (2/2)

質問者が選んだベストアンサー

  • ベストアンサー
  • taba
  • ベストアンサー率61% (349/567)
回答No.2

#1です。追加のご質問の件です。 現在作成されているクラスターは、(例えば)因子分析で寄与率が高かった上位3つの因子スコアを使って、空間にサンプルを配置し、何らかの距離を計算して作成しているのだと思います。 2回目の調査を行ったときに、その同じ因子スコアを使って、1回目と同じ空間にサンプルを配置するのです。もちろん本来はまったく同じ構造ではないわけですが、同じ質問項目であれば(同じ構造だとみなして)各因子軸上のスコアを計算でき、結果的にサンプルを布置できます。 >1回目のサンプルデータと因子スコアのあいだの対応関係を回帰式か何かでフォーミュラ化しておいて、 因子分析自体を理解されていないように読めるので、解析法の参考書などを参照して下さい。 因子スコアは、サンプルデータの(対象となる調査項目の)回答パターンから、特徴を抽出(厳密にはサンプルがうまく分かれるように重み付けといったほうがいいのか)した結果の数値です。各項目ごとの因子スコアを個人の回答結果にかけあわせれば、該当軸上の位置が決まります。その位置データを使って、クラスター分析では近い(何を近いとするか、計算方法で手法は分かれますが)サンプルを集めるわけです。 >軸(グルーピングロジック)を固定して、毎年毎年それぞれのグループの世の中におけるシェア自体はこのように増減し 因子分析(→クラスター分析)があくまでも調査対象を相対的に分類する手法でしか無く、ロジックが固定されないことが問題なのです。軸が性×年齢や居住地域などのデモグラフィック属性であれば問題ありませんよね。それと同じで、固定できる手法であれば、それがライフスタイル的な軸であっても、時系列比較に使えます。

go321
質問者

お礼

ご回答ありがとうございます、大変助かりました。 イメージはつかめましたので、解析法の参考書を読みつつ、さっそくご教示頂いた方法でトライしてみます。

その他の回答 (1)

  • taba
  • ベストアンサー率61% (349/567)
回答No.1

概念レベルでいうと、ライフスタイルが時代とともに変遷するため、一定期間後に同じライフスタイル軸で比較をするという考え方自体に問題があります。実際に調査してみると分かりますが、たいていの場合は、因子分析をすると軸が微妙に変化してきます。 これを避けるためには、ライフスタイルを把握する手法に因子分析などの(相対的に内部構造を分類する)手法ではなく、絶対的な方法で分類することが必要になります。 とはいえ、ご質問のようなことは誰でも考えるわけで、実際に行われているのはだいたい次のどちらかだと思います(どちらも見たことはあります)。 1)2回の調査の全サンプルを使ってライフスタイルを分類する。 2)1回目(もしくは2回目)の因子スコアを使って、2回目(1回目)のサンプルを布置する。 いずれの場合も、それぞれの調査単独でライフスタイル分析を行って、大きな構造変化が起きていないという前提を確認する必要はあると思います。 そういう曖昧なことを望まないのであれば、1回目の調査で分類したクラスターを再現できるスケールを調査項目から作成し、それを次の調査でも使えばよいということになります。例えばクラスターAは質問1と3と5に反応したサンプル、等。

go321
質問者

お礼

丁寧に回答いただき、ありがとうございます。 1点、絶対的スケールを作成する方法として「2)1回目(もしくは2回目)の因子スコアを使って、2回目(1回目)のサンプルを布置する」というところの手順について、もう少し詳しく教えて頂けないでしょうか? 1回目のサンプルデータと因子スコアのあいだの対応関係を回帰式か何かでフォーミュラ化しておいて、それを2回目のデータに適用するという意味な気がしましたが・・・実際のやり方がいまいち分かりません。 初歩的なことかもわかりませんが、どうぞよろしくお願いいたします。 PS 補足情報ですが、私がやっている今回のケースは、世の中の人を価値観やライフスタイルで5分類くらいにしたとき、Aというタイプにおける自社製品シェアは80%だけれども、のこりのB~Eというタイプに置いては10%くらいであり、したがってB~Eのそれぞれのタイプにおけるマーケティングプランを策定し、1年ごとくらいにどの程度シェアが結果として向上したかを追跡する、というものです。 仰っていただいたように、世の中のライフスタイルが急激に変化するなかで、軸(グルーピングロジック)を固定して、毎年毎年それぞれのグループの世の中におけるシェア自体はこのように増減し、さらにその中における自社製品のシェアはこう増減した、ということをやるのはいささか不安に思えてきました・・・

関連するQ&A

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • クラスタ分析 結果の安定性について

    統計解析の初心者です。 2つの疑問と対処法に困っています。お分かりになる方ぜひ教えて いただければ幸いです。 <使用ソフトと分析方法> ・ソフト:SPSSの ・分析方法:大規模ファイルのクラスタ(非階層クラスタ/K-means法) ・変数:事前に行った因子分析結果の7因子の因子得点 <1> クラスタ数を5に指定し、その他をデフォルトの設定で行ったところ、 「反復の記録」のところで、「反復が最大回数実行されたため、反復を 終了しました」というメッセージが出ていました。 (反復回数「10」、収束基準「0」) この結果を最終結果として用いてはいけないものなのでしょうか? 実は既に一度この結果を提出してしまっているのですが…、 後から気づいて、試しに反復回数を変えて何度かやってみたところ、 あまりに結果(クラスタ別の因子得点平均点)が違うことに驚いて います。 既に結果を提示してしまっているため、できれば、最初に行った結果 でも誤りではない、という根拠が得られればと思っています。 <2> 上記のクラスタ分析の結果について、「安定性を検証して欲しい」 という要望を受けました。 クラスタ分析の「安定性」に該当する数値を出す方法とは、どのような 方法があるのでしょうか? 例えば、因子分析の場合の累積寄与率のように「○○%」という形で わかりやすくバシッと数値で出せるものなのでしょうか? SPSSで出せる方法を知りたいと思っています。 基本的な質問で恐縮ですが、よろしくお願いいたします。

  • 因子分析とクラスタ分析とセグメント判別用の汎用設問化

    30項目、10段階評価(非常にそう思う~どちらでもない~まったくそう思わない)のアンケート設問をもとに、因子分析(回答者に各因子スコア付与)とクラスター分析を用いて回答者をセグメンテーションした結果があります。現在、セグメントは1,000名の回答結果に対して4セグメント生まれました。 そこで有識者の皆様に質問があります。 次回、また同じアンケート(30項目、10段階評価)を別の回答者に対して行った際、同じロジックになよってセグメントされるようにしたいのですが(アルゴリズムを公式化・設問を汎用化運用したいのですが)、その手順というのは、 (1)1,000名の元の回答者とセグメント(4分類)を紐付け (2)1,000名の元の「30項目10段階評価」の結果を説明変数とし、判別されたセグメント(4分類)を目的変数とした(非線形?)回帰分析式を求める (3)新たな(別の)回答者の「30項目10段階評価」の回答を、(2)で作成した回帰分析式に代入 (4)セグメント判別 という流れで当たっていますか? 何か、参考になるURLでもかまいませんので、ご教授いただけますでしょうか。 どうぞ、よろしくお願いいたします。

  • SPSSでクラスタ分析の際のデータ

    SPSSは使ったことがありませんが、仕事で急に必要になりました。ご存知の方はお教えください。 SPSSで、クラスター分析(デンドログラム出力)を行いたいと思います。 その際、データとしては通常の観測変量(変数)ではなく、独自に計算した距離データを使うことになりました。 色々な書籍をあたったのですが、指定した変数から、SPSS内で距離(距離行列)を求め、分析、作図されることはわかりました。 しかし、距離(距離行列)を与えて、分析、作図する方法がわかりません。 メニューから距離行列を与えての操作はできないのでしょうか? シンタックスで、コマンドを指定し、距離行列を読み込んで処理させるしかないのでしょうか? シンタックスで処理するしかないのならば、主なコマンド名だけでもお教えいただけませんでしょうか? コマンドでもクラスタ化の方法は指定できますでしょうか? また、距離行列は、左下だけの三角領域の指定だけを想定していますが、これで良いのでしょうか? SPSS初心者(それよりひどいかも)のため、質問ばかりになってしまいましたが、よろしくお願いいたします。

  • アンケート結果の分析方法(主成分分析等)及びレポート内容について

    初めて投稿させていただきます。 現在、従業員へのアンケート調査を行っております。 アンケートは、従業員の「どれだけお客様本位であるか?」に関するもので、質問数30問程度、5段階評定にて行っております。 そのアンケート結果の分析について、教えていただきたい点があります。 アンケート設問については、4つのカテゴリーごと設問を用意し実施をしています。その各カテゴリーの中でも、関連性の強い設問をグルーピングし、いくつかの因子(成分?)に分けたいと考えています。 目的は、現状では4つのカテゴリーに分かれているに過ぎず各設問ごとに回答結果を見ている状況なのですが、カテゴリーの中である程度のグルーピングを行えば、定量的に何の要素により従業員がお客様本位であるかを評価しやすくなるのでは、と考えています。 1.まずは、各カテゴリー内の設問を、「感覚」でグルーピングし、分類しやすいように名前をつけるなどすべきなのでしょうか? 2.それとも、因子分析(もしくは主成分分析?)を行って、カテゴリーごとに設問をグルーピングすることは出来るのでしょうか? 3.上記のグルーピングを行うために、有効な解析の方法(因子分析?主成分分析?十回忌分析?)をあわせて教えていただきたいです。 統計に関して大変不勉強で申し訳ないですが、ご回答いただけると幸いです。 よろしくお願いします。

  • 時系列データの統計量

    こんにちは。 いま船の航跡データからクラスター分析を行い、いくつかのルートに分類することを考えています。 クラスター分析を行うために、3次元時系列データ(x座標、y座標、時間)を統計量で処理したいのですが、こういった多次元時系列データの場合にはどのような統計量を使えばよいのでしょうか? 何卒ご指導頂けますようお願い申し上げます。

  • 適切な分析方法を教えてください。

     統計については基礎の本を読み、spssの基礎講習に出席した程度の入門レベルです。  下記のような研究をするにあたり、適切な分析方法がわからず、身近に詳しい人がいないため、困っています。  人の死に向かい合う仕事である看護師のストレスコーピングについて、個人の死生観がどのように関係しているのかを探るのが目的です。対象は看護師21名で、アンケートにてデータを収集します。  ストレスコーピングに関しては、ヒューマンケアを行う職種向けの尺度(3検法、逃避傾向か克服傾向かの2下位尺度からなる)を使い、各人の数値を得ます。  死生観については自由筆記してもらったものからキーワードを見つけ、グラウンデットセオリーを用いてカテゴリーに分類します。さらに共通するカテゴリーをまとめてコード化し、因子を絞ります。各人が各因子を何回筆記のなかで用いたかをカウントし、数値を得ます。  そのうえで、ストレスコーピングの傾向と、死生観の各因子との関係性を分析したい(死生観についてAという因子を多く持つ人はストレスからの逃避傾向が強いなどです)場合、適切なのはどのような分析方法でしょうか?  カテゴリカル回帰分析を考えていますが、どうでしょうか?

  • 「統計学」因子分析に代わる方法はないですか?

    妥当な統計解析方法が見つからず困っています。 下記のような「はい」「いいえ」で答える質問紙を用いて、第三者が客観的に評価を行ったとします。 例)今日の患者さんの症状で当てはまるものに「はい」をつけてください 質問1 100m歩くと息切れがする    質問2 階段を昇ると胸痛が出現する    質問3 起床時の問診でドキドキ感を訴えた など50問  この結果、似たような項目に「はい」がついた人を分析し、 その結果、心臓由来の原因症状を因子に分類(痛みの因子・息切れの因子・・など)する方法を探しています。 通常ですと、5~7件法の質問に対し因子分析法を用い、 因子負荷によってそのまとまりを探すのが一般的ですが、 今回のデータはアンケートではなく、 第3者が症状を質問し「はい」=1「いいえ」=0と変数化した2件法なので、 因子分析には向かないのではないかと考えたためです。 患者さんご自身に答えていただく方法は今回とれないのです。 どなたかよい解決方法を知っていましたら、ご教示ください。 宜しくお願いします。

  • 因子分析の結果、因子得点を使ったクラスタリングを行う際について

    広く一般的には、因子得点を階層分類(ウォード)や非階層分類(k-means)などを通してクラスター分析することが通例だと思いますが、質問です。 仮に因子分析の結果、4因子を抽出することができたとして、当然ですが各レコード(回答者)には4つの因子得点が付与されることになります。ここでレコードを分類(クラスタリング)する際、上記のような通例のクラスター分析を行わず、『単に、4因子をそのままクラスター特性と見なし、各レコードが持つ4因子得点のうち、最も高い得点をもつ因子(ここではそのままクラスター)に強制的に所属させる』という手法を用いた場合、どのような懸案が考えられるのでしょうか。 結果を解釈する上で、把握しておかなくてはいけない背景や知識があれば、と思います。 もっとも、因子分析ですとかクラスター分析の解釈自体が主観的なものですし、数学的・解析的に問題は無いと思いますが、ご意見伺いたいと思います。 勿論、最大値をとるとなると正の値に着目することになるので、負の値が特性を持つ場合に、その特性を無視してしまう、ということは承知の上です。 ただし、階層分類等を用いると、「因子得点が4つとも低いグループ」「因子得点が4つとも高いグループ」といった分類結果が見受けられ、クラスターの特性として傾向を見せにくい(「このクラスターはすべての因子に反応」とか「すべての因子に反応しない」など)ことが多々ありますので、このような質問をしている次第です。 有識者の方、ご意見をいただけれると幸いです。

  • 数式がわからなくてもSPSSで分析できますか?

    論文作成のために、調査でーたを分析します。SPSSを使おうと思っています。因子分析、主成分分析、クラスター分析をするつもりです。 文系で数学めちゃ苦手です。数式がいまいち理解できなくても、以上のような分析をSPSSでだすことができますか。先輩方教えてください。

専門家に質問してみよう