因子分析とクラスタ分析とセグメント判別の方法

このQ&Aのポイント
  • 30項目、10段階評価のアンケート設問を用いて、因子分析とクラスタ分析を行い、回答者をセグメントに分ける方法について質問があります。
  • 具体的な手順として、元の回答者とセグメントを紐付け、回帰分析式を作成し判別する流れで進めることができます。
  • 参考になるURLもご紹介しますので、ぜひご覧ください。
回答を見る
  • ベストアンサー

因子分析とクラスタ分析とセグメント判別用の汎用設問化

30項目、10段階評価(非常にそう思う~どちらでもない~まったくそう思わない)のアンケート設問をもとに、因子分析(回答者に各因子スコア付与)とクラスター分析を用いて回答者をセグメンテーションした結果があります。現在、セグメントは1,000名の回答結果に対して4セグメント生まれました。 そこで有識者の皆様に質問があります。 次回、また同じアンケート(30項目、10段階評価)を別の回答者に対して行った際、同じロジックになよってセグメントされるようにしたいのですが(アルゴリズムを公式化・設問を汎用化運用したいのですが)、その手順というのは、 (1)1,000名の元の回答者とセグメント(4分類)を紐付け (2)1,000名の元の「30項目10段階評価」の結果を説明変数とし、判別されたセグメント(4分類)を目的変数とした(非線形?)回帰分析式を求める (3)新たな(別の)回答者の「30項目10段階評価」の回答を、(2)で作成した回帰分析式に代入 (4)セグメント判別 という流れで当たっていますか? 何か、参考になるURLでもかまいませんので、ご教授いただけますでしょうか。 どうぞ、よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • taba
  • ベストアンサー率61% (349/567)
回答No.2

手元にある本を見直してみたら、下記の本に因子分析等の空間付置を行う分析手法で時系列分析をどうするかという、まさに今回のテーマに近い解説がありました。 「入門 多変量解析の実際 第2版」 http://www.amazon.co.jp/o/ASIN/4061539639/ ※トラブルシューティングの項 クラスター分析の時系列適用も、似たような実例が載っていました。 ただし、ある程度手法の意味が分かっていないと、適用はできないかもしれません(数学的な手続きまで説明しているわけではない)。まあ、それほど高い本ではないので見てみてください。

hatena_id
質問者

お礼

迅速なる回答、誠に有難うございます!! 私自身、因子分析やクラスター分析はSPSSを使って「アルゴリズムを回してアウトプットを出す」という短絡的・単純的に日常的に使用しています。おおよその意義は理解しているつもりではありますが、今回のように、一度クラスタリングしたそのロジックを、他のサンプルに対して汎用的に再活用するということは、理解を超えておりました。 この度は説明不足にもかかわらず、懇切丁寧な回答をどうもありがとうございます。 また何かありましたら、是非、宜しくお願い致します。

その他の回答 (1)

  • taba
  • ベストアンサー率61% (349/567)
回答No.1

因子分析はデータの特徴を相対的な観点から抽出する手法ですので、別のサンプルセットに対して適用すると同一の結果にはなりません。分析の目的が良く分からないので一概には言えませんが、「同じロジックによってセグメント」することが重要である場合、因子分析を使うこと自体が問題とも言えます。 また、クラスター分析は(上の手続きでは)因子スコアを使ってたまたま4つに分けたのであり、同じ数のセグメントに分けるという考え方は誤っています(時間が経てば回答者は変化するわけで、違うセグメントを設定した方が適切であったり、そこまではいかなくても従来のセグメントからははずれたサンプルが出てくるのが普通です)。 従って、(2)の回帰という手法を採ることは考えづらいですね。 絶対的な正解はないと思いますが、因子分析に関しては 1)古いデータの因子スコアをそのまま利用する 2)古いデータと新しいデータをまとめたデータで再度因子分析する のどちらかが多いように思います。ただ、新しいデータだけで因子分析を行って、構造が大きく変わっていないことは確認しないといけないでしょう。 クラスター化に関しては、新しいデータだけでクラスタリングを再度行うか、新旧データでまとめてクラスタリングをやり直すか。また、古いクラスタリングを見ながら、重心からの距離等(最初のクラスタリングで使った手法にもよりますが)でどのクラスターに含めるかを恣意的に決めるかといったところではないでしょうか。

hatena_id
質問者

補足

仰るとおり、目的によっても異なりますね。 ご迷惑でなければもう少し、伺っても良いでしょうか。 後半でご指摘の「古いクラスタリングを見ながら、重心からの距離等・・・」というのが、今回、まさしく使いたい手法です。 ※回帰分析で云々、というのは見当違いであることを認識いたしました。 そこで、そのようなやり方の参考になるような書籍(手順や手法の教科書的なものですと幸いです)やURLをご存知でしたら教えて頂けますでしょうか? どうぞよろしくお願い致します。

関連するQ&A

  • 「統計学」因子分析に代わる方法はないですか?

    妥当な統計解析方法が見つからず困っています。 下記のような「はい」「いいえ」で答える質問紙を用いて、第三者が客観的に評価を行ったとします。 例)今日の患者さんの症状で当てはまるものに「はい」をつけてください 質問1 100m歩くと息切れがする    質問2 階段を昇ると胸痛が出現する    質問3 起床時の問診でドキドキ感を訴えた など50問  この結果、似たような項目に「はい」がついた人を分析し、 その結果、心臓由来の原因症状を因子に分類(痛みの因子・息切れの因子・・など)する方法を探しています。 通常ですと、5~7件法の質問に対し因子分析法を用い、 因子負荷によってそのまとまりを探すのが一般的ですが、 今回のデータはアンケートではなく、 第3者が症状を質問し「はい」=1「いいえ」=0と変数化した2件法なので、 因子分析には向かないのではないかと考えたためです。 患者さんご自身に答えていただく方法は今回とれないのです。 どなたかよい解決方法を知っていましたら、ご教示ください。 宜しくお願いします。

  • 主成分分析も因子分析のように繰り返せるの?

     研修課題で、商品イメージと商品魅力の関係を調べています。SD法で商品イメージを測り、主成分分析を行いました。  そこで、学生時代に因子分析では因子負荷量の絶対値が0.4未満の項目は削除して因子分析を繰り返すようになど習いました。【質問(1)】「主成分分析」でも同じように項目削除→繰り返しを行うものなのでしょうか? また、二重負荷項目の扱いはどうしたらよいのでしょう? 【質問(2)】項目削除して因子分析を繰り返す理由って何ですか? 因子の妥当性だか信頼性だかが上がるから、と習った記憶がありますが、“日常会話”で表現するとどういうことですか? 【質問(3)】この調査の目的は、魅力ある商品開発のために人気商品のイメージを探ることです。この動機だと、そもそも主成分分析と因子分析のどちらが適していたのでしょう・・・?  この後、各主成分得点を説明変数、商品評価(良い―悪い)を目的変数にして重回帰分析を行います。  ちなみに、Excelで解析しています。  ドシロートなのにビジネス文書の中で統計プロセスを説明して行かなければならず、四苦八苦しています。親切な回答をどうかよろしくお願い申し上げます。

  • 因子分析における共通性について

    あるアンケート調査結果からSPSSを用いて因子分析をしようと考えています。ところがデータを入力して初期解を求めると「1よりも大きい共通性推定値がありました」と警告が出てしまいます。 データの数が少ないとか、因子抽出法が合っていないなどが原因と考えました。しかし質問項目数は、4つ程度の因子抽出を考えていたので15項目にし、回答者数は82名の有効回答数を得ました。因子抽出法も試行錯誤しながらあれこれやってみたのですが、どうしても警告が出てしまいます。 ほかに何か考えられる原因があるでしょうか。また共通性が1を超えてしまう質問項目を除いて再計算する方法でも良いのでしょうか。考えられる原因と対処方法を教えていただきたいです。 ちなみち因子分析をするのは今回が初めてなので、わくわくしながらデータを入力したのですが、いきなり出鼻をくじかれた感じでへこんでます。よろしくお願いします。

  • 因子分析について。

    ある論文の中で下記のような記述がありました。 因子分析を行い、その結果得られた5因子を命名した。またその5因子に対して「2次構造??」の因子分析を行った結果、3因子が抽出された。 恐らく最初得られた5因子を構成する質問項目か、因子得点を元にさらに因子分析をした、という意味だと思うのですが、この「2次構造??」の部分の正確な記述(分析名)がわからず、そういった分析を行った論文が調べられず困っています。 上記の記述があった論文がどういった論文だったか、不覚にも忘れてしまい、そこから調べることも出来ません。 どなたか参考になるサイトか、記述の意味が分かる方がいましたら教えてください。

  • 因子分析での回転について

    皆さん、因子分析での直交回転と斜交回転の使い分けの理由ついてご教示ください。 そもそも,因子分析の構造って、変数1=因子1+因子2+・・・+因子n+残差1 だと思います(因子負荷係数は省略します)。これは,単純に言えば重回帰式と同じで、因子1と因子2の負荷ベクトルを計算すれば、0になると、統計書で呼んだことがあります。そうするのであれば、各因子は直交で、無相関を前提とするもので、回帰分析での変数間の独立であるという前提条件があると思います。  こうなると既に,因子を求める際、既に因子間の独立性を前提としているのに、なぜ斜交回転の必要性(理由)があるのでしょうか。直交回転と斜交回転の使い分けは、テキストで書いてる内容は理解していますが、どうも上述した内容に疑問を持っています。 よろしくお願いします。

  • 因子分析について

    因子分析を使って,大学生を対象とした飲食店のイメージ評価分析を行いたいと思っておりますが,以下の場合,どのように解析をすすめていってよいのかわからずにおります.どなたかご教示いただけませんでしょうか.なおソフトはSPSSを使用してます. 調査目的:大学生の飲食店のイメージ評価(評価因子の抽出) 調査対象:大学生200人 対象飲食店:20店(マクドナルド,ケンタッキーほか) 設定尺度数:18(おいしい-おいしくない,お手頃-高価等) 具体的な問題点は,以上の場合のSPSSのデータ入力の仕方です. この場合,大学生200人の一人一人に,対象飲食店20店×設定尺度数18=360の設問を応えてもらわなくてはならないのでしょうか? となれば,回答者に膨大な負担をかけてしまうことになり,実施は不可能かと思います. 因子分析のテキストなどを読んでいると,よく国語,数学,理科,社会の4科目の点数を評価尺度として,学生50名程度を対象にした因子分析の例がよくでてきますが,こうした例では上記のような調査分析の際の参考にはなりません. 宜しくお願いします.

  • 因子分析での回転について

    皆さん、因子分析での直交回転と斜交回転の使い分けについてのお考えをご教示ください。 そもそも,因子分析の構造って、変数1=因子1+因子2+・・・+因子n+残差1 だと思います(因子負荷係数は省略します)。 これは,単純に言えば重回帰式と同じですよね。 また、因子1と因子2の負荷ベクトルを計算すれば、0になると、統計書で呼んだことがありますが。そうするのであれば、各因子は直交で、無相関を前提とするものだと思いますが。また、回帰分析での変数間の独立であるという前提条件もあるですよね。  こうなると既に,因子を求める際、因子間の独立性を前提としているのに、なぜ斜交回転の必要性(理由)があるのでしょうか。直交回転と斜交回転の使い分けは、テキストで書いてる通りの内容は理解していますが、どう理解すればよいのでしょうか。ご教示ください。 (初投稿で、なれず心理学カテゴリーにも投稿しておりますので、ご了承ください。)

  • アンケート結果の分析方法(主成分分析等)及びレポート内容について

    初めて投稿させていただきます。 現在、従業員へのアンケート調査を行っております。 アンケートは、従業員の「どれだけお客様本位であるか?」に関するもので、質問数30問程度、5段階評定にて行っております。 そのアンケート結果の分析について、教えていただきたい点があります。 アンケート設問については、4つのカテゴリーごと設問を用意し実施をしています。その各カテゴリーの中でも、関連性の強い設問をグルーピングし、いくつかの因子(成分?)に分けたいと考えています。 目的は、現状では4つのカテゴリーに分かれているに過ぎず各設問ごとに回答結果を見ている状況なのですが、カテゴリーの中である程度のグルーピングを行えば、定量的に何の要素により従業員がお客様本位であるかを評価しやすくなるのでは、と考えています。 1.まずは、各カテゴリー内の設問を、「感覚」でグルーピングし、分類しやすいように名前をつけるなどすべきなのでしょうか? 2.それとも、因子分析(もしくは主成分分析?)を行って、カテゴリーごとに設問をグルーピングすることは出来るのでしょうか? 3.上記のグルーピングを行うために、有効な解析の方法(因子分析?主成分分析?十回忌分析?)をあわせて教えていただきたいです。 統計に関して大変不勉強で申し訳ないですが、ご回答いただけると幸いです。 よろしくお願いします。

  • い因子分析について

    こんにちは。 現在、因子分析について勉強しており、分からない所があるので質問させて頂きます。 アンケート等結果を因子分析した後、固有値の見方がいまいち理解が出来ません。バリマックス回転をした際に、固有値が1以上で数値が高いものが説明力があるとされていますが、 固有値を見る際は、回転前と後のどちらを見て判断するのがよろしいのでしょうか?また、回転後に注目するのであれば、回転前の数値はあまり注視しなくてよろしいのでしょうか? ご回答お願いします。

  • 因子分析の結果、因子得点を使ったクラスタリングを行う際について

    広く一般的には、因子得点を階層分類(ウォード)や非階層分類(k-means)などを通してクラスター分析することが通例だと思いますが、質問です。 仮に因子分析の結果、4因子を抽出することができたとして、当然ですが各レコード(回答者)には4つの因子得点が付与されることになります。ここでレコードを分類(クラスタリング)する際、上記のような通例のクラスター分析を行わず、『単に、4因子をそのままクラスター特性と見なし、各レコードが持つ4因子得点のうち、最も高い得点をもつ因子(ここではそのままクラスター)に強制的に所属させる』という手法を用いた場合、どのような懸案が考えられるのでしょうか。 結果を解釈する上で、把握しておかなくてはいけない背景や知識があれば、と思います。 もっとも、因子分析ですとかクラスター分析の解釈自体が主観的なものですし、数学的・解析的に問題は無いと思いますが、ご意見伺いたいと思います。 勿論、最大値をとるとなると正の値に着目することになるので、負の値が特性を持つ場合に、その特性を無視してしまう、ということは承知の上です。 ただし、階層分類等を用いると、「因子得点が4つとも低いグループ」「因子得点が4つとも高いグループ」といった分類結果が見受けられ、クラスターの特性として傾向を見せにくい(「このクラスターはすべての因子に反応」とか「すべての因子に反応しない」など)ことが多々ありますので、このような質問をしている次第です。 有識者の方、ご意見をいただけれると幸いです。

専門家に質問してみよう