質的データと量的データをグループ分けするための分析方法とは?

このQ&Aのポイント
  • 質的データと量的データからなるサンプルをグループ分けするためには、数量化3類の計算およびクラスター分析が有効です。
  • 具体的な分析方法としては、まずcのデータを数量化して点数で示し、次にa.b.cの点数データを用いてクラスター分析を行います。
  • また、bの段階で表したデータを数的データとして扱うことも可能ですが、その適切さには疑問が残ります。適切な分析方法を選択するためには、専門書やWebの資料を参考にすることをおすすめします。
回答を見る
  • ベストアンサー

質的データと量的データからなるサンプルをグループ分けするにはどの分析を使えばよいでしょうか。

統計の選び方についておうかがいします。 アンケートの結果から回答者をグループ分けをしてグループ毎の特徴を挙げたいと思っています。 アンケート項目は『a.身長・体重など数値のデータ』・『b.好き嫌いの度合い等の5段階のデータ』・『c.性別・住んでいる地域など順序の全くないデータ』 に分かれています。 統計に関して全く理解できず、本やwebの資料を参考にした結果 以下のような分析をしようかと思っています。 1)cのデータだけで数量化3類の計算をして点数で示す。 2)a.b.cの点数、のデータでクラスター分析をしてグループ分け 数量化で得た結果をクラスター分析にかけてよいのかという点と、 bの段階で表したデータを数的データとして扱っていいかという点 の2点について疑問があります。 また、全く的外れな分析をしようとしているのではないかという不安が有ります。 以上の2点と、正しくはどの分析を用いればよいのかについて、アドバイスいただけたらと思います。 よろしくおねがいいたします。

  • emiom
  • お礼率58% (10/17)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

 No1です。 >cについて数量化3類を行い、  その結果で得られた"軸1""軸2""軸3"を cの量的データ c'として、  a・b・c' を変数としたクラスター分析を行う。  この分析方法は間違っていないでしょうか。  数量化にしろ主成分分析にしろ、情報量は減少します。a・b・c' を変数としたクラスター分析を行っても良いでしょうが、それくらいなら私は、生のデータでクラスター分析を行います。  さらに、1つのデータだけを最初に処理をしておくと、データの正規化が問題になることがあります。

emiom
質問者

お礼

ご回答ありがとうございます! やはりいくつかのデータを先に処理すると少しずつ情報がおかしくなってしまうんですね… 本調査の質問項目をこれから作るので、これからは統計方法も考えながら作っていこうと思います。 アドバイスありがとうございました。

その他の回答 (1)

回答No.1

>1)cのデータだけで数量化3類の計算をして点数で示す。 できますが、せっかく収集したa,bのデータは活用すべきです。 2)a.b.cの点数、のデータでクラスター分析をしてグループ分け 順序データも5以上であれば量的データとして扱ってもよいというのが暗黙の了解です。名義データもカテゴリカルデータにすれば良いでしょう。 それよりも、カテゴリカル主成分分析をしてはどうでしょうか。カテゴリカル主成分分析では、独立変数は、順序、名義、数値のいずれでも良いので、2次元空間にプロットすればグループ分けも可能かと思います。

emiom
質問者

補足

ご回答ありがとうございます! 大変失礼をしてしまったのですが、1)と2)の書き方が間違っていました…  cについて数量化3類を行い、  その結果で得られた"軸1""軸2""軸3"を cの量的データ c'として、  a・b・c' を変数としたクラスター分析を行う。 この分析方法は間違っていないでしょうか。 重ねての質問になってしまい大変申し訳ございません。 よろしくおねがいいたいします。 p.s カテゴリカル主成分分析について教えていただきありがとうございました! 今回は締め切りが迫っているので勉強が間に合わなそうなのですが、 今後の分析にぜひ使いこなせたらと思います。

関連するQ&A

  • データをグループ分けするSQLを組みたいのですが

    メンバーを、各人の点数からグループ分けしたいと 考えています。 グループ分けの基準は、たとえば50点という尺度があり、 その尺度以上離れていたら別のグループとするというものです。 また、各メンバーの点数は最大と最小が登録されています。 現在は、VBでプログラムを作って対応しましたが、 最近、LAG/LEAD分析関数の存在を知ったので、それをうまく使えば、 SQLだけで対応できるのではないかと思えます。 SQLだけで対応できると、そのVIEWを作ってしまえば、ユーザーに 簡単に引き渡せるので管理が楽になります。 うまいSQLがあれば教えてください。 具体的な処理内容は以下の通りです。 例えば、TABLE1のようなデータで、グループ分けをすると ID=1と3の差が50点以内、3と2の差も50点以内なので、 その3名で1グループできます。 ID=4と5は、他と50点以上離れているので、それぞれ一人で 1グループになります。 ID= 6,7 は、差が50点以内なので、2名で1グループとなります。 結果として、TABLE2のような結果になります。 TABLE 1 ID MIN_SCORE MAX_SCORE 1 100 110 2 190 200 3 120 150 4 300 330 5 400 420 6 670 700 7 600 630 TABLE 2 CLASS MIN_SCORE MAX_SCORE N 1 100 200 3 2 300 330 1 3 400 420 1 4 600 700 2 そこに、TABLE1'のようなデータが加わると ID=4と8は差が50点以内で、7と8も差が50点以内なので、 そこらが全て同じグループになり TABLE 2' の結果となります。 TABLE 1' 8 380 550 TABLE 2' CLASS MIN_SCORE MAX_SCORE N 1 100 200 3 2 300 700 5 以上、よろしくお願いします

  • グループ分けの方法

    グループ分けを行うプログラムを考えています. 具体的には, A,B,C,D,Eがあったとき, A-B,A-C,B-Dが1つのグループ(ペア)であれば, A-B-C-Dを1つのグループ(群)とする. このようなルールのもとで,グループ分けをおこないたいのですが, どのようにしたらよいものかいい考えが浮かんできません. なお,元データはそれぞれのペアが1行に1つずつあります. A B A C B C B D : : : : どなたか良い考えが思いつかれた方がいれば, 些細なことでも結構ですので御教授よろしくお願いします.

  • 統計学 クラスター分析について

    動物行動学研究においてアンケート調査のデータ分析を行っています。 質問回答が類似したサンプルをグループ分けしたいのですが、データ尺度が名義尺度と順序尺度が混ざっています。クラスター分析には階層、非階層、Two Stepがありますが、尺度が混合している場合にはどれを使うのが適切でしょうか。データサンプルが2,000近くあり、以前階層クラスターを使おうとした時に明確に結果が出なかったことがあります。 非階層は一般的に連続変数を扱うと言われているようですが、そうなるとTwo stepが適切なのでしょうか。解析ソフトはSPSSを使用しています。どうすべきか分析が進まず、困っています。ご存知の先生がいらっしゃいましたら導いていただけると非常に助かります。どうぞよろしくお願いいたします。

  • 因子分析を用いた2つのグループの特徴を比較するには

    Aグループ(300人)、Bグループ(400人)に対して、全く同じ質問(50項目、回答は6段階)をし、AとBのグループの違いを見たいと思いました。そこで、まずそれらの結果(計700人分)について因子分析を行い、3因子を得ました。そこで、各因子毎の項目得点の合計を下位尺度得点とし、それぞれの相関をみました。次に、AとBの差の検討を行うために、各下位尺度得点についてt検定を行いました。また、A、B別の各下位尺度間の相関係数も出しました。これらの結果で、AとBのグループの特徴の違いをみようと思っています。ですが、この方法よりも、A、B毎に因子分析を行った方がより正確に各グループの特徴がわかるのではないだろうかという思いもあります。同じ質問に対するAとBのグループの回答の特徴の違いを見たい場合は、どちらの方法が好ましいのでしょうか。統計は初心者です。ご教示いただきたくどうかよろしくお願いいたします。

  • グループ分けの問題

    「5人をA,B,Cという3つのグループに分けるときのブループ分けの総数を求めよ。ただし、どのグループも少なくとも1人は入るものとする。」 という問題ですが、力技ではなく数学的に解く考え方を教えて頂けないでしょうか? 宜しくお願い致します。

  • エクセルを使ったグループ分け

    下記のような条件でエクセルを使ってグループ分けがしたいと思っています。 A組は15名、B組は5名、C組は7名…T組は10名というように、複数組からばらばらの人数が参加するイベントがある。 この全参加者(150人ほど)をランダムにグループ分けしたい。 条件 1つのグループの人数は7名から8名にする。 同じ組の人を同じグループには入れない。(この点が一番のポイントなのですが) 良い方法はないでしょうか?

  • 主成分分析の使い方について

    主成分分析などの統計的手法を勉強中の学生(環境学分野)です。 ある論文で、下記の内容を目にしました。 私には、どうして、このデータによって、この目的が達せられるのかがどうしても理解できません。 どうかご教授のほどお願いいたします。 目的 農地が持つ29種類の機能を集約化すること。 方法 1.602人に対してアンケートを行い、29機能を「高くもつ」から「まったくもたない」の5段階評価尺度で評価してもらう。 2.アンケートの結果を中間順位法により順位統計量に変換する。 3.主成分分析を行う。 4.VARIMAX回転を行う。 5.第10因子までの因子負荷量の算出を行う。 6.因子負荷量によるクラスター分析を行う。 結果 29種類の機能は8種類に集約された。 人がその機能を「高くもつ」、「まったくもたない」と感じる“感じ方の傾向”と、“機能の性質”は別のことなので、機能の集約化にこのようなアンケート調査の結果を用いることはできないのではないかと、私には思えました。 けれど、結果として示されたクラスター分析のデンドログラムを確認してみると、植物保護機能、動物保護機能、土壌微生物保護機能などが「生物・生態系保全」のクラスターに含まれ、情操教育と精神安定化などが「保健休養」のクラスターに含まれるなど、機能の性質に関する一般的な感覚を反映したものになっていました。 主成分分析を駆使すれば、そういったことも可能なのでしょうか。 ご助言よろしくお願いします。

  • 心理学統計の分析方法についての質問です。

    〔至急、お願いします。〕 「Aが高いものは、Cが低くなる。しかしAが高いものでもBが低くなれば、Cは高くなる」といった仮説をたてました。 そこで、A高B高、A高B低、A低B高、A低B低の四群を独立変数、Cを従属変数として、1要因4水準の分散分析を行ったのち、 Aが高い者のみBがCに負の寄与を及ぼしており、Aが低い者はBがCに寄与していない。そしてAはBに正の寄与を及ぼしている。という重回帰分析を行おうと思っています。 わからない点があります。 重回帰分析がどういうものなのかはざっくりと理解できていますが、実際に行ったことはなく、Aが高い者と低い者で群分けした上で分析することは可能なのでしょうか。 また、統計の知識が不十分であり、ツールなどを利用して行ったこともわずかしかないので、これで実際に分析が出来て、結果を得られるかどうかも自信を持てません。 どうかお力添えをお願いいたします。

  • グループ分けの確率

    グループ分けで100人を均等に3分割する時A,Bの二人が同じグループになる確率って2^3で8通りだから8分の1で合ってるんでしょうか? 間違っていたら訂正お願いします。それと、もしよければ求め方を教えてくれませんか? グループ分けをするときの確率の求め方がわかりません。“A,Bの二人”を三人や四人に置換したときの場合もお願いします。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。