クラスタ分析後のカイ二乗分析とは?

このQ&Aのポイント
  • SPSSを使ってカイ二乗検定をしようとしていますが、1000人の被験者を4つのクラスターに分け、各クラスターごとに「喫煙の有無」の割合に差があるかどうか調べます。
  • ただし、各クラスターの人数がまちまちで、第一クラスタは100人、第二クラスタは200人、第三クラスタは500人、第四クラスタは200人に分かれました。
  • 第一クラスタでの「喫煙する」割合が80人だった場合、第一クラスタの喫煙率は80%と高くなりますが、全体から見ると8%という小さい数字になってしまいます。他のクラスタと比べて第一クラスタの喫煙率が高いかどうかを検定する方法を教えてください。
回答を見る
  • ベストアンサー

クラスタ分析後のカイ二乗分析

クラスタ分析後のカイ二乗分析 SPSSを使ってカイ二乗検定をしようとしていますが、以下のようなケースについておたずねしたいと思います。 1000人の被験者をあるアンケートによって4つのクラスターに分け、そのクラスターごとに「喫煙の有無」の割合に差があるかどうか調べます。 しかし、各クラスターの人数がまちまちで、第一クラスタは100人、第二クラスタは200人、第三クラスタは500人、第四クラスタは200人に分かれました。 第一クラスタで「喫煙する」と答えた割合が80人だった場合、第一クラスタの喫煙率は80%と高くなりますが、全体から見ると8%という小さい数字になってしまいます。 第一クラスタの喫煙率が他のクラスタと比べて高いことを検定するには、どうすればいいでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • hukuponlog
  • ベストアンサー率52% (791/1499)
回答No.1

まず、ご質問の内容から、あなたがχ二乗検定そのものを理解していないことが分かります。 χ二乗検定で、クラスタ毎の人数の違いを考えることや、それにともなう喫煙率の「割合」の大小を比較することは意味がありません。そうではなく、クラスタ毎の期待値との差・ズレ(つまりこれがχ二乗値)を算出すれば良いだけです。これだけ、標本数が多ければ検定そのものは1%水準で有意に出ると思います。 次は残差分析を行い、具体的にどのクラスタのどのセル(喫煙・非喫煙)が「他のクラスタと比べて高い」かを確認すれば済みます。SPSSの場合、ここまでは自動でやってくれます。ただし、この検定の算出そのものは非常に単純です。4クラスタで回答が「喫煙・非喫煙」なら自由度は3ですから、χ二乗検定の理解を深める観点からも、SPSSを使う前に自力でやってみることをお勧めします(電卓やExcelでも十分に出来る程度の計算です)。

kent991230
質問者

お礼

大晦日のお忙しい中、レスをつけてくださってありがとうございます。 大変よく分かりました。 実際にSPSSで残差を見てみると、第1クラスタの喫煙率(100人中80人喫煙)と、第3クラスタの喫煙率(500人中300人喫煙)では、第1クラスタの残差の方がより大きく出ており、各クラスタの人数ではなくクラスタ間の比較することができました。 本当にありがとうございました。

関連するQ&A

  • カイ2乗検定を使ってよいか?

    よろしくお願いいたします。 同一対象者にて、ある年と、その翌年の肥満者の割合を比較したいのですが(ある年には10%だったが、翌年は12%、有意に増加したかが知りたい)、その場合の検定方法はどのようにしたらよいのでしょうか。 自分で考えたのが、肥満の有無でクロス集計をかけてカイ2乗検定、なのですが、解釈のしかたがおかしいかな?と思い、質問させていただきました。 ソフトはSPSSを用いています。 教えていただけますと幸いです。 よろしくお願いいたします。

  • カイ2乗検定の使い方とp値について

    アンケートを行いました。 結果の考察を行うにあたり、カイ2乗検定で優位差が認められるかを知りたいと思っています。 SPSSやエクセルでカイ2乗検定をしたところ、spssの場合「漸次有意確率(両側)」に「8.89E-13」や「5.964E-27」、エクセルの場合「p値」に「7.15688E-05」などアルファベットの入った数値が出てくることが多かったです。5%や1%水準で有意差が認められるかどうかを知りたかったのですが、この数値の意味が分かりません。 この様な数値が出てくるということは、どこかがおかしいのでしょうか? p値がおかしいこともあって、そもそもカイ2乗検定でよいのかが不安になりました。 「成績」と「開始時期」で、「開始時期が早いほど成績がよい」といったようなことが見たいと思っています。 成績は11項目、開始時期は12項目あります。SPSSで集計結果のクロス集計表を作るときにカイ2乗検定も行ったところ、値が350.994、自由度が110、確率(両側)が5.964E-27でした。 「開始時期が早いほど成績がよい」という結論を導き出したいのですが、この場合「カイ2乗検定で5%水準で有意差が認められた」となったらこの結論を導き出せるのでしょうか?例えば2つの項目の比較ではなく、11×12項目のカイ2乗検定で有意差が認められた場合、何に有意な差が認められたのかがよく分かりません。 クロス集計表を作成し、グラフにしたところ、開始時期によって差がありそうなのですが、単純なパーセントの数値の大小でしか分かりません。調査結果ではなく、卒業論文なので、ただ「これは何パーセントでこれは何パーセントだった。この時期以前に始めた人の方が高い成績を回答している割合が高い」のようなことだけでいいのか…と悩んでいます。 まとまりのない文章で、質問内容も多九手申し訳ありませんが困っています。よろしくお願いします。

  • カイ二乗検定の多重比較について

    SPSSで4×4の名義尺度のカイ二乗検定を行ったところ、Pearsonのカイ二乗検定で5%水準で有意差が出たと出力されました。 そこで質問です。 1.この結果は4×4のデータのどこかの組み合わせに差があるということを表している、と解釈していいのでしょうか? 2.差があるとすれば、どれとどれのデータの間の差なのか知りたいので、分散分析のように多重比較をする方法があるのでしょうか? ご指導お願いします。

  • SPSS カイ二乗検定の方法

    カイ2乗検定の方法を教えてください。 一列目に「疾患」二列目に「要因」といれました。 それぞれの列の下にある・ある・なし・なし 、 ある・なし・ある・なし と入れました。 3列目に「人数」として、4つの人数を入れて、 人数は、ケースの重み付けをしたのに、なぜか、カイ2乗検定ができません。なぜでしょうか?

  • 統計 マクマニーの検定、カイ二乗検定について

    行動心理学において、同一被験者に対して、ある課題を1000試行程度、行なわせ、その成功率が課題の2条件において異なるかどうかを調べる際、カイ二乗検定やマクマニー検定は使用できますか?宜しくお願いします。

  • SPSSのカイ二乗検定について

    初歩的な質問になりますがもうしわけありません。 卒論で分析をしているのですが知識がありません。 ある尺度によって分けた高群と低群の間に、質問に対する回答(質問が4つで回答が5つの選択肢からひとつを選ぶもの、のそれぞれについて)に有意な差があるかどうかを調べるために、SPSSを使ってカイ二乗検定を行いました。 結果で有意な差があるかどうかはどこを見ればよいのでしょうか。 統計の授業など取っておらず、大変初歩的な質問かと思うのですが申し訳ありません。 超文系人間で数字が苦手なので優しく教えていただけるとありがたいです。

  • カイ二乗検定で処理したいのですがデータのとり方がわからず困っています。

    左利き手と右利き手の被験者における、左右の耳の聴力低下度を調べています。 目的は、左と右の利き手の被験者で利き手の違いに意味があるかどうかどうかを知りたいので、統計はカイ二乗検定を用いています。 聴力低下度の指標は、高音域、低音域の2項目あり、さらに左右の耳があるので、計4項目からなります。データは順位尺度です。 データ入力は、被験者が重複するいわゆる複数回答形式です。 統計処理するデータの扱い方をお教えいただけないでしょうか。 統計に用いるデータは生データを処理するのでしょうか? 順位尺度の生データ(例数)の統計結果は、 自由度   3 カイ二乗値 23.33 危険率   p=0.0001 生データのカイ二乗検定を行うと、検定は棄却され両グループ間で有意差が見られました。 表にして示す場合、生データはn(総例数)が異なるため両グループ間の比較にならないので、構成比率(例数/n*100)で示します。 構成比率のデータで検定すると 自由度   3 カイ二乗値 6.15 危険率   p=0.150 構成比率のデータを用いカイ二乗検定を行うと、検定は採択され両グループ間は差がありません。 統計処理は、生データ比較でしょうか? それとも表にあらわすような構成比率の比較でしょうか? どちらが適切なのでしょうか? どうぞ、よろしくお願い申し上げます。

  • χ(カイ)二乗検定(分析)の方法

    「小さい頃からゲームをしている人の方が、 ゲームに対する重要度・必要性が高い。」という仮説で 分析をしたいのですが、実現度数・期待度数を計算し 自由度も計算したら結果が凄いことになってしまいました。 カイ二乗検定で分析していることが間違っているのかもわかりません…。 分析したいのは a.1歳~5歳 b.6歳~10歳 c.11歳~15歳 d.16歳~20歳 e.21歳~ と a.困らない b.あまり困らない c.やや困る d.困る の結果です。 ・独立変数=ゲームを始めた年齢 ・従属変数=重要度・必要性の高さ これで計算をしたら自由度12で カイ二乗値は42.19と出てしまいました。 どの方法で検定するのがいいのでしょうか…。

  • カイ二乗検定 比率の多重比較

    ストレスチェックのアンケートを実施しました。 その中に「お酒を飲み始めるととまらないことがある」「落ち込んで悲しいことがある」など約20項目について「はい・いいえ」で答えてもらっているところがあります。 どの年代が多く「はい」と答えているかについて知りたく、年齢を6つのカテゴリーに分けカイ二乗検定をしました。 全体で差があることは分かったのですが、発生比率についてどの郡間に差があるか多重比較したいと思っています。 使用しているのはSPSSです。 どのような方法を使えば、カイ二乗検定後の比率の多重比較ができるのでしょうか?

  • SPSSを使ったカイ2乗検定について教えて下さい。

    SPSSを使ったカイ2乗検定について教えて下さい。 ある遺伝子の型AとB、肥満群と非肥満群でカイ2乗検定を行い、その後年齢あるいは性別で補正して下さい。との指示がありました。 統計の本を読む限りカイ2乗検定後に他の因子で補正を行う場合はMantel-Heanszel検定を用いるのだと思われます(この時点で間違っているかもしれません)。 この方法で性別(男は1、女は2と入力)についてやってみたところ本と同じような表示の結果が出ました。 しかし、年齢での補正についてがこの検定方法で合っているのかがわかりません。 一応やってみましたが、性別のときのような結果の表示ではありませんでした。 この場合、どのような解析方法を用いればよいのでしょうか。