4×4のクロス集計での検定について

このQ&Aのポイント
  • 4×4のクロス集計での検定についての質問です。料理の頻度と肌の調子の関係を調べたい場合、χ二乗検定を利用することができますか?計算方法と棄却点について教えてください。
  • 関係がある場合、どのような関係があるのかを見た感じで判断してよいでしょうか?アンケートの集計結果を考察する際に参考になる情報を教えてください。
  • アンケートの集計結果を考察するために、4×4のクロス集計での検定について詳しく知りたいです。料理の頻度と肌の調子の関係を検定する方法や結果の解釈について教えてください。
回答を見る
  • ベストアンサー

4×4のクロス集計での検定

こんにちは。検定について教えてください。 具体的には、例えば、 【質問1】料理をどのくらいの頻度でするか。 (1)毎日(2)週4~5日(3)週2~3日(4)ほとんどしない 【質問2】肌の調子は良いか。 (1)非常に良い(2)良い(3)あまり良くない(4)悪い といった設問で4×4のクロス集計をしたとします。 このとき、二者の間に関係があるかどうかを検定したい(料理をよくする人ほど肌の調子が良い、とか)のですが、χ二乗検定でできますか? できたとすると、期待値を求め、(期待値-実測値)二乗÷期待値の和でχ二乗の値を計算して、自由度が(4-1)(4-1)=9で5%の棄却点から16.919という値を引き出して、計算値の方が大きければ「二者の間に関係がある」というので合っていますか? また、関係がある、となった後で、どういう関係があるのかは、「この欄の数字が多いな」なんていう、"見た感じ"で良いのでしょうか? アンケートの集計結果を考察して欲しいと頼まれたのですが、よくわからなくて……。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

カイ二乗検定で大丈夫です。ただし,期待値に5以下のものが含まれている場合は適用すべきではないので注意が必要です。 >計算値の方が大きければ「二者の間に関係がある」というので合っていますか? その通りです。ですが,カイ二乗検定(正確には独立性の検定)はA要因=料理の頻度とB要因=肌の調子という2つの要因間が独立であるどうかを確かめるためのものです。したがって,例えば「毎日料理をしている人が肌の調子が非常に良い」というようなことは分かりません(どの項目とどの項目とに関連があるかは分からない)。 このようなことが知りたい場合は多重比較という手法を別に適用しなければなりませんが,そうなるとかなり本格的に統計学を学ぶ姿勢が必要となってしまいます。

lily00
質問者

補足

回答ありがとうございました! >ただし,期待値に5以下のものが含まれている場合は適用すべきではないので注意が必要です。 期待値を計算してみたところ、5以下が含まれていました。 元々の回答に偏りが多く、全体では数千の回答があるにもかかわらず、特定の項目では10以下があるのです。 こうなると、以後の計算で「二者の間に関係がある」となっても、統計学的には何ら説得力がない、ということですね? こういう場合でも、使える検定方法はあるのでしょうか。 >どの項目とどの項目とに関連があるかは分からない ある項目の数値とある項目の数値の差は、偶然起こったわけではなく、A要因とB要因間に何らかの関係性があるために、差ができたが、それがどんな関係性かはわからない、ということですか? では、例えば、B要因(肌の調子)は4項目のまま、A要因(料理の頻度)を(1)毎日する(2)しない日がある、の2項目に変更すればどうでしょうか? そうすれば、少し傾向を見てとりやすくなると思うのですが……。 追加質問ばかりですみませんが、よろしくお願いします。

その他の回答 (1)

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

なぜかOKwaveさんからのメールが来なかったのでだいぶ過ぎてしまいましたが。。。 期待値に5以下のものが含まれる場合は"フィッシャーのExact test"という手法を適用します(http://aoki2.si.gunma-u.ac.jp/exact/exact.html)。 後者のA要因とB要因との関連性についての話題は結構ややこし部分があるので,私が曖昧な答え方をしてしまって誤解されてしまうとまずいです。したがって,以下の参考書を読むことをおススメします。 永田靖『統計的多重比較法の基礎』サイエンティスト社(特にp85~p87)

lily00
質問者

お礼

ありがとうございました! これを機に勉強し直したいと思います。 参考書も探してみますね。

関連するQ&A

  • Excelでクロス集計の検定

    アンケート調査を実施しました。 結果をクロス集計し、カイ二乗検定で検定したいのですが・・・ エクセルや、統計・解析に関わる書籍を買ったり、借りたりして勉強しているのですが、 今ひとつ理解できません。 簡単に検定することはできないのでしょうか? 自分で計算しなくてはいけませんか? 二変数以上の相関関係を調べたいのですが、 簡単な方法はありませんでしょうか?

  • カイ二乗検定について

    例えば、2x2クロス集計表で期待値が5以下であれば、フィッシャーの直接確率計算法を使うと思います。 2x3以上の集計表であれば、例え5以下があってもカイ二乗検定で問題ないでしょうか。 例えば、 100 3 70 30 100 3 という集計表の場合です。 宜しくお願いします。

  • 検定について教えてください。

    検定について教えてください。 アンケート調査をクロス集計し、χ2乗検定を行ったのですが、期待度数が5未満のセルが多く検定にかけられませんでした。 カテゴリーを結合するとよいと知り、5つあったカテゴリーを2つにして検定をし有意差5%未満となったのですが、この場合、最初の5つのカテゴリーのクロス集計表の扱いはどうなりますか? 有意差がなくても、クロス表をグラフにしたものはこういう結果でした。と結果だけ出しても差し支えありませんか? 内容: あることの継続を望む人と継続を望まない人と、体調をクロス集計しました。 体調は質問票では「良好である」「まあまあ良好である」「あまり良好でない」「少し不調である」「とても不調である」の5つとしましたが期待度数5未満が33%だったため 「良好である-まあまあ良好である」「あまり良好でない-とても不調である」の2つに振り分けなおしました。 統計についてよくわかっておらず、なんとかχ2乗検定までたどりつきましたが、これからがすすみません。 的外れでわかりにくい質問かもしれませんが、よろしくお願いします。

  • カイ二乗検定を行いました。正しいでしょうか?

    Χ二乗検定を行いました。素人のため、上司に見せる前に間違っていないか 見ていただきたいです。 添付ファイルをご覧ください。 職場の年間インシデント件数が83件ありました。 エクセルを使用しグラフにしてみると、発生時間帯に差がある、 つまり、発生しやすい時間帯があるように思います。 そのため、素人のために検索を行いながら、 カイ二乗検定を行いました。 上の図のたて列は、 O(観測度数) E(期待度数) O-E (O-E)の二乗 (O-E)の二乗/E で並んでいます。 検定の結果は、 (1)自由度=12-1=11 (2)カイ二乗分布表から、自由度が11、p=0.05の値(有意水準5%)の値は、19.6751 (3)計算で出したカイ二乗値は52.2311 (3)そのため、有意水準5%で「発生時間帯に差は無い」という帰無仮説は棄却される。 つまり、インシデントが発生しやすい時間帯がある という結論が出たのですが、ここで皆さんの意見をお聞きしたいです。 (1)この検定は正しいか?間違いか? (2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか? (3)検定は正しい、しかし、時間帯の判断はできない場合、なぜ判断できないのか? (4)検定が間違いの場合、どこに問題があるか? (5)より信頼度を上げる検定方法はあるか? 皆さんのお知恵を、よろしくお願いします。

  • 全数調査でもカイ二乗検定?

    社会調査法のテキストで、「統計的検定」なるものをお勉強しています。いま「クロス集計の検定」のところまできました。 それで、「カイ二乗検定」なるものが出てきたんですが、これは全数調査のデータでも使えるんでしょうか? 私の理解では、そもそもカイ二乗検定が必要なのは、標本でみられた数値の特性が、そのまま母集団にもあてはまるかどうかを確率的に確かめるため、ですよね。 なら、標本調査でクロス集計をしたときだけ、やるんですよね? 母集団すべてを調べた全数調査では、この検定をする必要は、ないんですよね? 初歩的な質問ですいません。「期待度数で周辺度数を、なんちゃら、かんちゃら・・・」と計算する前に、この素朴な疑問に、テキストは答えていない・・・。すみません、どなたか教えてください。

  • 統計 検定方法について

    質問紙調査結果のデータの検証として、検定を用いようと考えています。 しかし、統計学の勉強途中で適切な検定が分かりません。   帰無仮説 Aが高い(を選んだ)人は、Bも高い(を選ぶ) 対立仮説 AとBに関係はない Aを高いと選んだ人と、低いと選んだ人を分けて、 Bについてそれぞれ高いか低いかを集計した状態です。 どの検定を用いれば良いかが分かりません。 私はカイ二乗検定を使うと思ったのですが、期待値が分からなくて 考えているうちに混乱してきました。 よろしくお願いいたします。

  • 適合度の検定について教えてください!

    統計を学んでいます。 先生がおらず誰かに聞くことができないので、 参考書等を参考に学んでいますが、 適合度の検定にて煮詰まっています(><) 以下の(1)(2)についてご教示いただけますでしょうか。 (1)【仮説の設定】 帰無仮説…差(違い)がない、という内容を持ってくることが一般的 対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】 ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却 小さい場合→帰無仮説は棄却できない ということで間違っていないでしょうか。 (2)【適合度の検定】 標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。 ■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない) ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある 小さい場合→帰無仮説は棄却できない→差があるとは言えない 年齢・■国勢調査 ・■標本調査結果 ■期待値 20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6 30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5 40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5 50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8 60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7 65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5 合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510 カイ二乗値:52.7 理論値(自由度5、危険率5%):11.07 結果 帰無仮説を棄却(国勢調査の構成比率と差がある) カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。 「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。 (1)(2)に関し、ご意見を頂ければと思います。 (1)も関連しますが特にお伺いしたいのは(2)です。 (2)に関して回答とその理由をお教え頂けると大変助かります。 よろしくお願いします。

  • 二つの母比率の差の検定について

    二つの母比率の差の検定について、 カイ二乗検定には、やはり「2X2クロス集計表の4つのセルのいずれかの期待度数が5以下の時には不適切である」という制限があるでしょうか。 比較する二つの母比率の内に、一つはサンプル数が少ないので(n<35) カイ二乗検定より、フィッシャーの正確確率検定の方が適切でしょうか? アドバイスを頂けるとうれしく思います。 よろしくお願いいたします。

  • χ二乗検定について

    乱数の検定をχ二乗検定で行わなければならないんですが、標本数が多すぎて分分布表に載っていません。自由度が3000の場合、有意水準 5%だとxの値はいくつになるのでしょうか? 自由度が高い場合のxを求める計算式を誰か教えてください。

  • 統計学(独立性の検定)についての質問です。

    1.期待度数は、なぜ「それぞれのセルの縦軸と横軸を掛け、全度数で割る」で求めるのかが具体的にイメージできません。 2.統計検定量を求める際、(実測度数-期待度数)の2乗を期待度数で割りますが(さらに、それらを足すが)、なぜ期待度数で割るのでしょうか?「分散をイメージすればよい」とする文献もありますが、分散の場合、n-1で割りますが(不偏分散の場合)、期待度数で割っているし・・・。 宜しくお願いします。