カイ二乗による適合度検定のカイ二乗値の分布と帰無仮説の乖離

このQ&Aのポイント
  • カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算すると、帰無仮説が正しい場合は、検定統計量のカイ二乗値は自由度のカイ二乗分布に従う。
  • しかし、帰無仮説が正しくない場合、乖離があると検定統計量のカイ二乗値はどのような分布をするかは理論的には言えない。
  • 総度数によっても結果が異なるため、具体的な分布を求めることは難しい。
回答を見る
  • ベストアンサー

カイ二乗による適合度検定におけるカイ二乗値の分布

カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

ある帰無仮説Hが成り立たない、というだけじゃデータDのカイ二乗値の確率分布は決まりません。 そうじゃなくて、「ある既知の確率モデルMに従っているランダムなデータD'のカイ二乗値はどんな確率分布に従うか」と問うと、これなら答が存在するでしょう。 つまりMをはっきり決めないことには話が始まらないわけです。ここで、「Mをはっきり決める」ってのは、実際に乱数を使ってデータD'の例をいくつでも生成するようなプログラムMが書ける、というほどの意味です。 なお、上記の問いに答えることの難しさは、Mの複雑さに依っておおいに違うでしょう。

関連するQ&A

  • 適合度の検定について教えてください!

    統計を学んでいます。 先生がおらず誰かに聞くことができないので、 参考書等を参考に学んでいますが、 適合度の検定にて煮詰まっています(><) 以下の(1)(2)についてご教示いただけますでしょうか。 (1)【仮説の設定】 帰無仮説…差(違い)がない、という内容を持ってくることが一般的 対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】 ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却 小さい場合→帰無仮説は棄却できない ということで間違っていないでしょうか。 (2)【適合度の検定】 標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。 ■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない) ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある 小さい場合→帰無仮説は棄却できない→差があるとは言えない 年齢・■国勢調査 ・■標本調査結果 ■期待値 20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6 30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5 40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5 50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8 60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7 65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5 合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510 カイ二乗値:52.7 理論値(自由度5、危険率5%):11.07 結果 帰無仮説を棄却(国勢調査の構成比率と差がある) カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。 「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。 (1)(2)に関し、ご意見を頂ければと思います。 (1)も関連しますが特にお伺いしたいのは(2)です。 (2)に関して回答とその理由をお教え頂けると大変助かります。 よろしくお願いします。

  • カイ二乗検定及びG検定について

    カイ二乗検定もしくはG検定を用いて適合性の検定を行おうと思っているのですが、以下の判断が出来ず困っております。 ・自由度が大きすぎる(10000以上)場合もカイ二乗検定及びG検定を用いて良いか なお、帰無仮説で想定する分布は多項分布、サンプル数は30から100程度を想定しています。 ご回答をよろしくお願いいたします。

  • カイ二乗検定を行いました。正しいでしょうか?

    Χ二乗検定を行いました。素人のため、上司に見せる前に間違っていないか 見ていただきたいです。 添付ファイルをご覧ください。 職場の年間インシデント件数が83件ありました。 エクセルを使用しグラフにしてみると、発生時間帯に差がある、 つまり、発生しやすい時間帯があるように思います。 そのため、素人のために検索を行いながら、 カイ二乗検定を行いました。 上の図のたて列は、 O(観測度数) E(期待度数) O-E (O-E)の二乗 (O-E)の二乗/E で並んでいます。 検定の結果は、 (1)自由度=12-1=11 (2)カイ二乗分布表から、自由度が11、p=0.05の値(有意水準5%)の値は、19.6751 (3)計算で出したカイ二乗値は52.2311 (3)そのため、有意水準5%で「発生時間帯に差は無い」という帰無仮説は棄却される。 つまり、インシデントが発生しやすい時間帯がある という結論が出たのですが、ここで皆さんの意見をお聞きしたいです。 (1)この検定は正しいか?間違いか? (2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか? (3)検定は正しい、しかし、時間帯の判断はできない場合、なぜ判断できないのか? (4)検定が間違いの場合、どこに問題があるか? (5)より信頼度を上げる検定方法はあるか? 皆さんのお知恵を、よろしくお願いします。

  • カイ2乗について

    カイ2乗について、以下サイトを参照していたら疑問が出たため投稿します。 http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm 上記サイトの「簡単な例でイメージ作り(1)」項の「考え方」という項目に下記とあります。  (↓行頭「|」の行はサイトからの抜粋です。)  | この式は,観測値が大きくなると必要以上に大きくなり過ぎる.実際,標本を10倍に増やしたときを考えると,次の分布が上の分布と比較して100倍ずれているとは言えない.  |  血液型 A型 B型 AB型 O型 計  |  観測度数 370 250 120 260 1000  |  期待度数 400 200 100 300 1000  | そこで,各々の(差)2を各々の期待度数で割った次の式を考え,χ2と呼ぶ.  この10倍された、観測度数や期待度数にて、カイ2乗値を計算すると、カイ2乗値についても元の10倍になりました。 そうなると、元々のデータ(10倍していないデータ)での検定結果は下記とありますが、10倍されたデータだとそう言えなくなるということでしょうか?  | χ2<7.81 だから有意水準5%で「有意差はない」と言える.  もし仮に、実際にこの10倍された観測度数や期待度数のような表(血液型の表)が、現実の調査結果として手元に得られたとすると、どのようにすればカイ2乗検定にて「有意差あり、なし」を出せるのでしょうか? (あるいはカイ2乗検定は出来ない…??…標本数が多すぎる??…モヤモヤしてわかっていません。) 小生、統計や数学のド素人でしてわかりやすく教えて頂けると幸いです。 どうぞよろしくお願いします。

  • 統計学の適合度検定についての質問です

    統計学初心者です。 観測度数が理論度数の誤差の範囲内かどうかを調べたいのですがどうしたらいいでしょうか? 適当な数値ですが、画像データのAの実測度数が理論度数の誤差の範囲内かどうかを検定するための具体的な計算方法を教えてください。 有意水準は5%、カイ二乗分布 カイ二乗検定で”全体”の検定は x^2=(60-50)^2/50+(20-30)^2/30+・・・+(2-1)^2/1 =6.8444・・・ となり、自由度4のカイ二乗分布、有意水準5%が9.49なので x^2<9.49 有意差はない(誤差の範囲内) というのでまずは合ってますでしょうか? 次にAのみの観測度数と理論度数を検定(誤差の範囲内かどうかを知りたい)したいのですが、 x^2=(60-50)^2/50+(40-50)^2/50 =4 自由度2-1=1のカイ二乗分布、有意水準5%が3.84なので x^2>3.84 有意差はあり(誤差の範囲外) AとB~Eの2個に分けて計算してみましたが、そもそもこの方法が合っているのかどうか分かりません。 アドバイスよろしくお願いします。

  • 正規分布への適合度検定について

    統計ソフト(R)において、正規分布への適合度検定をするための、カイ二乗検定を用いた関数(normaldist←青木先生という方のサイト上にありました。http://aoki2.si.gunma-u.ac.jp/R/normaldist.html)を使う際に、度数分布表における階級の分け方(どれくらい細かく階級をとるか)を変えると、検定結果のp値が変化するのですが、階級の決まった分け方というものはあるのでしょうか?よろしくお願いします。

  • カイ2乗検定

    ある乱数を危険率1%のひん度検定を行え。 ただし、自由度49のカイ2乗分布の1%点は74.9とする。 という課題が出たのですが、このときというのは、 検定統計量vが79.4よりも小さければ受容される、という考え方良いのでしょうか??

  • 適合度検定について

    適合度検定について教えてください 測定結果の分布がある種の確立密度関数に従うかどうかをカイ二乗検定で調べます。測定値の度数と理論度数の比較です。このとき確立密度関数の母数によって、検定時の自由度が変わるといわれたのですが。 母数と自由度の関係を教えてください。 たとえば p(x)=(x/a)・exp{-x^2/(2a)}:2aがxの2乗平均 で示されるレイレイ分布の場合はどうなるのでしょうか。 いろいろ文献を調べたのですがわかりません。統計に関しては素人です、よろしく お願いします。

  • カイ二乗検定について

    サイコロがフェアであるかどうか、カイ二乗検定を行いたいのですが テキストには、自由度5で理論度数で割るやり方で解答がなされているのですが これを、自由度6で、二項分布の分散で割るやり方で解くのは間違いなのでしょうか? 具体的には p=1/6 nは理論度数*6=全試行回数 [(標本度数-理論度数)/√np(1-p)]二乗 を1の目から6の目まで足して、それを自由度6のカイ二乗検定に掛けるやり方です。 もし分かる方がいらっしゃったら、教えていただけるとありがたいです。

  • 正規性の検定でのカイ2乗検定の自由度について

    エクセル統計p051に記されているものです。 標準化値(-1.2,-0.4,0.4,1.2,∞) 理論確率(0.1151,0.2295,0.3108,0.2295,0.1151) 観察度数(4,10,6,9,3) 期待度数(3.6822,7.3443,9.947,7.3443,3.6822)を 列に変換してください。 n=32のデータです。その正規性の検定をするためカイ2乗検定を行ったのですが、自由度が2になることが分かりません。よろしくお願いします。