• 締切済み

カイ二乗検定について

サイコロがフェアであるかどうか、カイ二乗検定を行いたいのですが テキストには、自由度5で理論度数で割るやり方で解答がなされているのですが これを、自由度6で、二項分布の分散で割るやり方で解くのは間違いなのでしょうか? 具体的には p=1/6 nは理論度数*6=全試行回数 [(標本度数-理論度数)/√np(1-p)]二乗 を1の目から6の目まで足して、それを自由度6のカイ二乗検定に掛けるやり方です。 もし分かる方がいらっしゃったら、教えていただけるとありがたいです。

みんなの回答

  • jamf0421
  • ベストアンサー率63% (448/702)
回答No.4

No1&2です。見当はずれの説明を長々と書いてしまったのかもしれません。 まずN(μ,σ^2)の正規分布である互いに独立な変数Xi(i=1,2,...n)があるとき χ^2=(1/σ^2)Σ(Xi-μ)^2(i;1→n) は自由度nのχ^2分布に従います。だから質問者さんは数が大きくなったときの二項分布は正規分布に近づくのでそっくりそのままこの理屈を当てはめられないか、考えられた、ということでしょうか。 ならば二項分布とχ^2分布の関係がKeyではないかと思います。No1の回答で書きましたが、 「χ^2分布は正規分布N(0,1^2)に従う確率変数の二乗和で定義されていたと思います。そしてXが二項分布B(n,p)に従う時に、nが十分に大きければ χ^2=(X-np)^2/npq が自由度1のχ^2分布に従う」(No1では慌ててラプラスの定理ということばを入れ違えていました。ラプラスの定理は正規分布に近似できる、という話でしたね。)という定理が判り易いと思います。ここでの対象は、サイコロの目でなくてn回投げたときのコインの裏と表の数ですね。pが決まればqが決まって自由度は1ですね。同様にサイコロの場合は5となるのです。

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.3

自由度についてだけですが, 「全体での試行回数」が決まっているために「Z1~Z6 の全て」を自由に動かすことはできません. Z1~Z5 を決めると, Z6 は自動的に決まってしまいますよね. そういうことで, 自由度は 1 だけ小さくなります.

  • jamf0421
  • ベストアンサー率63% (448/702)
回答No.2

>試行回数が十分に大きいとき、ラプラスの定理から二項分布が正規分布に >近似出来るのは分かります。 >だから、例えばサイコロの1が出る目の回数は >N(np,npq)の正規分布に従うと認識しています。(p=1/6、q=5/6) そのとおりです。だからnが大きいとき χ^2=(X-np)^2/npq...(1) は自由度1のχ^2分布に従います。ここまでがラプラスの定理に基づく部分です。それを認めた上で、前の回答でも書きましたところの 「そして事象がpk=1,2,...6の6種であるとき χ^2=Σ(k;1→6)(Xk-npk)^2/npk が自由度5のχ^2分布に従うという話に帰着するはずです。」ピアソンという人の証明での話だったのではないでしょうか。 (権威に頼っているだけですが。)もとのピアソンの証明は、もっと一般的でk個の互いに背反な事象Eiの生起確率がpiでかつE1UE2U...Ek=Ω(全事象)の時、n回の独立試行でEiが起こる度数をXiとすれば、 χ^2=Σ(Xi-npi)^2/npi(i=1→k) はnが十分大きければ近似的に自由度k-1のχ^2分布に従う、というものです。 k=2ならば話は易しくなりp1=pとp2=1-p1=qが生起確率で、度数についてX1=XとすればX2=n-Xですから χ^2=(X-np)^2/np+(n-X-nq)^2/nq ={(X^2-2npX+(np)^2)q+(n^2+X^2+(nq)^2-2nX-2n^2q+2Xnq)p}/npq (途中頑張ってばらばらにして整理) =(X^2-2nXp+(np)^2)/npq =(X-np)^2/npq となり上の(1)式と同じでk=2ならば自由度1のχ^2分布に従います。サイコロの例では6つの目についてそれぞれの出現度数とnx(1/6)の差の2乗をnx(1/6)で割ったものを足す必要があります。 質問者さんはこの作業(実測度数と期待度数を比較)をなさろうとしていた筈です。各事象の度数について足し合わせていますから合計の縛りがあって自由度は一つ下がっています。 あまり上手な説明でなくて済みませんが...

filene
質問者

補足

こんなに親切に書いてくださってありがとうございます。 私も、統計を始めてまだ3ヶ月ほどなので、jamさんが書いてある事全てが理解出来てる自信は有りませんが、本当にありがとうございます。 えっと、これはピアソンの定理を使って、自由度5でカイ二乗検定をやるのが何故かを解説してくださっているんですよね? 何度も本当に申し訳ないのですが… 私は、ピアソンの定理を使って自由度5でカイ二乗検定をやるやり方が正規の方法というのは認めていて、それも理解しているつもりです。 そして、その上で、自由度6でカイ二乗検定をやるやり方は間違っているのか、という質問をしたつもりです。 この中で言うと、合計の縛りがあるから自由度が一つ下がっているというのが、私が間違っている理由なのでしょうか? すいません、自分の知識が足りなくて、合計の縛りが何なのか、そしてそれが何故自由度が下がる原因になるのか分かりません。 私の理解力が足りなくて、その他にも理由が書いてあったのなら申し訳ありません。 私は不勉強なので、カイ二乗分布は定義しか知りませんし、使いません。 カイ二乗分布の定義は それぞれ独立な標準正規分布がZ1~Zkまで有った場合 Z1^2+Z2^2+……Zk^2は自由度Kのカイ二乗分布に従う。だったはずです。 そして、サイコロで1が出る目の回数は N(np,npq)の正規分布に従う。 そして、サイコロがフェアだとすると、標準化して (標本度数-理論度数)/√np(1-p)は標準正規分布に従うはずです。 そして、これをZ1とします。 同様にZ6までやっていって Z1+Z2+Z3+Z4+Z5+Z6は自由度6のカイ二乗分布に従う。 と私は至極単純に考えているのですが、これは何処が間違っているのでしょうか?

  • jamf0421
  • ベストアンサー率63% (448/702)
回答No.1

χ^2分布は正規分布N(0,1^2)に従う確率変数の二乗和で定義されていたと思います。そしてXが二項分布B(n,p)に従う時に、nが十分に大きければ χ^2=(X-np)^2/npq が自由度1のχ^2分布に従う(ラプラスの定理)ことを使っているのではないでしょうか。そして事象がpk=1,2,...6の6種であるとき χ^2=Σ(k;1→6)(Xk-npk)^2/npk が自由度5のχ^2分布に従うという話に帰着するはずです。二項分布そのままではχ^2分布と関連づけられないのでは?

filene
質問者

補足

ええ、その通りだと思います。 確かに、自由度5のカイ二乗分布に従うという説明はそれで合ってると思います。 ただ、二項分布そのままではカイ二乗分布と関連付けられないというのは、自分には少々理解できませんでした。 試行回数が十分に大きいとき、ラプラスの定理から二項分布が正規分布に近似出来るのは分かります。 だから、例えばサイコロの1が出る目の回数は N(np,npq)の正規分布に従うと認識しています。 (p=1/6、q=5/6) これを標準化すると Z=(標本度数-理論度数)/√npq になるので カイ二乗分布の定義に従って [(標本度数-理論度数)/√npq]二乗 を1~6の目まで足したものが、自由度6のカイ二乗分布に従うと思ったのですが… すいません、自分の考え方の 何処が違うか教えてくださると嬉しいです。

関連するQ&A