- ベストアンサー
検定について
「t検定」と「χ二乗検定」ってどうやって使い分けるものなのですか? 教えて下さい。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
両方とも、観測された事象が誤差の範囲か、そうで無いかを判断するためにするものです。分布の中心(平均)とのズレが誤差の範囲かどうかを調べるのがt検定で、データのバラツキかたが誤差の範囲かどうかを調べるのがχ2乗検定です。 調べたいのが、分布の中心の話なのかバラツキの話なのかを見極めて使い分けてください。 tとかχ2乗っていうのがなんなのか分からないといまいち安心して使えないという方は以下に私が理解した範囲での説明を載せます。多少の間違いはあるかもしれません(まだ学生ですので)。長いのですので興味がなければ読み飛ばしてください。 t検定というのは、想定していた平均値から、実際観測された平均値のズレが誤差の範囲かどうかを調べることです。 この誤差が正規分布に従っているとするのですが、正規分布のカタチを決定するためには母平均と母分散が分かってないといけません。母平均は、想定していた平均値を使いますが、母分散がわからない時は、標準正規分布の代わりにt分布を使います。t分布は、母分散を使う代わりにデータから算出した分散(標本分散)を使います。t検定量の出し方は、データの平均から母平均を引いて、標準偏差で割ります。この値が、自由度がデータ数-1のt分布の元で得られる確率がどの位であるかを調べ、許容している確率(有意水準)より多ければ、実際観測された平均値のズレは誤差であるとし、少なければ誤差と言えず、なんらかの影響があって母平均値が変わったと判断します。自由度については、χ2乗分布が絡むので、あとで説明します。 χ2乗検定に使うχ2乗分布というのは 「互いに独立な標準正規分布に従う確率変数の2乗和」の分布です。 確率変数というのは、確率によって値の決まる数のことで、この場合はその確率が平均が一番高く、そこから離れるにしたがって正と負が同じように確率が下がっていく標準正規分布(平均0、分散1)に従っているということです。独立というのは確率変数の発生が、それまでの確率変数の発生の影響を全く受けないで発生することを言います。2乗和は、発生した確率変数を2乗してどんどん足していくことです。2乗することによって、マイナスに離れてもプラスになるので純粋に「離れ具合」を足していくことができます。2乗しなければ、プラスに離れた分とマイナスに離れた分が相殺されてしまいますから。 χ2乗分布には自由度というものがありますが、これは足した確率変数の数です。 例えば2乗和が2になる確率は、2個足した場合と3個足した場合では当然違いますよね? χ2乗検定の場合は、とりあえず調べたいデータのバラツキが誤差である(正規分布に従っている)と仮定します。次に調べたいデータからその平均を引いて標準偏差で割るという基準化(標準化)という操作をします。これでデータを標準正規分布に従っているとみなすことができます。基準化したデータの2乗和を足すと、それがχ2乗分布に従うと見なすことができますよね?それと、実際のχ2乗の理論値とを比べて、その値が許容範囲なら、バラツキが誤差の範囲である仮定は妥当であるとし、許容範囲を超えたら、バラツキは誤差の範囲でないと判断します。 実際には、比較するχ2乗分布は、データの数よりも少なめの数の自由度のものと比較します。この原理の説明は私は上手くできないので割愛させていただきます。 No1の方の言う、分割表のデータの独立性の検定という話は、各データの発生が要因に対して独立(要因はデータに影響を与えない)なら周辺分布から計算された理想値との差は誤差であるとしてその和について検定を行い、χ2乗統計量が許容範囲外なら理論値との差が誤差ではない=要因はデータに影響を与えたと判断するという仕組みです。 χ2乗検定の出番は分割表のヤツだけではありませんが、分割表のときに使うのが一番多いと思います。 それで、t分布の自由度の話ですが、 t分布は、標準正規分布に従う変数を、"それとは独立に分布するχ2乗分布に従う変数を自由度で割ったもののルート"で割った数の分布ということになっています。 自由度が高い、つまり使うデータが多いと、分散の期待値が1のものの和を足したものの個数で割るので""の部分が1の近くで安定しますが、データが少ないとそのバラツキが大きくなります。ルートを取るのはχ2乗分布が確率変数の2乗の和なので単位をそろえるためです。 t分布の自由度が高いと標準正規分布とほぼ同じとみなせるのはこんな事情があるためです。データが少ない時は、データの標準偏差と母分散のルート(母標準偏差)とはズレることが多いので、母分散がわからない時は、t検定を使うことになります。 あぁ、明らかに過剰回答だなぁ・・・もっと上手くスッキリ回答できるようになりたいです・・・
その他の回答 (1)
- sen-sen
- ベストアンサー率31% (66/211)
t-testはt分布を使います。 標本から得られた平均値を適当に変換したt値がt分布に従うことを利用しています。 それに対し、分割表データの独立性の検定では、χ二乗分布を用います。 これらは、いずれも標本から母集団から無作為抽出されていないと意味がありません。
お礼
分かりやすい回答ありがとうございましたm(_ _)m頑張って勉強してみます。
お礼
非常に丁寧な回答ありがとうございました。検定のみではなく(例えば、自由度)の説明も分かりやすくしてくださっているので、助かりました。