• ベストアンサー

検定について

「t検定」と「χ二乗検定」ってどうやって使い分けるものなのですか? 教えて下さい。

質問者が選んだベストアンサー

  • ベストアンサー
noname#12673
noname#12673
回答No.2

両方とも、観測された事象が誤差の範囲か、そうで無いかを判断するためにするものです。分布の中心(平均)とのズレが誤差の範囲かどうかを調べるのがt検定で、データのバラツキかたが誤差の範囲かどうかを調べるのがχ2乗検定です。 調べたいのが、分布の中心の話なのかバラツキの話なのかを見極めて使い分けてください。 tとかχ2乗っていうのがなんなのか分からないといまいち安心して使えないという方は以下に私が理解した範囲での説明を載せます。多少の間違いはあるかもしれません(まだ学生ですので)。長いのですので興味がなければ読み飛ばしてください。 t検定というのは、想定していた平均値から、実際観測された平均値のズレが誤差の範囲かどうかを調べることです。 この誤差が正規分布に従っているとするのですが、正規分布のカタチを決定するためには母平均と母分散が分かってないといけません。母平均は、想定していた平均値を使いますが、母分散がわからない時は、標準正規分布の代わりにt分布を使います。t分布は、母分散を使う代わりにデータから算出した分散(標本分散)を使います。t検定量の出し方は、データの平均から母平均を引いて、標準偏差で割ります。この値が、自由度がデータ数-1のt分布の元で得られる確率がどの位であるかを調べ、許容している確率(有意水準)より多ければ、実際観測された平均値のズレは誤差であるとし、少なければ誤差と言えず、なんらかの影響があって母平均値が変わったと判断します。自由度については、χ2乗分布が絡むので、あとで説明します。 χ2乗検定に使うχ2乗分布というのは 「互いに独立な標準正規分布に従う確率変数の2乗和」の分布です。 確率変数というのは、確率によって値の決まる数のことで、この場合はその確率が平均が一番高く、そこから離れるにしたがって正と負が同じように確率が下がっていく標準正規分布(平均0、分散1)に従っているということです。独立というのは確率変数の発生が、それまでの確率変数の発生の影響を全く受けないで発生することを言います。2乗和は、発生した確率変数を2乗してどんどん足していくことです。2乗することによって、マイナスに離れてもプラスになるので純粋に「離れ具合」を足していくことができます。2乗しなければ、プラスに離れた分とマイナスに離れた分が相殺されてしまいますから。 χ2乗分布には自由度というものがありますが、これは足した確率変数の数です。 例えば2乗和が2になる確率は、2個足した場合と3個足した場合では当然違いますよね? χ2乗検定の場合は、とりあえず調べたいデータのバラツキが誤差である(正規分布に従っている)と仮定します。次に調べたいデータからその平均を引いて標準偏差で割るという基準化(標準化)という操作をします。これでデータを標準正規分布に従っているとみなすことができます。基準化したデータの2乗和を足すと、それがχ2乗分布に従うと見なすことができますよね?それと、実際のχ2乗の理論値とを比べて、その値が許容範囲なら、バラツキが誤差の範囲である仮定は妥当であるとし、許容範囲を超えたら、バラツキは誤差の範囲でないと判断します。 実際には、比較するχ2乗分布は、データの数よりも少なめの数の自由度のものと比較します。この原理の説明は私は上手くできないので割愛させていただきます。 No1の方の言う、分割表のデータの独立性の検定という話は、各データの発生が要因に対して独立(要因はデータに影響を与えない)なら周辺分布から計算された理想値との差は誤差であるとしてその和について検定を行い、χ2乗統計量が許容範囲外なら理論値との差が誤差ではない=要因はデータに影響を与えたと判断するという仕組みです。 χ2乗検定の出番は分割表のヤツだけではありませんが、分割表のときに使うのが一番多いと思います。 それで、t分布の自由度の話ですが、 t分布は、標準正規分布に従う変数を、"それとは独立に分布するχ2乗分布に従う変数を自由度で割ったもののルート"で割った数の分布ということになっています。 自由度が高い、つまり使うデータが多いと、分散の期待値が1のものの和を足したものの個数で割るので""の部分が1の近くで安定しますが、データが少ないとそのバラツキが大きくなります。ルートを取るのはχ2乗分布が確率変数の2乗の和なので単位をそろえるためです。 t分布の自由度が高いと標準正規分布とほぼ同じとみなせるのはこんな事情があるためです。データが少ない時は、データの標準偏差と母分散のルート(母標準偏差)とはズレることが多いので、母分散がわからない時は、t検定を使うことになります。 あぁ、明らかに過剰回答だなぁ・・・もっと上手くスッキリ回答できるようになりたいです・・・

blueey
質問者

お礼

非常に丁寧な回答ありがとうございました。検定のみではなく(例えば、自由度)の説明も分かりやすくしてくださっているので、助かりました。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • sen-sen
  • ベストアンサー率31% (66/211)
回答No.1

t-testはt分布を使います。 標本から得られた平均値を適当に変換したt値がt分布に従うことを利用しています。 それに対し、分割表データの独立性の検定では、χ二乗分布を用います。 これらは、いずれも標本から母集団から無作為抽出されていないと意味がありません。

blueey
質問者

お礼

分かりやすい回答ありがとうございましたm(_ _)m頑張って勉強してみます。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • t検定

    t検定の数値の大きさって何を示すんでしょうか? また、R2乗(ここでは0.53,0.22となっています)は何を言っていて、どんな意味がありますか? R2乗だけじゃわかりにくいと思いますが、よく使われる奴を知ってたらお願いします。

  • t検定・Χ二乗検定について t検定は平均年齢の差の検定ができますか?

    仕事で検定が必要ですが、知識がなく困っています。 以下の場合はt検定でしょうか?Χ二乗検定でしょうか?それとも違う検定でしょうか? 【2005と2006の運動習慣ありとなし、性別、年齢別にそれぞれ層別化して、統計処理する。】 行動変容を起こさせるための資料を作るのが目的です。 (1)クロス集計をしてΧ二乗検定かな、と思うのですが、どのように層別化すればよいかわかりません。 (2)2005と2006の運動習慣ありとなし、性別、年齢をクロス集計して平均年齢をt検定すればよいのでしょうか? (3)t検定は平均年齢の差の検定もできるのでしょうか? どの検定をどうように使ったらよいかわからない状態です。 統計の本を読んだり、ネットで検索しましたが、いまいち理解できません。 エクセル、spssが使える環境です。 統計初心者のため、詳しくご教授いただけるとうれしいです。 よろしくお願い致します。

  • 何で検定したらいいのかわからないんです

    アンケートをとってそれに点数をつけてます。その点数を年齢別や男女別などに分類して、年齢などによってその点数に差が生じるか調べています。 年齢ならば、10~80才代にわけて、その年齢によって点数が多いか少ないか、という事があるかどうかを知りたいと思います。 t検定か、カイ2乗検定をすれば?と言われたんですが、どうもちがうきが・・ ものすごく初歩的ですみません。 でも、困ってます。よろしくお願いします。

  • 二つの回帰式の係数の差の検定、χ2乗検定

    二つの単回帰式における係数が有意に異なるか、を検定するのにある論文のなかで、χ2乗検定をしているのですが、それがどのようなプロセスを踏んでそのように検定しているのかがわからず、困っています。具体的には、 X(t+1)=a+bX(t)+u(t+1) Y(t+1)=c+dY(t)+v(t+1) という一階のラグを含んだ自己回帰式において、bとdがそれぞれXとYの持続性を表すとして、得られた回帰係数のどちらかが有意に大きいといえるかを検定するというものです。  参考書やウェブを調べたのとですが、これという確信をもてるものがなく、困っています。 χ2乗検定を使っているので、回帰係数の標準誤差の比でF検定?とも考えたのですが、違いますでしょうか。 またエクセルで処理する方法がありましたらご教授いただけますと助かります。 実証研究にお詳しい方、どうかお力をお貸しください。 よろしくお願いいたします。

  • 検定法

    データの検定で、T検定とかZ検定とかカイ二乗検定とかいろいろありますが、どういうデータでどの検定法を使えば良いのかよくわかりません。たとえば、Aの効果についてのデータ3つとBの効果についてのデータ3つで、Aの方が有意に効果があると結論付けたい時、どういった検定法を使えば良いのでしょうか。よろしくお願いいたします。

  • t検定と1×2の分散分析の違い

    ある統計の本に、t2乗=Fであり、 t検定と1要因2水準の分散分析は同じだ、と書かれていました。 そうすると、t検定が存在する意味がなくなってしまう (分散分析だけですんでしまう)ことになると思うのですが、 なぜt検定をするのでしょうか。

  • 対応のないt検定について

    心理学をやってます。 対応のないt検定についてです。 PCに関する知識が乏しいので手計算でやろうとしてます。 条件が違う2群で7人(8人)の参加者に15試行テストをしました。 2群間のt検定をしたいのですが、 1群 参加者A(データの個数-平均)の二乗+… 参加者B(データの個数-平均)の二乗+… 2群 参加者A(データの個数-平均)の二乗+… 参加者B(データの個数-平均)の二乗+… の先がいまいちわかりません。 また、間違えている可能性もあります… どうかご指導お願いします。

  • Fisherの正確確率検定とカイ二乗検定

    最近卒論で検定をしていますが、分からないことが多いので誰か教えてください。よろしくお願いします! Fisherの正確確率検定とカイ二乗検定でカイ二乗検定を使う方が好ましい場合はありますか? カイ二乗検定はゼロ項がある場合使えないと聞きましたが本当ですか? fisherの正確確率検定と直接確率計算法は同じものですか?

  • [統計] こんな検定をして意味がありますか?

    2グループあります。 各グループにはいくつかのサンプルがあって、 各サンプルにたいしてある試験を行い、 得られたデータを最小二乗近似したときの傾きの値(A)をサンプルごとに得ました。 このAの平均値がグループ間で異なるかどうかを検定したいのですが、 通常のt検定や分散分析で解析しても大丈夫でしょうか?

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

このQ&Aのポイント
  • パソコンのCPUの熱暴走でファンが止まらなくなるのが最近多くなったため、対処法を調べました。
  • ノートパソコンの場合、電源オプションの設定で[プロセッサの電源管理]の最大を99%にする方法がありますが、100%でなくてもパソコンは普通にデータを読み書きできますか?
  • NEC 121wareのパソコン本体に関する質問です。
回答を見る