カイ二乗検定の仮説設定方法とは?

このQ&Aのポイント
  • カイ二乗検定を行う際の仮説設定方法について混乱しています。
  • 具体的な例として、食中毒の原因を調査する問題を考えます。
  • カイ二乗検定では必ず帰無仮説と対立仮説を設定する必要がありますが、具体的な仮説の設定方法について教えてください。
回答を見る
  • ベストアンサー

仮説の設定の仕方

カイ二乗で検定する時の仮説の設定方法について混乱しています。 例えば、食中毒の原因を調査する問題があります。そこで、 食べた/食べない 発症/非発症というグループの検定をしたい。 帰無仮説:食べた/食べないのグループは発症/非発症とは関連がない 対立仮説:            〃         関連がある これで間違いがないでしょうか? また食中毒に限らず、カイ二乗の場合は必ず帰無仮説は[○○と○○は関連がない]という設定にしてしまってよいのでしょうか? 私が混乱しているのはその対象内容によって帰無仮説と対立仮説が入れ替わるのかそれともどの条件においても上記の通りに設定して良いのかどうかがわかりません。統計が得意な方、是非教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • larry
  • ベストアンサー率13% (18/138)
回答No.2

では、視点を因果関係ということに絞ってみましょう。 食中毒で問題になるのは、疑いのある特定の食品と症状の因果関係 ですよね。 ところが、統計自体ではこの問題には答えられないのです。 たとえば、相関係数という便利な数値があります。 これがいくらだったら因果関係があるか? この問題には無理があります。 因果関係が判明していることがらの相関係数には意味がありますが 逆を占うことはできません。 それはすべてその分野の技術的な固有の問題なのです。 >「判定が間違ったら何がまずいか」で決まるということは > その判定する人の主観であって、人によって違うのではないかとも思うのですが、 > 私の解釈が悪いのでしょうか? たとえば、「食中毒が特定の店から出た!」などと報道されれば その店には大きなダメージが出ますから、慎重に調べざるをえません。 食中毒の例だとたまたまみんな腹具合が悪かったのかも しれません。腹具合が悪くなる原因は星の数ほどあります。 でも腹具合が悪いから「疑いのある特定の食品」が本当に菌などが 付いていた、と即座に結論できませんね。 だから、逆に「これしかない!」というためには他の全部の原因の 可能性をすべて検証しなくてはなりません。 そのためにケースとしては特定の場合のみ「関連がない」と 仮説を立てたほうが検証は楽です。 (話は飛びますが例の砒素入りカレー事件の原告側は  この「他の要素を全部つぶした=お前しかいない」という  論調になっています) まとめると、普通は 原因が星の数ほど考えられるなかから、『お前だ!』と言いたいときは 「お前ではない」という証拠を検証するのが常道 ということだと思います。

chesil
質問者

お礼

何度もありがとうございます。なんとなく理解し始めた感じがします。 原因が星の数ほど考えられるなかから、『お前だ!』と言いたいときは 「お前ではない」という証拠を検証するのが常道 これに当てはめて考えていくとできるのだろうと思います。 もしかしてlarryさんは統計学の先生ですか?とてもわかりやすくて丁寧でした。 統計学は計算したり数値を求めたりするのはすぐできるのですが、その考え方というのでしょうか、、、その辺りになると混乱してしまって、本を読んでも難しすぎて(私のレベルが低すぎる)苦しかったのです。 また 是非教えてもらいたいです。ありがとうございました。

その他の回答 (1)

  • larry
  • ベストアンサー率13% (18/138)
回答No.1

まず、誤解しないでほしいのは 統計手法の適用と人間様の都合とは直接関係がない ということなんです。 人間はややもすると結論が恣意的になってしまうので これを戒めるために帰無仮説が存在すると考えます。 よく目にしますが「統計的結論の間違い」には2種 存在します。「見逃し」と「思いこみ」です。 このケースの場合、「思いこみ」を戒める目的で 帰無仮説を「関連無し」にするのです。 学者系には功をあせって「関連があってほしい」と 先入観がはたらくために、このようなまわりくどい やり方になっていると考えてもらってもいいです。 冷静に統計データをまとめてみて 「関連無し」にしては矛盾する場合はじめて 確率5%や1%で有意とか言いますが この場合でも「関連アリ」とは言わずに 「関連が全くない、とはいえない」 といった判定になります。 回答としては 「判定が間違ったら何がまずいか」で決まる ということです。

chesil
質問者

補足

回答ありがとうございます。 「判定が間違ったら何がまずいか」で決まるということは、食中毒の場合、関連して欲しいということがあって、「まずい」ことは関連がなかったら困るからという考え方になるのでしょうか? 多分、私はなぜ仮説を立てるのか?という辺りが理解してないような気がします。 「判定が間違ったら何がまずいか」で決まるということは その判定する人の主観であって、人によって違うのではないかとも思うのですが、私の解釈が悪いのでしょうか?よく統計の本を見ると「関連がある」というのは関連の強さがわからないので、立証できない。なので、「関連がない」と帰無仮説にすると説明されています。

関連するQ&A

  • 統計 検定方法について

    質問紙調査結果のデータの検証として、検定を用いようと考えています。 しかし、統計学の勉強途中で適切な検定が分かりません。   帰無仮説 Aが高い(を選んだ)人は、Bも高い(を選ぶ) 対立仮説 AとBに関係はない Aを高いと選んだ人と、低いと選んだ人を分けて、 Bについてそれぞれ高いか低いかを集計した状態です。 どの検定を用いれば良いかが分かりません。 私はカイ二乗検定を使うと思ったのですが、期待値が分からなくて 考えているうちに混乱してきました。 よろしくお願いいたします。

  • 仮説検定の仮説の立て方についてです。

    数学を趣味で勉強してるものです。 仮説検定での、帰無仮説と対立仮説の立て方です。 例えば、コインの裏表で 表ならAさんの勝ち、裏ならBさんの勝ちを繰り返していたとします。 しかし、Aさんが「どうも裏の方が出やすいのでは」と疑い、 Bさんは「そんなことはない、どちらも同じだよ」と主張しました。 この時、仮説検定で調べようとした場合、 裏の出る確率をpとした場合 Aさんにとっては、  帰無仮説:p=0.5  対立仮説:p>0.5 Bさんにとっては、  帰無仮説:p>0.5  対立仮説:p=0.5 というように、立場により、仮説の立て方が変わると考えてよいのでしょうか? (立場により二つの仮説が考えられることに違和感を感じるので・・・) アドバイス頂けると助かります。    

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • 仮説検定とカイ二乗検定の使い分けについて

    すみません、統計学を学び始めたばかりで、仮説検定とカイ二乗検定の使い分けについて少々混乱しております。 私の理解では、 仮説検定ではHoを立てるときに実際に調べたい事項の逆接をHoとして立て、それが棄却されればH1の実際に調べたかった事項が正しかった証明される。 カイ二乗検定では、実際に調べたい事項をHoとし、その結果が棄却されるか否かを検定する だと思っているのですが、間違っているでしょうか? なお、これにより、p値から判断する基準が、 仮説検定→p値が小さいほどHoが正しくない可能性が高い カイ二乗検定→p値が大きいほどHoが正しくない可能性が高い ということになると思うのですが、合っていますでしょうか。。。? 問題が出たときの仮説の立て方がだんだんとわからなくなってきてしまい、ますます頭がこんがらがっています。 どなたかアドバイスをいただけるとありがたいです。

  • 統計 検定の仮説の質問です。

    検定の最初に仮説を立てます。例えば、下記のように仮説を立て検定の結果、対立仮説が採用されたとします。 ・帰無仮説H0:μ1=μ2       ・対立仮説H1:μ1≠μ2・・・採用 しかし、帰無仮説は最終的に棄却されるべき仮説なので、μ1=μ2であるかμ1≠μ2によって、結論が変りますね(悪く言えば、恣意的に結論を変えられます)。 検定における仮説の立て方について、不変的な基準はあるのでしょうか? 宜しくお願い致します。

  • 仮説検定の問題

    Sくんは新学期が始まってから、学校中をまわり、162人に紅白歌合戦を見たかを聞きました。その結果、145人が見たと答え、17人が見ていないと答えました。  このデータで学校のみんな(9割以上)が紅白歌合戦を見たといえるか。有意水準α=0.01で仮説検定しなさい。ただし、全校生徒は162人よりも十分多いとする。 この場合、帰無仮説をp=0.9、対立仮説をp>0.9と設定するところまでは分かったのですが、 標本平均、母分散、検定統計量をどのように設定し、どのように解くのかがわかりません。 どなたか解説お願いします。

  • 統計学の仮説検定は、両側検定しかありえないのでは?

    統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。 コイン投げにおいて、表が出る確率をP(H)、裏が出る確率をP(T)とします。 帰無仮説が「P(H)=0.5」である場合、対立仮説を「表が出やすい。P(H)>0.5」とすると片側検定、「コインに偏りがある。P(H)>0.5またはP(T)>0.5」とすると両側検定と説明されます。帰無仮説は同じだでれども、対立仮説が何であるかによって片側検定か両側検定かが決まる、という説明が少なくとも2つの教科書に書かれています。 しかし私は、帰無仮説と対立仮説は互いに排反で、かつ2者で標本空間をカバーし尽くせる(起こりうる全ての事象をカバーできる)ものでなければいけない、と思います。 帰無仮説「P(H)=0.5」に対する対立仮説は「コインに偏りがある。P(H)>0.5またはP(T)>0.5」であるべきだと考えます。そして、「P(H)=0.5」とP(H)の値が特定の1つの値であれば、コインを投げる回数が決まれば(例えば10回)、表が出る回数(0~10回)の確率分布を得ることが可能なので、検定できるわけです。 対立仮説を「表が出やすい。P(H)>0.5」とするのであれば、帰無仮説は「P(H)<=0.5」であるべきだと思います。そうでないと標本空間をもれなく考慮したことになりません。ところが、P(H)=0.5はさておき、P(H)<0.5のもとでは、P(H)の値が無数にあります。ということは、例えば10回中表が0回の確率は無数にあります。10回中表が1回の確率も同様です。したがって、表が出る回数(0~10回)の確率分布を得ることができないので、検定できません。 以上の理由で、統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。

  • 適合度の検定について教えてください!

    統計を学んでいます。 先生がおらず誰かに聞くことができないので、 参考書等を参考に学んでいますが、 適合度の検定にて煮詰まっています(><) 以下の(1)(2)についてご教示いただけますでしょうか。 (1)【仮説の設定】 帰無仮説…差(違い)がない、という内容を持ってくることが一般的 対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】 ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却 小さい場合→帰無仮説は棄却できない ということで間違っていないでしょうか。 (2)【適合度の検定】 標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。 ■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない) ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある 小さい場合→帰無仮説は棄却できない→差があるとは言えない 年齢・■国勢調査 ・■標本調査結果 ■期待値 20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6 30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5 40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5 50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8 60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7 65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5 合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510 カイ二乗値:52.7 理論値(自由度5、危険率5%):11.07 結果 帰無仮説を棄却(国勢調査の構成比率と差がある) カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。 「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。 (1)(2)に関し、ご意見を頂ければと思います。 (1)も関連しますが特にお伺いしたいのは(2)です。 (2)に関して回答とその理由をお教え頂けると大変助かります。 よろしくお願いします。

  • 統計 仮説の立て方

    統計学のカテゴリがないようなのでこちらで質問させていただきます。 「二つのグループがあり、一つ目は10人の非喫煙者、二つ目は10人のヘビースモーカーである。二つのグループは、ベースラインとしてBMIの値を調べ、六年後にもう一度BMIの値を調べている」 「データは一年目のそれぞれのグループのBMIの値、六年目のそれぞれのグループのBMIの値、それぞれのグループ内でのBMIの値の変化した値がある」 上記の条件下で喫煙がBMIに関係しているかどうかの仮説を立てたいのですが、どうやって仮説を立てて良いのか迷っています。 私が考えているのは、帰無仮説(喫煙はBMIの変化に関係ない)、対立仮説(喫煙はBMIの変化に関係する)なのですが、それぞれ 帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均、 対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均 で仮説を立てて良いのでしょうか?

  • 統計学、仮説、対立仮説について。

    統計学を勉強し始めたばかりなのですが、最初の方に検定という分野があると思います。そこで、仮説・対立仮説のところに関して質問なのですが、H(0):μ=μ(0)の対立仮説として3つあります。 ’両側検定’ μ≠μ(0) ’左側検定’ μ<μ(0) ’右側検定’ μ>μ(0) この3つの、使い分け?、どういった場合にどの検定を用いるのかわかりません。どの検定を使うのかという条件みたいなものはあるのでしょうか?