統計 仮説の立て方

このQ&Aのポイント
  • 統計学において、喫煙がBMIに関係しているかどうかの仮説を立てる方法について考えています。
  • 比較対象として非喫煙者とヘビースモーカーの2つのグループを取り、BMIの値を調査します。
  • 帰無仮説と対立仮説を設定し、グループ間のBMIの変化を比較して仮説を検証します。
回答を見る
  • ベストアンサー

統計 仮説の立て方

統計学のカテゴリがないようなのでこちらで質問させていただきます。 「二つのグループがあり、一つ目は10人の非喫煙者、二つ目は10人のヘビースモーカーである。二つのグループは、ベースラインとしてBMIの値を調べ、六年後にもう一度BMIの値を調べている」 「データは一年目のそれぞれのグループのBMIの値、六年目のそれぞれのグループのBMIの値、それぞれのグループ内でのBMIの値の変化した値がある」 上記の条件下で喫煙がBMIに関係しているかどうかの仮説を立てたいのですが、どうやって仮説を立てて良いのか迷っています。 私が考えているのは、帰無仮説(喫煙はBMIの変化に関係ない)、対立仮説(喫煙はBMIの変化に関係する)なのですが、それぞれ 帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均、 対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均 で仮説を立てて良いのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.4

横から再度口出しですが、書き忘れたことが一つ。  平均の差を検定される、ということですが、平均の差を検定するには、前提条件として、2つの群が正規分布(またはt分布)をしている、あるいは想定できる、というのが必要です。  正規分布は、多数をランダムサンプリングする必要があります。が、人間相手ではランダムサンプリングは困難だと想います。ですから、平均値の差の検定(→t検定)をするなら、データが正規分布していることを確認していないなら、発表時に突っ込まれるかも(突っ込める人は少ないが)。  データを見ないと確定的なことは言えませんが、平均値に拘らない検定法もあるハズです。   検定は、私には難しく、このようなコメントが書けるようになるまで30年かかりました。そして、未だに初心者です。多変量解析なんぞは理解不可能で、『なんで、ワザワザ難しくするのだろう』と常に感じます。

mizuno_s
質問者

お礼

何度もありがとうございます。 実はこれ、学校の課題なのですが、今まで習った内容のみを使ってといったことなので、検定としてはz検定かt検定ぐらいしか候補が無いのです。 むしろ、kgu-2さんの仰るように、正規分布していないことに突っ込むことも課題の内なのだと思います。

その他の回答 (3)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

>帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均、 対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均 で仮説を立てて良いのでしょうか? 仮説自体は、研究者の自由です。仮説に対して、適切な検定法があれば、です。  私が危惧するのは、この帰無仮説に対して、6年後に有意差有りと予想されるなら、出発点である現時点(6年前から研究すれば、6年後は現在)でも有意差があるハズ、ということです。となると、今さら6年間も観察しても、・・・。  すなわち、研究開始時点では、2つの群の状況は、同じでないと検定しても無駄になります(有意差有りは、自明)。

mizuno_s
質問者

お礼

申し訳ありません。 kgu-2さんの仰る通り、6年前と6年後では同じはずでしたよね。 今条件を見直してみたら、二つ目のグループは、「実験開始時はヘビースモーカー、それから禁煙を開始して6年後に再検査」したものでした。 つまり、一つ目の「喫煙経験なし」のグループと、二つ目の「喫煙経験あり、実験開始直後に禁煙開始」のグループのBMI値の差は認められるかどうかでした。 この場合、サンプルの変化値の平均をそれぞれ2つのグループで出し、両側t検定後、p値とαを比べ、帰無仮説(μ1-μ2=0)及び対立仮説(μ1-μ2≠0)の棄却・採択をすれば良いのでしょうか? 何度も申し訳ありません。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

 このデータには、喫煙と非喫煙で同一、現在と6年後で同一、という2つの帰無仮説が含まれている。ご質問の内容から、初心者には無理、と感じる。  目的を考えて、 1 質問者が帰無仮説を考える 2 その為には、どんなデータが必要か、を考える  ただ、データ集めには不安が残る。というのも、 1 非喫煙群と喫煙群は、喫煙以外の条件(性別、年齢などなど)は、同じか 2 交絡因子(例えば、飲酒)は、配慮しているのか  と突っ込みたくなる

mizuno_s
質問者

お礼

お早い回答ありがとうございます。 しかし、データ集めに関しては、残念ながら私自身が集めたデータではないので変えようがないのです。 条件として被験者は同年代の女性で、皆同じ職場仲間です。その他の条件に関しては伝えられていません。 その他の条件を無視した場合ではBMIと喫煙の関係はどうか、又その他の条件を考慮した場合ではBMIと喫煙の関係はどうか、ということなので、一つ目に関してはその他の条件を無視して考えた場合、こういった仮説を立てるのが妥当なのではないか、と考えたのですが…

  • okormazd
  • ベストアンサー率50% (1224/2412)
回答No.1

喫煙者をA群、非喫煙者をB群とします。それぞれの群のBMIの変化した値(実測)の平均をxA、xB、分散(実測)をそれぞれσ'A^2、σ'B^2とします。次のようなt検定になるでしょう。 この場合、両群の「母集団」のBMIの変化した値の平均はそれぞれμA、μBで、分散σA^2=σB^2=σ^2で、正規分布すると仮定しないと、検定できません。検定は、μA=μBかどうか調べることです。実際のデータでは、平均xA、xBで、分散σ'A、σ'Bがわかります。ここで、平均の差xA-xBの分布は、平均μA-μB、分散(1/m+1/n)σ^2になることが知られています(m、nはA群、B群のサイズ)。ところが、σはわからないので、両グループのデータからの分散の推定量sを使います。すると、 T=(xA-xB)/(√((1/m+1/n)s) が、自由度(m+n-2)のt分布になることを使うのです。信頼度95%、有意水準5%なら、帰無仮説μA=μBを棄却する範囲は、 |T|>t(m+n-2)(0.025) です。 ところで、sを求めるには工夫が要ります。 s=(A群の残差平方和+B群の残差平方和)/(m+n-2) なので、A群の残差平方和、B群の残差平方和を、分散σ'A、σ'Bの定義式に戻って求めればいいでしょう。 σ'A=√((A群の残差平方和)/(m-1))で、σ'Bも同様です。 「帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均」 ではありません。測定値がxA=xBすなわちxA-xB=0かどうかということではなくて、喫煙者全体(母集団)の平均と非喫煙者全体(母集団)の平均に差があるかどうかを調べるのだから、 帰無仮説:μA-μB=0、対立仮説:μA-μB≠0のt検定です。質問者の書き方だと、xAとxBに差があるかどうか調べるような感じになってしまいます。xAとxBは実測された値が出ているので、検定するまでもないです。実測されたxAとxB、それに分散を使って、そもそも、全部は測定できない喫煙者全体と、非喫煙者全体とで差があるかどうか検定するのです。 「対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均」 ではありません。「μA-μB<0」も「μA-μB>0」もあるので、対立仮説:μA-μB≠0の両側検定になります。

mizuno_s
質問者

お礼

お早い回答ありがとうございます。しかもこんなに詳しい解説まで。 なるほど、影響があるかどうかは、あくまで母集団のBMIの数値の平均に差があるかどうかなのだから、実際のデータの平均ではないのですよね。失念していました。 つまり、帰無仮説=μA-μB=0、対立仮説=μA-μB≠0を、t検定を通して調べ、P値からその仮説の可能性を測る…ということで、いいんですよね?

関連するQ&A

  • 統計学の仮説検定は、両側検定しかありえないのでは?

    統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。 コイン投げにおいて、表が出る確率をP(H)、裏が出る確率をP(T)とします。 帰無仮説が「P(H)=0.5」である場合、対立仮説を「表が出やすい。P(H)>0.5」とすると片側検定、「コインに偏りがある。P(H)>0.5またはP(T)>0.5」とすると両側検定と説明されます。帰無仮説は同じだでれども、対立仮説が何であるかによって片側検定か両側検定かが決まる、という説明が少なくとも2つの教科書に書かれています。 しかし私は、帰無仮説と対立仮説は互いに排反で、かつ2者で標本空間をカバーし尽くせる(起こりうる全ての事象をカバーできる)ものでなければいけない、と思います。 帰無仮説「P(H)=0.5」に対する対立仮説は「コインに偏りがある。P(H)>0.5またはP(T)>0.5」であるべきだと考えます。そして、「P(H)=0.5」とP(H)の値が特定の1つの値であれば、コインを投げる回数が決まれば(例えば10回)、表が出る回数(0~10回)の確率分布を得ることが可能なので、検定できるわけです。 対立仮説を「表が出やすい。P(H)>0.5」とするのであれば、帰無仮説は「P(H)<=0.5」であるべきだと思います。そうでないと標本空間をもれなく考慮したことになりません。ところが、P(H)=0.5はさておき、P(H)<0.5のもとでは、P(H)の値が無数にあります。ということは、例えば10回中表が0回の確率は無数にあります。10回中表が1回の確率も同様です。したがって、表が出る回数(0~10回)の確率分布を得ることができないので、検定できません。 以上の理由で、統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。

  • 仮説の設定の仕方

    カイ二乗で検定する時の仮説の設定方法について混乱しています。 例えば、食中毒の原因を調査する問題があります。そこで、 食べた/食べない 発症/非発症というグループの検定をしたい。 帰無仮説:食べた/食べないのグループは発症/非発症とは関連がない 対立仮説:            〃         関連がある これで間違いがないでしょうか? また食中毒に限らず、カイ二乗の場合は必ず帰無仮説は[○○と○○は関連がない]という設定にしてしまってよいのでしょうか? 私が混乱しているのはその対象内容によって帰無仮説と対立仮説が入れ替わるのかそれともどの条件においても上記の通りに設定して良いのかどうかがわかりません。統計が得意な方、是非教えてください。

  • 統計解析法

    統計解析手法の検定についての質問です。 2つの母平均の差の検定の場合です。 帰無仮説H0:μ1=μ2 対立仮説H1:μ1≠μ2とします。 帰無仮説が棄却された場合は結論として対立 仮説が成り立ち、第1種の過誤はαであり、 このケースは問題ありません。 しかし、帰無仮説が棄却されない場合、第2 種の過誤の問題があり、積極的に結論として 帰無仮説が成り立つとは言えません。 上記問題は、2つの母平均の差の検定の手法を 使って、積極的に2つの母平均に差が無いと言 う結論を統計的に導き出す事の障害になります。 2つの母平均の差の検定の手法をうまく工夫 する事、又は、別の手法で、2つの母平均に差 が無いとの結論を統計的に導く事は出来な いでしょうか? ご教授の程宜しくお願い致します。

  • 統計用語(帰無仮説、有意水準)の使い方

    こんばんは、皆さん。 統計のテキストを読んでいますが、用語の使い方がしっくり来ません。 統計用語の使用方法について、次のような使い方は適切でしょうか? 言葉の使い方でおかしいところがあればご指摘ください。 帰無仮説を「推定母平均(母集団の平均値)は8である」と定義して、t検定を実施した。 採取したサンプルは1,2,3,4,5,10であった。 この時、推定母平均に基づくtは2.94484…であり、t分布表に基づくtは2.571であった。 よって、帰無仮説は有意水準5%で棄却される。 疑問点は次の箇所です。 ・「帰無仮説」の使い方 ・「推定母平均」という単語(googleではほとんど引っかからない) ・「有意水準」は「100-危険率」か?「有意水準=危険率」か? ・帰無仮説が棄却できない場合、「採択される」ことにしてしまってよいか? ・「帰無仮説が棄却される」ということは、「推定母平均は8ではない」と同義でよいか? ご教授お願いします。

  • 統計学3

    以前にも似たような質問をして今回もその回答のようにやってみましたが、やっぱりうまくいきません。毎度申し訳ありませんがまた教えてください。 課題 8.  S 社の14インチ液晶ディスプレイ(A-xyz) 13 台の寿命を測定したところ,次の結果を得た.   寿命時間が指数分布に従うものと仮定して,平均寿命時間 t に関する 帰無仮説 H0: t=7942.00,対立仮説 H1: t<7942.00 を,有意水準 0.04 で検定せよ. また,平均寿命時間 t に関する下側信頼区間を信頼度 0.96 で構成せよ.    27847 6482 18846 8828 1778 6545 15847 5200 5443 9570 9870 1999 4086 検定統計量= 臨界値(棄却域の端の値)= 帰無仮説 H0は 棄却される,or棄却されない 信頼区間 ( 0 , ] ただし,検定統計量=2×標本数×標本平均÷(帰無仮説の元での平均寿命)

  • 統計学の検定のもんだいです。

    前回分 すいません、タイプミスがございました、ご容赦をおねがいします。 検定の問題です。答えも知りたいですけど 自身の考え方が正解かどうか 知りたいです。ご指導宜しくお願いします。 健常者のIgG値の平均値は1180(mg/100ml)であることが知られているとする。A病院における透析患者のIgG値(mg/100ml)の平均値は健常者の平均値と異なっていると言えるか、[A]のデータを用いて有意水準0.05で検定せよ A:1326 1418 1820 1516 1635 1720 1580 1452 1600 (1)帰無仮説と対立仮説を記すこと。 (2)有意水準0.05として、この検定の棄却域を求める(両側検定を行う)。 (1)棄却域を求めるためのRのコマンドを記すこと。 (2)求められた棄却域を T>a, T<b という形で記すこと。ここで、a,bは具体的な値。 (3)検定のための統計量の値を求めるRのコマンドを記すこと。 (4)統計量の値を記すこと。 (5)棄却域と比較することにより帰無仮説を棄却するか採択するか決め、結果を記すこと。 (6)最初に与えられた質問(最初の文章)に解答せよ。 (7)p値を求めるRのコマンドと結果の値を記すこと。 (8)p値の結果の値から帰無仮説を棄却するか採択するか決め、結果を記すこと。

  • 統計学の第2種の過誤(対立仮説が説が正しいのに、帰無仮説が棄却できない

    統計学の第2種の過誤(対立仮説が説が正しいのに、帰無仮説が棄却できない)に関する質問です。たいていの統計学の入門書に出ている図なのですが、2つの分布が重なり合った部分が色塗りされていて、「この部分が第2種の過誤です」という説明がなされています。が、その部分がなぜ第2種の過誤を意味しているのか、さっぱりわかりません。どなたか、初心者向けにわかりやすく噛み砕いて教えていただけないでしょうか?そもそもどの図を指しているのかイメージしにくいかもしれませんが(言葉で説明しにくい)、「あー、あの図のことか」と理解していただいた方がいらっしゃたら、お願いします。

  • 統計学(検定)の問題なのですが…

    母平均が既知、母分散が未知である正規母集団の母分散σ^2>0について、 帰無仮説:σ^2=σ_0^2 対立仮説:σ^2>σ_0^2 と設定し、片側検定を有意水準5%で行うことを考える。真の値がσ^2=(1/3)σ_0^2であるとき、97.5%以上の確率で帰無仮説が棄却されるために必要な標本数の最小値はいくらか。 という問題が解けず、どなたか考え方をお教え頂けると幸いです(σ_0は添字です)。本文ではこの下にずらずらとカイ二乗の値が並んでいます。答え自体は分かっていて、22個ということでした。自分は東大出版会の統計学入門という本で学んだのですが、これに類する問題は目にしたことがなく、いささか戸惑っています。 また、もし宜しければこのように少し応用しなければ解けない統計学の問題集をご存知の方がいらっしゃいましたら教えて頂けると光栄です。単なる検定なら実行できるのですが、応用力が全く身に付かず困っています…。 長くなりましたがどうぞ宜しくお願い致します。

  • 統計学2

    またまたすみませんが、教えて下さい。分からないんです 課題 7. あるテレビ番組の視聴率 p (0≦p≦1)を調べるために,アンケート調査を行ったところ, 60 人中 21 人が視聴したと答えた.   帰無仮説 H0: p= 0.26,対立仮説 H1: p≠ 0.26 について,有意水準 0.08 で仮説検定を行え. また,視聴率 p を信頼度 0.92 で区間推定せよ.   ただし,仮説検定と区間推定のどちらに対しても,ラプラスの定理(2項分布の正規分布による近似)を用いよ. 検定統計量(B')= 臨界値(棄却域の端の値)= 帰無仮説 H0は, 棄却されるor棄却されない、どちらか 信頼区間 [ , ] 誰か統計得意な人助けて下さい。お願いします!

  • 仮説検定の問題

    Sくんは新学期が始まってから、学校中をまわり、162人に紅白歌合戦を見たかを聞きました。その結果、145人が見たと答え、17人が見ていないと答えました。  このデータで学校のみんな(9割以上)が紅白歌合戦を見たといえるか。有意水準α=0.01で仮説検定しなさい。ただし、全校生徒は162人よりも十分多いとする。 この場合、帰無仮説をp=0.9、対立仮説をp>0.9と設定するところまでは分かったのですが、 標本平均、母分散、検定統計量をどのように設定し、どのように解くのかがわかりません。 どなたか解説お願いします。