• 締切済み

確率統計での検定の勉強の仕方について

確率・統計の1つのトピックとして検定があります。 たいてい、データがあり→ある仮説を立て→ある検定によってその正否を検討する、という流れのように思います。 データやそれに応じた仮説や推論というのは、人間の自由裁量の範囲だと思いますが、その仮説の正否を検定する方法が物凄く多いように思います。 短い○○検定だけでなく、長い名前の検定もあります。 自分が取得したデータとそれによる仮説を検定するのはどの検定方法なのかを知るにはどうしたらいいのでしょうか。 例えば、取得したデータの確率分布が○○分布に従うと言う仮設を立て、検定を行った結果、仮説が成立したとすると、それ以降そのデータは○○分布に従うということを前提として理論展開が進むと理解してよいでしょうか。

  • 科学
  • 回答数2
  • ありがとう数2

みんなの回答

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

>なぜそうするの  自分の経験で。数学がお得意で、数式だらけの教科書を読んでも頭痛がしない、というのなら、そんな教科書の読破が一番です。が、そんな人は、このような質問はしないと想うので。  何度もやっているうちに、これはこの方法、と分かってきました。論文や本を読んでいるうちに、似たような検定法に意識が行って知識が増え、なんとかなるようになりました。ですから習うより慣れろです。  統計学をする人は、数式できちんと証明している教科書で勉強する人もいるようです。しかし、私にはチンプンカンプン。標準誤差は、nでは無くn-1で割るとか、標準偏差と標準誤差との相違、相関係数と決定係数、などについて知りました。どちらを使うかは目的に応じて判断できると自負していますが、それで良いのかの証明能力はありません。しかし、論文の統計処理でクレームのついたことはありません。自分で理解している範囲しかしないからです。  テレビを見たい人が、テレビの仕組みを知って、それから電源ボタンを押す人は少ないと想います。とりあえず、リモコンを押しているうちになんとかなる。私は統計学やっているうちに、難しい多重比較をするのではなく、簡単なt検定などで処理できるように実験計画を組むようになりました。 >火星の表面に点在している岩石の大きさと硬度の相関の分布 単純に、x軸に大きさ、y軸に硬度をとり、散布図を描く。  大きさから硬度を推算したいのなら、回帰式を算出。因果関係を主張したいのなら、まず、相関係数の検定(他にも、時間性、普遍性、特異性、合理性の判定が必要)。データが偏っているのなら、U検定なんぞもありますが。 >既にデータが従うべき確率分布などが既知であるという意味でしょうか 既知であるように、収集する。ランダムサンプリングなら、正規分布を想定できます。 >全く予断を許さないデータを調べる場合  想定できないなら、データの分布を調べてから、というのもありです。正規分布だと、電卓の無い筆算の時代に正規確率紙を使う、と本で読みました。  平均値の差の検定の場合は、正規分布を要するt検定ではなく、分布に制限されないF検定とか、順位差検定を使う、ということになっています。有意差は、出にくくなりますが。  経験的なものもあるとか。預貯金残高は、正規分布しません。ですから、その平均値もt検定も間違いです。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

>自分が取得したデータとそれによる仮説を検定するのはどの検定方法なのかを知るにはどうしたらいいのでしょうか。 順序が逆。データを収集した時点で、検定法は決定済みのハズ。統計学は、検定法を考えた上で、データを収集すること、が基本です。   ですから、私は、t検定、F検定、カイ2乗検定、相関分析くらいの検定しかしません。それで検定できるように実験計画を立てます。それくらいの検定なら、適否は分かりますが、それ以上の複雑・難解な検定は理解できないからです。そして、ある統計の教科書によると、この4種で8割の論文は検定しているとのこと。ですから、私には、この4種で十分ですし、これでカバーできないような計画はしません。 >それ以降そのデータは○○分布に従うということを前提として理論展開が進むと理解してよいでしょうか。 例えば、検定法としてt検定を選択するなら、データは正規分布をするように収集します。正規分布が想定できないなら、F検定とか先に検定法を決める必要があります。また、2群ではなく、3群になると多重比較なんぞの理解しがたい検定法を求められます。  データがあるのでなんとか、というのは誤り。現実には、なんとかなる場合が少ないので、「何とかして」という書き込みも目立つのですが。現実には、習うより慣れろで、数をこなしているうちに、他人様の真似をしてできるようになります。

skmsk19410
質問者

お礼

回答有難うございました。 検定法が先にあって、それに応じたデータの収集方法が決まるというところが非常に重要だと思いました。 データを収集する前から検定法が先にあるということは、既にデータが従うべき確率分布などが既知であるという意味でしょうか。全く予断を許さないデータを調べる場合、どういう風に考えるのかな?とも思いますが。火星の表面に点在している岩石の大きさと硬度の相関の分布などです。それとも統計解析というものは、そのようなものに適用するのではないのかも知れませんけれども。 ”習うより慣れろ”とのことですが手法に習熟する場合はそれでもよろしいと思いますが、なぜそうするのかについては、答えてくれないように思いますが。

関連するQ&A

  • 検定統計量について

    検定統計量と検定について(http://www.aoni.waseda.jp/abek/document/t-test.html) 1. 検定の方法は,T検定,F検定,J検定などの手法をみかけるのですが,違いがいまいち 分かりません.これらの違いは,考える確率分布が違うということなのでしょうか? 2. 各検定法(T検定,F検定,J検定など)と検定統計量のかかわりがよくわからないのですが, たとえば,T検定をする場合の平均の検定統計量とF検定をする場合の平均の検定統計量 は同じなのでしょうか?   3. 検定についてまだよく分かっていないので,検定の仕方を正しく認識しているか怪しいですが, 検定は,仮説に応じて検定統計量を定義してから,その検定統計量を計算し, P値を求めることで仮説が有意か否か判定するのですよね? なので,最終的にどの検定(T,F,J検定)もP値を求めて有意か否か判定するので, 検定統計量さえ正しく定義できれば,T検定,F検定,J検定など,どの検定法 を使おうとひとつの検定の方法でどんな仮説の検定もできると考えてよいのでしょうか? それとも用途に応じて検定法を使い分ける必要があるのでしょうか? 回答よろしくお願いします。

  • 統計学の仮説検定は、両側検定しかありえないのでは?

    統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。 コイン投げにおいて、表が出る確率をP(H)、裏が出る確率をP(T)とします。 帰無仮説が「P(H)=0.5」である場合、対立仮説を「表が出やすい。P(H)>0.5」とすると片側検定、「コインに偏りがある。P(H)>0.5またはP(T)>0.5」とすると両側検定と説明されます。帰無仮説は同じだでれども、対立仮説が何であるかによって片側検定か両側検定かが決まる、という説明が少なくとも2つの教科書に書かれています。 しかし私は、帰無仮説と対立仮説は互いに排反で、かつ2者で標本空間をカバーし尽くせる(起こりうる全ての事象をカバーできる)ものでなければいけない、と思います。 帰無仮説「P(H)=0.5」に対する対立仮説は「コインに偏りがある。P(H)>0.5またはP(T)>0.5」であるべきだと考えます。そして、「P(H)=0.5」とP(H)の値が特定の1つの値であれば、コインを投げる回数が決まれば(例えば10回)、表が出る回数(0~10回)の確率分布を得ることが可能なので、検定できるわけです。 対立仮説を「表が出やすい。P(H)>0.5」とするのであれば、帰無仮説は「P(H)<=0.5」であるべきだと思います。そうでないと標本空間をもれなく考慮したことになりません。ところが、P(H)=0.5はさておき、P(H)<0.5のもとでは、P(H)の値が無数にあります。ということは、例えば10回中表が0回の確率は無数にあります。10回中表が1回の確率も同様です。したがって、表が出る回数(0~10回)の確率分布を得ることができないので、検定できません。 以上の理由で、統計学の仮説検定では、両側検定しかありえないのではないかと考えますが、ご意見をお聞かせ下さい。

  • サイコロのある目が出る確率に関する検定(数理統計)

    サイコロのある目が出る確率に関する検定(数理統計) 現在、数理統計学を独学で勉強していますが、以下のところで 詰まっています。詳しい方のご回答お待ちしております。 サイコロをn回振るとする. p_i を i の目が出る確率としたとき, 帰無仮説 H_0 : p_i = 1/6 , 有意水準εで検定する方法を教えてください。 χ2乗分布に従う統計量をとり、それを使い棄却域を設定するようですがどのような統計量を取れば良いのか分かりません。 解説をみると, 以下のようになっています. (n=120のとき.) i の目がでた回数を f_i (i=1,...,6) としたとき 統計量T = Σ_{i} {(f_i-20)^2 /20} は自由度5のχ2乗分布に従う. この統計量Tが自由度5のχ^2分布に従う根拠はどうなっているのでしょうか。 (うまく確率密度関数を計算できません.) また一般にn回サイコロを振るとすると T= Σ_{i} {(f_i - (n/6))^2 / (n/6)} は自由度 5 のχ2乗分布に従うのでしょうか。 よろしくお願い致します。

  • 統計学に関する質問です

    統計学の仮説検定に関する質問です。 表の出る確率がpのコインを10回投げる時、表の出る回数を確率変数Xとする。 表の出る回数Xをもとに、仮説 帰無仮説:p = 1/2 対立仮説:p ≠ 1/2 を有意水準5%で検定するとき、棄却域を求めよ。 という問題です。 簡単な問題らしいのですが統計初心者なんでよくわかりません・・・ 二項分布B(10、1/2)をN(5、0.5^2)の正規分布にして (T - 5)/0.5 ~ N(0、1) よって棄却域はT≦4.02 T≧5.98 であってますか?汗

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 統計学 検定

    統計学の検定について質問があります。 お手数ですが、まずは下記の問題を読んで頂けますでしょうか。 ____________________________ ある地域で100人に対して血液型の調査を行ったところ、 以下の表に書かれているような調査値を得ることが出来た 日本人のABO式血液型の分布はA型40% B型20% AB型10% O型30% である 血液型 A型  B型  AB型  O型  計 調査値 35人 21人 12人 32人 100人 期待値 40  20  10  30  100 この地域の血液型分布は日本人の血液型分布と有意差があるか検定せよ ________________________________ この問題はχ2検定で検定し、この地域の血液型の分布は、 日本の血液型分布と異なるのか検定することが出来ると言うものですが、 例えばこの中でA型のみを対象に有意差があるか検定したい場合は、 どのように検定したら良いのでしょうか? 同様にχ2検定でA型のみ検定すれば良いのでしょうか? それとも他にベストな検定方法があるのでしょうか? エクセルで行えるような検定があれば教えて頂きたいです。 統計を最近勉強し始めたばかりで分からないことばかりで困っております。 よろしくお願いします。

  • 統計学の検定について

    統計の問題で以下のようなものがあります。 ある母集団から無作為に抽出した学生にテストを受けさせたところ 55 45 46 54 38 62 64 36 という標本が得られた。この母集団が正規分布している元のした時、得点の母平均が60である、という仮説を有意水準5%で検定せよ。 というものでしす。この時の検定の仕方はどうすればいいのでしょうか? またこの時の有意水準とは何の何に対する比率が5%なんでしょう? あとこの場合でなされる判断は、観測された結果をどのように考えた結果なされたものなのですか? よろしくお願いします!

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • 高校数学の確率・統計領域について。

    高校数学の確率・統計領域について。 どの辺りまで扱うべきだと思いますか。 【1年】 個数の処理(集合の要素の個数,和の法則・積の法則,順列,組合せ) 確率(確率の基本的な法則,独立な事象と確率,確率の乗法定理) 【2年】 データの分析(データの散らばり,データの相関) 確率分布(確率変数の平均・分散・標準偏差,二項分布の平均・分散・標準偏差) 【3年】 正規分布,統計的な推測(母集団と標本,推定,検定)

  • 確率・統計の母分散の検定について

    確率・統計の問題で、自らデータを引用・収集し、その母分散の左片側検定を行いなさい、という課題が出されたのですが、どのようなデータを引用すればよいのか、正直さっぱりわかりません。確率・統計が大の苦手で、何度も教科書やノートを見返したのですが、なかなか理解できず、課題に関しては手も足も出ない状態です。どなたか教えていただけないでしょうか。よろしくお願いします。