• ベストアンサー

検定・推定で使用する確率分布

検定・推定を行う際に、 確率分布を選択しますが、どうやって確率分布を選ぶのでしょうか。 参考書の問題をやると 普通にt分布とかカイ二乗分布等が指定されているのですが どうしてその分布を選択したかが分かりません。 実務上、あるデータの集合があった場合、 どの確率分布を使用するかどうやって決めればよいのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.2

> 実務上、あるデータの集合があった場合、どの確率分布を使用するかどうやって決めればよいのでしょうか? 確率分布は現象のモデルなので、当人が「この分布で良い」と思えることが、まず必要です。そして実務上なのですから、さらにそれを他人に納得してもらう必要があります。これはやっかいな問題で、明確な答えは今も将来もありません。 たとえば一定時間内に到着する客の数にはポアソン分布をよく使います。それには理論的な根拠ももちろんありますけど、計算が簡単だから使うという側面も強く、反証があげやすいです。「ポアソンじゃなく集団到着だ」と言えば、多くの場合は集団到着の方が正確です。しかしそれにはまた反論があって、「ポアソンはパラメタが 1 つなのに、集団到着は 2 つだ。だから当てはまりが良いのは当然だ」というのも、正しいです。じゃあどっちが良いかは目的やデータによります。ポアソンなら単位時間あたりの客数を数えればすむのに、集団到着だと集団の数とそれらの大きさがいりますし。 また、たとえばねじの外径の測定値が正規分布すると言うと、それに反対する人はほとんどいないでしょう。しかし正規分布なら負の値を取る確率が正なのに、ねじの外径が負の値をとることはないので、その意味でモデルとしては不適切なことは、論理的には明らかです。それでも異を唱える人が少ないのは、 - 正規分布と思っても困ることはほとんどない、 - 正規分布とした前例が見つかる、 - 正規分布でないとした場合の標準的な手順がない、 など、消極的な理由の積重ねによります。 このように「こういう現象ならこの分布」という、いわば通念みたいなものが世の中にあって、それに合えば人に納得してもらいやすいわけです。通念がくせものですから、明確な答えはありません。新しい分析技術が流行すれば、その通念も変わります。だから昔はなかったのに、今はよく見る分布もたくさんあります。

sakuuuuu
質問者

お礼

非常に良くわかりました。 ありがとうございます。

その他の回答 (1)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

>どうしてその分布を選択したかが分かりません。 素直に、t検定ならt分布、カイ2乗検定ならカイ2乗分布、F検定ならF分布。 >あるデータの集合があった場合、どの確率分布を使用するか ご質問の真意は、どの確率分布⇒どの検定法を使用するか、の感じを受けますが。 これは、「習うより慣れろ」で、例題をたくさん熟して、慣れて下さい。

sakuuuuu
質問者

お礼

回答ありがとうございます。 まずは例題からですね。

関連するQ&A

  • 確率分布の推定方法

    はじめまして。  さて,標記の件ですが,サンプル群が標準正規分布に従うと仮定して点数付けをしているのですが,どうもそのサンプル群が標準正規分布に従っていないため,いびつな点数付けになって困っています。  そうなると,他の確率分布(カイ2乗分布やt分布など)に従うと思うのですが,サンプル群がどの確率分布に当てはまりが良いかを推定する方法を教えて頂けないでしょうか。また,それが掲載されている本,ホームページ,解析ツールがあれば教えて頂けないでしょうか。  よろしくお願いします。

  • 確率分布について

    X^2(カイ2乗)分布、t分布、F分布という確率の分布があるのですが、このうちに本当に理解できるのは正規分布(Z)しかないんです。X^2(カイ2乗)分布、t分布、F分布はなんか自由度にかかわるそうです。これらの分布はどういうことでしょうか、説明してくださいませんか?自由度も具体できに何のことでしょうか?

  • 確率統計における確率分布の定理について

    検定を行うときの確率分布のあてはめで、 データをk個の事象に分けて統計量X^2を求め、それが自由度k-r-1のカイ2乗分布に従う、 rは期待値を求める際に母数で推定したももの個数で、標本平均と標本分散を使用したとすればr=2、 という定理を使うと思うのですが、 例えばデータを身長として検定を行う場合はそれを標準化して、 期待値の算出にサンプルの平均、標準偏差を使うのでr=2で自由度はk-3になりますよね? ここで上の定理が正しいことを確かめるためにデータを1,000個ほどの標準正規乱数として、X^2を複数回求め、 その分布が実際にカイ2乗分布に従うかどうかを調べるときは自由度はどうなるのでしょうか? 1,000個の標準正規乱数が実際に標準正規分布に従うとして平均=0、分散=1として行う場合はr=0、 また標準正規分布に従うかではなく1,000個のサンプルから新たに平均、標準偏差を求めてX^2を求める場合はr=2となると考えたのですが、これは正しいのでしょうか? わかりにくい文ですみません。 よろしくお願いします。

  • カイ二乗分布のパーセント点について

    母分散の区間推定などにカイ二乗分布を使うときに たとえば有意水準5%で推定するときに両側検定をすると カイ二乗分布表の上側確率0.025%の部分と0.975%の部分を見ることになりますよね。 そのとき、0.025%の部分のカイ二乗値から0.975%の部分を計算することはできるのでしょうか。 たとえば、F値の場合F(0.975)=1/F(0.025)の関係があるようにカイ二乗値にも右側と左側で関係性があるのかどうかということです。 うまく説明ができていないかもしれませんが、ご解答いただければ幸いです。

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • パラメトリック検定か否かについて

    ある資格試験の事前予備短答問題で、 ”カイ2乗検定はパラメトリック検定である、○かXか?”、 という問題があり、答えはX、ノンパラメトリック検定である、ということでした。(聞き間違っていなかったらですが) パラメトリック、ノンパラメトリックは確率変数が従う確率分布を事前に決めるか決めないかで判断するので、カイ2乗分布を仮定するのだから〇(パラメトリック)じゃないのかなと思ったのですが。 ところで、このように検定の種類分けを覚える意味ってどういうことなのだろうと思います。それよりも、あるデータ群のある項目を検定する場合、どのような手法を選ぶのが妥当なのかを知ることじゃないかと思うのですが。そのとき、確率分布を決めておくか、決めないでおくべきか、を理由をつけて納得する方に意味があるんじゃないかと思うのですが。 ひとまず、カイ2乗検定はパラメトリック、ノンパラメトリックのどれになるでしょうか。

  • 統計学・推定量、分布とは?

    統計学を勉強をしているのですが 最良不偏推定量というものがでてきて、前提条件やら計算の仕方などは書いてあったのですが最良不偏推定量自体は何を表しているのかわかりません。ウィキも見たのですがいまいち理解できないので簡単な説明をお願いします もう一つ、分布について正規分布からカイ二乗分布、t分布、f分布の形に変形できるということはわかりましたが実際使うときに上の4つの分布のうちにどれを使うかを判断する方法はどのような方法でしょうか? 漠然としていますが宜しくお願いします

  • Fisherの正確確率検定とカイ二乗検定

    最近卒論で検定をしていますが、分からないことが多いので誰か教えてください。よろしくお願いします! Fisherの正確確率検定とカイ二乗検定でカイ二乗検定を使う方が好ましい場合はありますか? カイ二乗検定はゼロ項がある場合使えないと聞きましたが本当ですか? fisherの正確確率検定と直接確率計算法は同じものですか?

  • 統計的推定の進め方

    いつも大変お世話になります。 表題の件に関し、 例えば母平均の推定を行う際に、サンプリングn=20、の標準偏差とAVが求められているとしますが、この個々のサンプリングn=20の適合度検定(カイ二乗検定)を行うと、検定結果が、棄却→正規分布に適合してないしていない場合、母平均の推定を進めても良いものでしょうか。それとも、適合度検定が棄却された段階で、正規分布が適合されるまでnを増やしてサンプリングをつずけてから、区間推定に移った方がよいのでしょうか?(n=150以上になれば中心極限定理で正規分布かされることは理解しています。) 話が変わるかもしれませんが、 検定では正規分布かされているかどうかで(n=100以上は除く)、検定方法がかわったので(例えばノンパラメトリック)、推定ではそのような制約がないのかご教授願いたい。

  • カイ二乗分布表に上側確率しかない場合

    統計学の試験に向けて勉強しているのですが、過去問を解いていて全く理解できない事柄があるので、質問させてもらいます。 問い あるクラスの統計学の試験の点数の母平均と母標準偏差の信頼区間を推定するために、大きさn=10の標本を抽出したところ、標本平均70点、標本標準偏差7点であった。これだけのデータをもとに、母平均と母標準偏差を95%信頼係数のもとで、区間推定しなさい。なお、この問題の解答に際しては、次項の添付書類を参照しなさい。 上記の問題に対して添付されていたカイ二乗分布表は、上側確率(0.250、0.100、0.050、0.25、0.010、0.005、0.001)のみ載せられた表になっています。 私が持っている参考書や図書館で借りてきた参考書類を調べてみても、上側確率しか載っていないというものはありません。 参考書の例題なども上側確率と下側確率をカイ二乗分布表から読み取って解く方法をとっているので、上記の問題をどう解いていいものか見当がつきません。 試験も迫っており、焦っています。 どうぞ宜しくお願い致します。