• ベストアンサー

確率統計:全体数の推定方法について

一部のサンプリングにより全体数を推定する方法を教えて下さい。 例えば、100m2の砂浜にランダムに大量のビー玉が散乱しているとします。 全部の個数を数えることは困難なので、1m2四方の枠を作って、任意の5箇所のみで数を数えます。 その結果が、 (1)100個 (2) 50個 (3)  5個 (4) 70個 (5)125個 だったとします。 単純計算すると1m2あたり71個になるので、それを100倍すると、全体で7100個のビー玉があると推定できます。 しかしながら、5箇所の数には大きくバラツキがありますから、別の5箇所で数を数えると全く違った答えになりそうです。 この場合、5箇所のバラツキ(標準偏差)を求めて、○%の確率で●●個~●●個と推定して良いのでしょうか? つまり、サンプルが正規分布していると仮定して良いのでしょうか? それとも、このような場合は正規分布していると仮定せずに他の方法で計算すべきなのでしょうか? わかりにくい質問で申し訳ありませんが、よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • at9_am
  • ベストアンサー率40% (1540/3760)
回答No.1

サンプル数が小さい場合、正規分布ではなくt分布を用います。 全体のビー玉の個数を M 個とすれば、区画数は100ですので、区画毎のビー玉の個数は平均 M/100(=m) 個です。また母分散σ^2とします。 サンプル数を n として、その平均値を m~ とすれば、m~は平均 m、分散 σ^2/n になりますから、母分散σ^2を、標本の分散 s^2 と推計すれば、(m~-m)/(s/√n) は自由度 n-1 のt分布に従います。したがって、t(1-a/2)をt分布の上側 (1-a/2) %点とすれば、 m~ - t(a) s/√n <= m <= m~ + t(a) s/√n の範囲に m は a %の確率である事になります。 今回の例の場合であれば、平均 70、分散 2137.5 であり、自由度4のt分布の90%区間は-2.13~2.13ですから、90 %の確率で 25.94~114.06 の範囲に平均 m はあります。 したがって 90 %の確率で 2594~11406 の間にあります。

ochiyan707
質問者

お礼

お礼が遅くなりましてすみません。 私が知りたかったことをズバリ回答していただきありがとうございます。 迷いが消えました。

その他の回答 (1)

  • arcadia91
  • ベストアンサー率30% (4/13)
回答No.2

あなたの質問は、「サンプルデータが正規分布か否かを知りたい」ということですね。 ビー球が”本当に”ランダムにばらまかれているならば、正規分布と仮定してよいでしょう。しかし、自信を持ってランダムと言えないなら、正規性を検定したほうがよいでしょう。 私ならば、最低30箇所程度サンプリングして、Anderson Darling Normality Testをするでしょう(勿論、代表的な正規性検定方法は他にもいくつかあります)。 サンプルデータを(簡易な)統計ソフトに入力すれば、一瞬で解決します。簡易統計ソフトは無料で試用できますよ。 

参考URL:
http://www.analyse-it.com/anderson-darling-normality-test_y.htm     http://www.minitab.com/japanese/default.aspx
ochiyan707
質問者

お礼

なるほど、正規性の検定というものがあるのですね。 質問の主旨は、正規分布か否かを知りたい、ということではなく、与えられた条件から推定する際にどのような計算方法が適切か、ということでした。 ですので、求めていた回答はNo.1さんのもので問題なかったのですが、それとは別に、正規性の検定というものを知ることができてたいへん参考になりました。 遅くなりましたが、どうもありがとうございました。

関連するQ&A

  • 統計的推定の進め方

    いつも大変お世話になります。 表題の件に関し、 例えば母平均の推定を行う際に、サンプリングn=20、の標準偏差とAVが求められているとしますが、この個々のサンプリングn=20の適合度検定(カイ二乗検定)を行うと、検定結果が、棄却→正規分布に適合してないしていない場合、母平均の推定を進めても良いものでしょうか。それとも、適合度検定が棄却された段階で、正規分布が適合されるまでnを増やしてサンプリングをつずけてから、区間推定に移った方がよいのでしょうか?(n=150以上になれば中心極限定理で正規分布かされることは理解しています。) 話が変わるかもしれませんが、 検定では正規分布かされているかどうかで(n=100以上は除く)、検定方法がかわったので(例えばノンパラメトリック)、推定ではそのような制約がないのかご教授願いたい。

  • 確率分布の推定方法

    はじめまして。  さて,標記の件ですが,サンプル群が標準正規分布に従うと仮定して点数付けをしているのですが,どうもそのサンプル群が標準正規分布に従っていないため,いびつな点数付けになって困っています。  そうなると,他の確率分布(カイ2乗分布やt分布など)に従うと思うのですが,サンプル群がどの確率分布に当てはまりが良いかを推定する方法を教えて頂けないでしょうか。また,それが掲載されている本,ホームページ,解析ツールがあれば教えて頂けないでしょうか。  よろしくお願いします。

  • 母平均の推定(?)

    ある被験者集団のテストスコアが正規分布になると仮定します。 このうち、上位a%の被験者の平均値がxである場合、全体の平均値がいくつになるかを推定したいのですが、どのような計算をすればいいでしょうか?

  • 統計の区間推定についてお尋ねします。

    95%信頼区間の母平均の近似的な推定で、標本平均ー1.96√(σ^2/n) < μ < 標本平均+1.96√(σ^2/n)という式があります。ここで1.96というものを持ち出すのは標準正規分布(N(0,1))の計算から求まるということになると思いますが、例えばポアソン分布に従うという場合でも使えるようです。まず、信頼区間の設定の式で上記の式が近似的に使える分布はどのようなものがあるでしょうか。 また、二項分布→近似→正規分布、とか二項分布→近似→ポアソン分布という関係があります。近似の仕方が違うわけですが、そのような分布はあの区間推定の式が使えるということになるでしょうか。あとt分布は自由度をあげると正規分布に近くなるということですが。試験とかだと丸暗記的覚えていくことが多いと思いますが、95%信頼区間といわれたら上記の式とか1.96がすぐに出てくるというのはどのような限定の下なのかを知りたいのですが。 また、これらは近似法ということであり、厳密法というのは各分布によって計算法が個別に決まっているのでしょうか。 よろしくお願いします。

  • 統計学・推定量、分布とは?

    統計学を勉強をしているのですが 最良不偏推定量というものがでてきて、前提条件やら計算の仕方などは書いてあったのですが最良不偏推定量自体は何を表しているのかわかりません。ウィキも見たのですがいまいち理解できないので簡単な説明をお願いします もう一つ、分布について正規分布からカイ二乗分布、t分布、f分布の形に変形できるということはわかりましたが実際使うときに上の4つの分布のうちにどれを使うかを判断する方法はどのような方法でしょうか? 漠然としていますが宜しくお願いします

  • 統計 心理学

    日本人全体の平均身長を推定しようとして、無作為に収集したサンプルサイズ10000人のデータの平均値は、168.5、分散は36であった。 母集団分布に正規分布を仮定した場合、『日本人の平均は本当は170である可能性はないのか?』という問いに対して統計学的な観点から述べなさい というのが分かりません… どうまとめたらいいですか?

  • 最尤推定

    ビタビを用いた最尤推定では、 n個の標本が、平均μ ,分散σ^2 の正規分布に 従う場合を想定しています。 しかし、n個の標本は有限の観測ですので、 たまたま出現値が偏っている場合があるように 思います。 要するに、n個の標本の平均がμ でなかったり, 分散がσ^2でない場合です。 聞きたいのは、ビタビを用いた最尤推定は n個の標本に着目した時、最適ではないと考えて良いのでしょうか?

  • 正規分布の判断方法

    ばらつきのあるデータをサンプリングして入力します。ある一定量取り込んだ値が正規分布になっているか(ヒストグラムを作成し見た目で判断するのではなく。)判断したいのですが、どの様な計算で正規分布になっているかの判断方法を教えて下さい。データの平均値、標準偏差を計算する事は可能です。 宜しくお願い致します。

  • 確率統計における確率分布の定理について

    検定を行うときの確率分布のあてはめで、 データをk個の事象に分けて統計量X^2を求め、それが自由度k-r-1のカイ2乗分布に従う、 rは期待値を求める際に母数で推定したももの個数で、標本平均と標本分散を使用したとすればr=2、 という定理を使うと思うのですが、 例えばデータを身長として検定を行う場合はそれを標準化して、 期待値の算出にサンプルの平均、標準偏差を使うのでr=2で自由度はk-3になりますよね? ここで上の定理が正しいことを確かめるためにデータを1,000個ほどの標準正規乱数として、X^2を複数回求め、 その分布が実際にカイ2乗分布に従うかどうかを調べるときは自由度はどうなるのでしょうか? 1,000個の標準正規乱数が実際に標準正規分布に従うとして平均=0、分散=1として行う場合はr=0、 また標準正規分布に従うかではなく1,000個のサンプルから新たに平均、標準偏差を求めてX^2を求める場合はr=2となると考えたのですが、これは正しいのでしょうか? わかりにくい文ですみません。 よろしくお願いします。

  • 統計学が全くわかりません。

    以下の問題の解答および、解法手順を教えていただけると幸いです。 1・ある生徒の集団の、ある科目の点数の偏差値は、平均50、標準偏差10の正規分布を仮定して計算している。 (1)この集団で偏差値が65以上の生徒の割合はいくらか。 (2)この集団で、偏差値が55から60までの割合はいくらか。 (3)この集団で偏差値が45以下の生徒の割合はいくらか。 2・無作為に選んだn=100人の大学生からの図書館利用率調査で、利用者をX人とするとき、学生全体の中での利用率pの90%信頼区間を求めよ。 (1)実際にⅹ=64人が利用していたとき、pの点推定値としてのp(上にちょぼっとしたマークがついています)はいくらか? (2)Xは2項分布に従うが、これを正規分布で近似するとすれば、この正規分布の平均uおよび分散oの2乗はnやpを用いてどうあらわせばよいか。 (3)p(上にちょぼっとしたマークがついています)=X/rを正規分布で近似するとすれば、この正規分布の平均uおよび標準偏差oはnやpを用いてどう表せるか。 (4)p(上にちょぼっとしたマークがついています)=X/nを標準化してZ=・・・の形で表せ。 (5)(1)のp(上にちょぼっとしたマークがついています)を用いて学生全体の利用率pの90%信頼区間を小数3位まで求めよ。