- ベストアンサー
一様分布について
あるイベントへの参加者数 5 万人であった。しかし,A さんは実際の人数は違ったのではないかと考えた。今年の入場者は入場に際して,1 から通し番号をつけた入場整理券を貰っている。A さんは会場を出てくる参加者 300 人に対して整理券の番号を尋ねたところ,番号の合計は 4,510,384 であった。 〔1〕入場者数の不偏推定値を求めよ。 〔2〕この入場者数の標準誤差を求めよ。 解答には、「一様分布の点推定を利用」と書かれています。なぜこれは、一様分布になるのでしょうか。又、1,2の解答も出来るだけ詳しく解説して頂けると助かります。 よろしくお願いいたします。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
(1) A さんが集めた整理券番号の平均を、 1,2,3,…,N (N は入場者数) の一様分布からの 独立反復抽出の標本平均と近似して、計算している。 1,2,3,…,N の一様分布の母平均は、(1+N)/2。 独立反復抽出の標本平均は、母平均と同じ。 その実測値が 4510384/300 だったのだから、 (1+N)/2 ≒ 4510384/300 と推定して、式を変形すると、 N ≒ (4510384/300)×2 - 1。 (2) の結果を見れば解るように、尻尾の -1 は あってもなくても気にならない程度の精度の近似だけど。 (2) 1,2,3,…,N の一様分布の母分散は、(N^2-1)/12。←[a] 平均 μ, 分散 σ^2 の母分布からの m 個標本平均は、 平均 μ, 分散 (σ^2)/m。←[b] A さんが集めた整理券番号の分散は ((N^2-1)/12)/300 となるから、標準誤差は √{ ((N^2-1)/12)/300 }。 この後、A No.2 に指摘されたとおりの間違いがあり、 (1) と同様に、(整理券番号の平均) = (1+N)/2 から (N の誤差) = (整理券番号の平均の誤差)×2 としなければならない。 (N の標準誤差) = 2×√{(N^2-1)/(12×300)}。 これに (1) の N を代入するのだが、 2×√{(N^2-1)/(12×300)} ≒ 2×√{(N^2)/(12×300)} = N/30 くらいに概算しても、大勢に影響無い 程度の近似ではある。 以上、(1) 約 3 万人程度 (2) 約 1000 人程度。 公表 5 万人は、ずいぶん鯖読んでるな。
その他の回答 (3)
#2に追加。 #1さんのように重複ありで(N^2-1)/3nを求めてから、(N-n)/(N-1)をかけて有限修正しても良いです。
察するにAさんは入場整理券が何枚配られたかを知りえない立場にいるのですね。 近似的な答えは概ね#1さんの回答のとおりです。 ただし、[2]は入場者数の標準誤差なので√{(N^2-1)/(12×300)}を2倍しないといけません。 あるイベントへの真の参加者数をN人、Aさんが訪ねた人数をn人、番号の合計をSとして、厳密に求めてみると [1] 2S/n-1 [2] √V[2S/n-1] = (2/n)√V[S] = (2/n)√(n(N+1)(N-n)/12) = √((N+1)(N-n)/(3n)) となります。 計算方法はすべての組み合わせについて計算するだけで、S^2の期待値の計算が少し難しいです。 E[S^2] = Σ_{i=1}^n i C(N-1,n-1)/C(N,n) + 2Σ_{i=1}^{n-1} Σ_{j=i+1}^n ij C(N-2,n-2)/C(N,n) = Σ_{i=1}^n i (C(N-1,n-1)/C(N,n)-C(N-2,n-2)/C(N,n)) + (Σ_{i=1}^n i)^2 C(N-2,n-2)/C(N,n) と計算していきます。 ただし、C(n,r)はn個のものからr個を選ぶ組み合わせの数です。
- alice_44
- ベストアンサー率44% (2109/4759)
Aさんが5万人から抽出した300人は、同じ人の重複が無いのだけれど、 5万人から300人なら、もともと重複が起こる確率が小さいから、 大雑把な話としては、5万人から1人選ぶ操作を300回繰り返したのと そう大差無い…と思ってもいいんじゃないかな?ということ。 5万人から1人選ぶ操作が、5万の各人について等確率であれば、 それは 1/50000 の一様分布ということ。その独立反復と仮定する訳。 すると、 (1) 整理券番号の標本平均が、母平均の不偏推定値になる。 母平均は、入場者数を N として (1+N)/2 だから、結局、 N = (4510384 / 300)×2 - 1 が、入場者数の不偏推定値となる。 (2) 整理券番号の母分布を、1,2,3,…,N (N は入場者数) の 一様分布と仮定したから、母平均は (1+N)/2、母分散は (N^2-1)/12。 そこからの標本数 300 の独立反復抽出の平均値は、中心極限定理より、 平均 (1+N)/2、分散 (N^2-1)/(12×300) の正規分布で近似できる。 標準誤差は、√{(N^2-1)/(12×300)}。この N は解らないのだが、 先に推定した N の不偏推定値で代用すれば、標準誤差が推定できる。
補足
すいません。 (1+N)/2 だから、結局、N = (4510384 / 300)×2 - 1 となるのはなぜでしょうか。初心者なので、(1)(2)共に詳しく補足して頂けると助かります。 よろしくお願いします。
お礼
(1)の近似式の変形の仕方はしりませんでした。 二度も解説して頂き、ありがとうございました。 非常にわかりやすい説明でした。