• ベストアンサー

中心極限定理 実験

中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.2

平均 0.5 分散 0.083 の分布から 10000 個の独立なサンプルを取ると、 標本値の和は、中心極限定理により、 正規分布 N(0.5×10000,0.083×10000) で近似されます。 この正規分布モドキから、 サンプル 30 個の標本を取って 検証しようというのですね? 30 サンプルの平均は、再び中心極限定理より、 N(5000,830/30) に従います。 1SD が 5000±5.26 ぐらいですから、 実験値が 5001.6 というのは、 偶然に、やたらと良い値が出たことになります。 一方、30 サンプルの分散 V については、 30V/830 が、自由度 30-1 のカイ二乗分布に従います。 自由度 n のカイ二乗分布は、平均 n、分散 2n ですから、 V は、平均 29×(830/30)、分散 58×(830/30)~2 になります。 V の期待値は 830 より僅かに小さい程度ですが、 その分散が大きいために、 実験値 460 が期待値から大きくずれるのです。

donbei666
質問者

お礼

ご回答ありがとうございます。 >>30 サンプルの平均は、再び中心極限定理より、 >>N(5000,830/30) に従います。 ということはN(5000,27.666…)となり、 この27.666…は30 サンプルの分散Vの理論値、収束値ですよね。 (30個のサンプリングを繰返し行ったときのデータの分散は27.666になるということ) 自由度やカイ二乗分布という言葉の理解ができていないので、 なるものはなるとして考えると、 >>V は、平均 29×(830/30)、分散 58×(830/30)~2 になります。 Vの期待値は29×(830/30)=802.333…ということですね。 分散の分散が大きいから実験結果が期待値通りには出ないということは 分かりましたが、27.666…と802.333…は同じ値でなければならないと思うのですが、 なぜ異なる値になっているのでしょうか? よろしくお願いいたします。

その他の回答 (9)

  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.10

間違っているのは、30×444.67/(10000/2) の分母だけど。 あれ? 値は当たっているのか… 何でだろう?

donbei666
質問者

お礼

みなさん ご回答ありがとうございました。 論点が非常に難しいところに入ってしまい、 質問者としてついていけなくなってしまいましたので、 この辺で締め切らせていただきます。 ありがとうございました。

回答No.9

間違っているとは何のことでしょう? ANo.2の30V/830 のVに460を入れれば、460/830が1/2より少し大きい程度ですから、どうしたって30の半分、15より少し大きい値にしかならないとおもいますが。 実は面白そうだったんで、1万個の[0,1)の一様乱数の合計30個の標本分散を求めるというのを100セットと1000セットで計算して、度数分布を作ってみたんですよ。エクセルじゃさすがにやりませんが。 ANo.5のχ二乗分布にきっちり乗りましたよ。 標本分散が450以下ぐらいになるのは100セットのうち3つか4つです。 >30個の合計 が正規分布に十分近くならないから、 正規乱数を作るよく知られた方法の一つが一様乱数を12個足すというやつですから、30もあれば十分では?10個でもそこそこ。 どこまで厳密さを要求するかしだいでしょうけど、 少なくともグラフに描いて視覚的には区別できない程度にはなるはずです。

  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.8

No.5 のカイ二乗値が間違っていることについては? あと、 30万個のデータを 30個の合計×10000回にすると、 30個の合計 が正規分布に十分近くならないから、 それはそれで問題かと。

回答No.7

>間違う箇所がないと考えています。 まあ,とにかく再計算させてその平均をおおよそとってやればすむ話です. 空のセルでデリートキーを押せば勝手に再計算してくれます. 乱数がまともに動いていれば,その都度数字が変わるでしょう. 万が一,何度やっても同じような結果なら,エクセルのRAND関数を疑うしかないですね. >分散の平均がどの値をはっきりさせたいです。 VAR関数で計算される分散はΣ(x-<x>)^2/(n-1)で,この平均は母分散σ^2に一致します. もう一つ,VARP関数というのもあり,こちらの分散はΣ(x-<x>)^2/nで,こちらの平均は母分散の(n-1)/n倍に一致します. (<x>は標本の平均) 前者が不偏分散,後者が標本分散です.不偏というのは,同じことを多数回繰り返して平均をとったときに,その平均値が母集団の値に一致するという意味です.後者は定義通り計算した分散,前者は標本から母集団の分散を推定するときに使う分散です. ご質問のケースではVAR関数で計算しているので,求めているのは不偏分散.その平均は母集団の分散833に一致するはずのものです.ただし,平均をそこそこ一致させるためには多数回の試行が必要です.同じ30万個の乱数を使うなら,むしろ,30個の合計×10000回のほうがばらつきが少なく結果は良好になるはずです. ANo.2のχ2乗分布の平均では,標本分散の場合自由度がn-1なので,n-1 = n<V'>/σ^2より <V'>= [(n-1)/n ] σ^2  (標本分散の平均) <V> = [ n/(n-1) ] <V'> = σ^2  (不偏分散の平均) となり,上に書いた関係を満たしています.

donbei666
質問者

お礼

分散にも種類があり、そのせいで、 "分散の平均"に違いが生じたわけですね。 了解いたしました。 丁寧に解説していただき、ありがとうございました。

  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.6

←A No.5 あれ? 何か間違ったかな。 中心極限定理による正規分布モドキが σ~2≒830 だから、カイ二乗値は ≒96.4。 危険率は、無茶苦茶小さいと 思ったのだけれど…

回答No.5

ANo.4さんへ。 質問者さんはVAR関数を使ったといっていますので、計算してるのは不偏分散です。なので平均をとれば833前後になるはずです。(0.083は正確には1/12=0.083333・・・・・) また、χ2乗分布は大きいほうに広い非対称分布なので、分散だけではなしをしてしまうのは多分まずいと思います。以下ちゃんと計算すると・・・・ ANo.2の記法に従い質問者が計算した不偏分散をV、標本分散をV'とすると V' = (29/30)*460 = 444.67 nV'/σ^2 = 30*444.67/(10000/12) = 16.01で、自由度29のχ2乗分布なら16.01の上側確率はおよそ97.5%。つまり、V=460以下が出る確率は2.5%ほどしかありません。あり得なくはありませんが、疑ってしかるべき水準と思います。計算が間違っていなければですが。 論より証拠で、一度表計算ソフトで試してみてください。すぐですから。

donbei666
質問者

お礼

たびたびご回答ありがとうございます。 χ2乗分布、普遍分散、標本分散、自由度… キャパオーバーで煙が出てしまいます。 ただ、分散が460になるのは、疑うに値するくらい小さい確率ということですね。 しかも、分散の平均値は833なのですか。 中心極限定理通りの値ですね。 分散の分散が大きいので、833にならないときが多々あるということは、分かっておりますが、分散の平均がどの値をはっきりさせたいです。

  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.4

←A No.3 分散の平均は 802 ぐらいで、 830 から遠くないのですが、 分散の分散が大きいんですよ。 460 ぐらいはあり得る値で、 実験のミスを疑う話でもないような気がする。 ←No.2 補足 27.666 は、平均の分散。 802.333 は、分散の分散。 両者は別の物ですから、 値が一致する理由はありません。 分散が分散の平均からどれだけズレるかを考える のに必要なのは、分散の分散の方です。

donbei666
質問者

お礼

ご回答ありがとうございます。 >>27.666 は、平均の分散。 >>802.333 は、分散の分散。 とありますが、 No.2での回答から、 27.666 は、平均の分散。 802.333 は、分散の"平均"。じゃありませんか? 30個のサンプルの平均の分散は27.666。 しかし分散の平均802.333。というのが矛盾している感じがするのですが、いかがでしょうか?

回答No.3

一度計算してみたら、 >分散は460程度となってしまいました。 という値が出たということであれば、たまたま極端なサンプルが最初に出たというだけのことである可能性が高いです。 ですが、何度再計算しても同じような値になるのだとすると、 Sn=S10,000を計算するプロセスに何か問題があると思われます。 2番の方が言う >偶然に、やたらと良い値が出たことになります。 が、本当に偶然なのかどうかです。 なので、何度か再計算をしてみて値が変わるかどうかを見てください。 値が変わるようなら、分散の平均値を計算してそれが830に近い値かどうかを見てください。

donbei666
質問者

お礼

ご回答ありがとうございます。 計算が間違っているかと思ったのですが、 エクセルのRAND関数で乱数を10,000個作り、 それをSUM関数で合計した結果を30件集めただけなので、 間違う箇所がないと考えています。 分散の分散が大きいので、分散が460となったのは分かったつもりでおります。

回答No.1

実際にやったことがありますが、 そんなにズレるはずはないのですが・・・・ どこか間違ってませんか。 1000個(10個×100)で試した結果。 平均4.96042053 標本標準偏差0.88477622 標本分散0.78282896

donbei666
質問者

お礼

ご回答ありがとうございます。 ちなみに10,000個のサンプルの合計を30回取ったときのデータです。 5042.842972 5015.161988 4987.793437 4987.831454 4994.889841 5036.020689 5013.666478 4999.534125 4969.475145 4982.754317 5014.708182 4993.655364 5014.033738 5003.112422 4973.25059 4964.582397 5006.883454 4964.985011 5026.215503 5012.000802 5006.145855 4988.785604 5017.592593 4990.572417 5011.834578 5007.104934 5023.185581 4968.516813 4993.037114 5038.057922 この30件のデータの平均は平均は 5001.608 となり、 分散が 460 程度となってしまいます。 (エクセルにコピペしてVAR関数で計算してみてください。) 乱数のデータ10,000個を合計したデータを30件集めただけなのですが、 間違っているとすれば、どのあたりが考えられますでしょうか?

関連するQ&A

専門家に質問してみよう