• ベストアンサー
  • 困ってます

中心極限定理 実験

中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

共感・応援の気持ちを伝えよう!

質問者が選んだベストアンサー

  • ベストアンサー
  • 回答No.2

平均 0.5 分散 0.083 の分布から 10000 個の独立なサンプルを取ると、 標本値の和は、中心極限定理により、 正規分布 N(0.5×10000,0.083×10000) で近似されます。 この正規分布モドキから、 サンプル 30 個の標本を取って 検証しようというのですね? 30 サンプルの平均は、再び中心極限定理より、 N(5000,830/30) に従います。 1SD が 5000±5.26 ぐらいですから、 実験値が 5001.6 というのは、 偶然に、やたらと良い値が出たことになります。 一方、30 サンプルの分散 V については、 30V/830 が、自由度 30-1 のカイ二乗分布に従います。 自由度 n のカイ二乗分布は、平均 n、分散 2n ですから、 V は、平均 29×(830/30)、分散 58×(830/30)~2 になります。 V の期待値は 830 より僅かに小さい程度ですが、 その分散が大きいために、 実験値 460 が期待値から大きくずれるのです。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 >>30 サンプルの平均は、再び中心極限定理より、 >>N(5000,830/30) に従います。 ということはN(5000,27.666…)となり、 この27.666…は30 サンプルの分散Vの理論値、収束値ですよね。 (30個のサンプリングを繰返し行ったときのデータの分散は27.666になるということ) 自由度やカイ二乗分布という言葉の理解ができていないので、 なるものはなるとして考えると、 >>V は、平均 29×(830/30)、分散 58×(830/30)~2 になります。 Vの期待値は29×(830/30)=802.333…ということですね。 分散の分散が大きいから実験結果が期待値通りには出ないということは 分かりましたが、27.666…と802.333…は同じ値でなければならないと思うのですが、 なぜ異なる値になっているのでしょうか? よろしくお願いいたします。

その他の回答 (9)

  • 回答No.10

間違っているのは、30×444.67/(10000/2) の分母だけど。 あれ? 値は当たっているのか… 何でだろう?

共感・感謝の気持ちを伝えよう!

質問者からのお礼

みなさん ご回答ありがとうございました。 論点が非常に難しいところに入ってしまい、 質問者としてついていけなくなってしまいましたので、 この辺で締め切らせていただきます。 ありがとうございました。

  • 回答No.9

間違っているとは何のことでしょう? ANo.2の30V/830 のVに460を入れれば、460/830が1/2より少し大きい程度ですから、どうしたって30の半分、15より少し大きい値にしかならないとおもいますが。 実は面白そうだったんで、1万個の[0,1)の一様乱数の合計30個の標本分散を求めるというのを100セットと1000セットで計算して、度数分布を作ってみたんですよ。エクセルじゃさすがにやりませんが。 ANo.5のχ二乗分布にきっちり乗りましたよ。 標本分散が450以下ぐらいになるのは100セットのうち3つか4つです。 >30個の合計 が正規分布に十分近くならないから、 正規乱数を作るよく知られた方法の一つが一様乱数を12個足すというやつですから、30もあれば十分では?10個でもそこそこ。 どこまで厳密さを要求するかしだいでしょうけど、 少なくともグラフに描いて視覚的には区別できない程度にはなるはずです。

共感・感謝の気持ちを伝えよう!

  • 回答No.8

No.5 のカイ二乗値が間違っていることについては? あと、 30万個のデータを 30個の合計×10000回にすると、 30個の合計 が正規分布に十分近くならないから、 それはそれで問題かと。

共感・感謝の気持ちを伝えよう!

  • 回答No.7

>間違う箇所がないと考えています。 まあ,とにかく再計算させてその平均をおおよそとってやればすむ話です. 空のセルでデリートキーを押せば勝手に再計算してくれます. 乱数がまともに動いていれば,その都度数字が変わるでしょう. 万が一,何度やっても同じような結果なら,エクセルのRAND関数を疑うしかないですね. >分散の平均がどの値をはっきりさせたいです。 VAR関数で計算される分散はΣ(x-<x>)^2/(n-1)で,この平均は母分散σ^2に一致します. もう一つ,VARP関数というのもあり,こちらの分散はΣ(x-<x>)^2/nで,こちらの平均は母分散の(n-1)/n倍に一致します. (<x>は標本の平均) 前者が不偏分散,後者が標本分散です.不偏というのは,同じことを多数回繰り返して平均をとったときに,その平均値が母集団の値に一致するという意味です.後者は定義通り計算した分散,前者は標本から母集団の分散を推定するときに使う分散です. ご質問のケースではVAR関数で計算しているので,求めているのは不偏分散.その平均は母集団の分散833に一致するはずのものです.ただし,平均をそこそこ一致させるためには多数回の試行が必要です.同じ30万個の乱数を使うなら,むしろ,30個の合計×10000回のほうがばらつきが少なく結果は良好になるはずです. ANo.2のχ2乗分布の平均では,標本分散の場合自由度がn-1なので,n-1 = n<V'>/σ^2より <V'>= [(n-1)/n ] σ^2  (標本分散の平均) <V> = [ n/(n-1) ] <V'> = σ^2  (不偏分散の平均) となり,上に書いた関係を満たしています.

共感・感謝の気持ちを伝えよう!

質問者からのお礼

分散にも種類があり、そのせいで、 "分散の平均"に違いが生じたわけですね。 了解いたしました。 丁寧に解説していただき、ありがとうございました。

  • 回答No.6

←A No.5 あれ? 何か間違ったかな。 中心極限定理による正規分布モドキが σ~2≒830 だから、カイ二乗値は ≒96.4。 危険率は、無茶苦茶小さいと 思ったのだけれど…

共感・感謝の気持ちを伝えよう!

  • 回答No.5

ANo.4さんへ。 質問者さんはVAR関数を使ったといっていますので、計算してるのは不偏分散です。なので平均をとれば833前後になるはずです。(0.083は正確には1/12=0.083333・・・・・) また、χ2乗分布は大きいほうに広い非対称分布なので、分散だけではなしをしてしまうのは多分まずいと思います。以下ちゃんと計算すると・・・・ ANo.2の記法に従い質問者が計算した不偏分散をV、標本分散をV'とすると V' = (29/30)*460 = 444.67 nV'/σ^2 = 30*444.67/(10000/12) = 16.01で、自由度29のχ2乗分布なら16.01の上側確率はおよそ97.5%。つまり、V=460以下が出る確率は2.5%ほどしかありません。あり得なくはありませんが、疑ってしかるべき水準と思います。計算が間違っていなければですが。 論より証拠で、一度表計算ソフトで試してみてください。すぐですから。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

たびたびご回答ありがとうございます。 χ2乗分布、普遍分散、標本分散、自由度… キャパオーバーで煙が出てしまいます。 ただ、分散が460になるのは、疑うに値するくらい小さい確率ということですね。 しかも、分散の平均値は833なのですか。 中心極限定理通りの値ですね。 分散の分散が大きいので、833にならないときが多々あるということは、分かっておりますが、分散の平均がどの値をはっきりさせたいです。

  • 回答No.4

←A No.3 分散の平均は 802 ぐらいで、 830 から遠くないのですが、 分散の分散が大きいんですよ。 460 ぐらいはあり得る値で、 実験のミスを疑う話でもないような気がする。 ←No.2 補足 27.666 は、平均の分散。 802.333 は、分散の分散。 両者は別の物ですから、 値が一致する理由はありません。 分散が分散の平均からどれだけズレるかを考える のに必要なのは、分散の分散の方です。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 >>27.666 は、平均の分散。 >>802.333 は、分散の分散。 とありますが、 No.2での回答から、 27.666 は、平均の分散。 802.333 は、分散の"平均"。じゃありませんか? 30個のサンプルの平均の分散は27.666。 しかし分散の平均802.333。というのが矛盾している感じがするのですが、いかがでしょうか?

  • 回答No.3

一度計算してみたら、 >分散は460程度となってしまいました。 という値が出たということであれば、たまたま極端なサンプルが最初に出たというだけのことである可能性が高いです。 ですが、何度再計算しても同じような値になるのだとすると、 Sn=S10,000を計算するプロセスに何か問題があると思われます。 2番の方が言う >偶然に、やたらと良い値が出たことになります。 が、本当に偶然なのかどうかです。 なので、何度か再計算をしてみて値が変わるかどうかを見てください。 値が変わるようなら、分散の平均値を計算してそれが830に近い値かどうかを見てください。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 計算が間違っているかと思ったのですが、 エクセルのRAND関数で乱数を10,000個作り、 それをSUM関数で合計した結果を30件集めただけなので、 間違う箇所がないと考えています。 分散の分散が大きいので、分散が460となったのは分かったつもりでおります。

  • 回答No.1

実際にやったことがありますが、 そんなにズレるはずはないのですが・・・・ どこか間違ってませんか。 1000個(10個×100)で試した結果。 平均4.96042053 標本標準偏差0.88477622 標本分散0.78282896

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 ちなみに10,000個のサンプルの合計を30回取ったときのデータです。 5042.842972 5015.161988 4987.793437 4987.831454 4994.889841 5036.020689 5013.666478 4999.534125 4969.475145 4982.754317 5014.708182 4993.655364 5014.033738 5003.112422 4973.25059 4964.582397 5006.883454 4964.985011 5026.215503 5012.000802 5006.145855 4988.785604 5017.592593 4990.572417 5011.834578 5007.104934 5023.185581 4968.516813 4993.037114 5038.057922 この30件のデータの平均は平均は 5001.608 となり、 分散が 460 程度となってしまいます。 (エクセルにコピペしてVAR関数で計算してみてください。) 乱数のデータ10,000個を合計したデータを30件集めただけなのですが、 間違っているとすれば、どのあたりが考えられますでしょうか?

関連するQ&A

  • 中心極限定理について

    中心極限定理で理解できないところがあります。 多分、何か勘違いをしているところがあると思うので、分かる方は教えてください。 平均値 μ*,分散 σ2* をもつ,任意の分布に従う乱数列 x1,x2, … ,xnがあるとき,その平均値 ave(xn) = (x1+X2+・・・+xn)/n の確率分布は,n が大きくなるとき,平均値 μ*,分散 σ2* / n である正規分布に収束する。  すなわち, (ave(xn) - μ*)/(σ*/√n) は,n が大きいとき,平均値 0,分散 1 の標準正規分布に従うとみなしてよい。 はどうやって証明するのでしょうか? また、12個の乱数rand()を発生させた場合、分散は12*1/12=1になるようですが、これは中心極限定理から分散がσ2/nの正規分布に近づくという結果(こちらは1/12を12で割っている)に矛盾しているように思うのですが、どこが勘違いしているのでしょうか? よろしくお願い致します。

  • 中心極限定理について

    中心極限定理についていろいろ調べたんですが、よくわからないことがあります。 (ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく と書いています。 ある母集団分布をおいて、n = 6 として、 サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める と同様に、やっていくのですよね? で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、 サンプル数(平均値Xの数)はいくつを想定しているのでしょうか? サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。 いろいろなサイトで、 n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか? n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。 教えてください。

  • 有限母集団の中心極限定理

    訳あって確率統計の勉強をしておりますが、中心極限定理について質問があります。 「母集団の平均をm、分散をvとすると、そこから抽出したn個の標本の平均の分布は、平均m、分散v/nという分布になり、標本数をn→無限大とすると、分布は母集団の分布によらず正規分布に近づく。」 とありますが、母集団が有限個(N個)の集合ならどうなるでしょうか。 その場合、標本数をnがNに等しくなった時点で平均はm、分散0、つまり標本から母集団の平均が完全に推定(決定)することになります。 ●有限母集団の場合も中心極限定理は成り立つのか? ●成り立つならn→Nで分散が0になるという点はどう表現されるのか? このあたりを教えてください。

  • PERT と中心極限定理 2

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。

  • PERT と中心極限定理

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間の期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、・・・(と来て、Tの確率を求めるのですが、長くなるので以下省略します)。 ここで分からないのは、「中心極限定理により、Tは期待値e、分散σ2の正規分布で近似される」というところです。なぜ、いきなりこんなことが言えるのでしょうか。具体的に分からない点は次の(1)です。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。一体これらは、上記Tにおいては、どこへ行ってしまったのでしょうか。

  • 大数の強法則、中心極限定理

    パラメータλ>0のポワソン分布の平均、分散は共にλである (1){x_n}に関する大数の強法則を式で書き下せ (2){x_n}に関する中心極限定理を式で書き下せ (3)S_x=X1+···+Xnの分布はパラメータnXのポワソン分布に等しいことを示せ (4)λ=1の場合の(2)、(3)を利用して次を示せ lim{n→∞} e^(-n)Σ{k=0~n} n^k/k! =1/2 わかるとこだけでも構いません! 解き方教えてください! 応用が利かない人なので、当てはめるとかが苦手なんです

  • 中心極限定理と分布について

    中心極限定理により、不規則変数の加算によってできる不規則変数は、 平均値を中心に正規分布するようになるため z= y-6 は、平均:0、標準偏差:1の正規乱数となり、基本となる正規分布:N(0,1)と書く。 と書いてあるのですが、正規分布Nというのは山なりの感じの図でよろしいのでしょうか? 後これだけ見てz=y-6が平均0で標準偏差1というのもよくわかりません・・・ ノートを見てもzというのは書いてないのですが、数学関係でいう専門用語のzはなんでしょう。 また中心極限定理もよくわかりません、すいません・・・

  • 中心極限定理とパレート分布

    (1)所得はパレート分布もしくは対数正規分布をすると言われていますが、パレート分布においても、中心極限定理があてはまり、サンプリングを繰り返した時、正規分布するのでしょうか?もし、正規分布をするのであっても、母集団がパレート分布するはずの所得に対して、中心極限定理から導かれた分散、σ/√nを利用して所得の平均の信頼区間を推測することに違和感を感じます。大学の授業で先生が計算していました。 (2)所得の分布では、平均を見るよりも中央値の方が事実に近い結果を示すと言われていますが、平均(Σx_i/n)ではなく、期待値(Σx_i*P(X=x_i))で計算する方が、高額所得者に対しても低確率で重みづけられて、平均で計算するよりも妥当な値が得られそうなのですが、インターネットでも期待値で計算している例はありませんでした。統計学的に、このような計算をしない理由があれば教えてください。 初学者なので、間違いがあれば指摘していただけると幸いです。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • Rにおいて、中心極限定理を確認するために、乱数の標本平均のヒストグラム

    Rにおいて、中心極限定理を確認するために、乱数の標本平均のヒストグラムと正規分布のグラフを重ね合わせたいのですが、軸ラベルがおかしくなってしまいます。例えば、1000個の標本平均のヒストグラム hist(x)と平均0,分散1の正規分布のグラフを上手く重ね合わせるにはどうしたらいいですか?