• ベストアンサー

中心極限定理がわかりません

中心極限定理の解説を見ると、【サイコロの出目のような一様分布の母集団から、サンプルを複数抽出して、その平均値をプロットすることを繰り返すと、そのプロットは正規分布に近づく】などと記述されています。 正規分布に近づいていくことについてはわかるのですが、 実際生産現場などで、サンプルを抽出する場合、『複数のサンプルの平均値』を取得するようなことはしないので、一様分布なら一様分布のままだと思うのですが、どの書籍を見ても解説はここまでで、実際どういうことなのか理解できません。 どなたか解説していただけませんか?

質問者が選んだベストアンサー

  • ベストアンサー
  • thegenus
  • ベストアンサー率49% (330/673)
回答No.5

お礼ありがとうございます。 統計を使っている人は沢山いますが、この定理を分かった上で使っている人は少ないと思います。この定理の結論だけを信じて、利用していきます。 ですから社交辞令ならともかく、こんなことで「悔しい思いをする」のは世間認識のnが小さいと思います。数学の公式と同じで、分かったところで、結局どの程度の報酬があるかを悟るべきでしょう。私はろくに分かっていないことを本質的にあてにしません。ですから中心極限定理もそうです(笑)そうして拡大解釈を防げるのだと思います。 自己責任を越える判断に関しては、勘という訳にもいかないので、論理の正装(数学)を着用をしている作業です。ですから疑問を残したまま、逆にネクタイを締めた紳士(統計学・数学)を権威にしない方がいいと思います。悔しいどころか簡単に納得しないというその姿勢の方が、最終的に、正しいと感じます。 中心極限定理『母集団のxが、平均μ、標準偏差σのある分布にしたがう時、大きさnの無作為標本に基づく標本平均は、nが無限大に大きくなる時、平均μ、標準偏差σ/√nの正規分布に近づく』 統計を使うくらいですから、その時、母集団の平均や標準偏差の値は分かりません。実測値に基づく数値としては、標本の標本平均や標本標準偏差が得られるのみです。母集団の一部を調べて(標本抽出)、その標本の平均を母集団の平均にしてもよさそうなのは感覚的に許せても、信用がないので、定理が必要になります。この定理を信じて、この定理を使って行こうというものです。 正規分布は母集団の話ではなく、標本平均の分布の話です。標本の数の問題ではありません。標本平均の分布は最初からそうなると言っているのです。標本抽出して値を求めなくても、その作業をすれば、そうなると言っているのです。 この定理は母集団の未知の平均と未知の標準偏差によって、標本分布の正規分布を作れるというものです。その関係を逆に利用して、標本の平均や標本の標準偏差しか分かっていない通常の認識状態から、母集団の平均を表現しようとします。この定理によって、母集団の平均値に、標本平均の平均値は近づくと定められています。母集団の平均=標本平均+(標本平均と母集団の平均の誤差)で表現できます。この誤差の部分もこの定理により、σ/√nと正規分布の性質(形)で表現できます。95%のとき、1.96(σ/√n)というのは、(σ/√n)の正規分布において、平均値から上下に標準偏差(σ/√n)の1.96倍の範囲が全体の95%になるという正規分布の性質を利用しています。たまたま一回抽出した標本の平均値に、1.96(σ/√n)の誤差をつければ、95%の確率で母集団の平均と一致するものがあるということです。 標本平均-1.96(σ/√n) < μ <標本平均+1.96(σ/√n) この関係が言えます。ここまでが中心極限定理のお蔭様です。 しかし母集団の標準偏差σが未知ですので、肝心かなめの(σ/√n)も未知です。中心極限定理はそこまで定めてくれません。この定理とは別に、(統計学の経験則?により)肝心の(σ/√n)を、標本内から得た標準偏差の値sを使って(s/√n)にします。標本の大きさnが小さいと雑なことになります。十分に大きい(n=100ぐらいでしょうか)にしないと(n>25で)正規分布すると言えるにしても誤差(信頼区間)があてになりません。つまり平均値の評価がイイ加減になります。 素人の個人的感想ですが、目的である母集団の平均値を標本平均から得ることの全責任を中心極限定理におっ被せているような雰囲気がぬぐえません。とどのつまり、無作為の標本抽出で、母集団の平均値を、反映してくれる理想的なサンプルを得られないことにはどうにもならないような気がします。 例示されたようにn=15など標本の大きさが小さい時は正規分布ではなくそれに似た感じのt分布になりますし、これは母集団が正規分布していることが条件になると思います。nが小さい時はσの代用になるsが(経験的に?)あてにならないからです。いずれにしてもどこかに正規分布が絡んでくれないことには、これらの推定作業はできないようです。 以上、間違い等あると思いますので、不正確な内容として、標本抽出や近似や推定に章を割いているような教科書を今一度見直されてください。

hecunhehui
質問者

お礼

ご回答いただきありがとうございます。 thegenusさんの回答は、理解を深めるためにとてもわかりやすく、正直感動しました。 今後、他人に教えるときにも役に立ちそうです! >例示されたようにn=15など標本の大きさが小さい時は正規分布ではなくそれに似た感じのt分布になりますし・・・・ 上記のところは正直わからなかったのですが、その内理解できる日がくるようにがんばりたいと思います。 ありがとうございました! --------------------------------------- thegenusさんの回答のどの部分が自分の理解を助けたか、将来も参考にすると思うので、お礼を記入する欄ではありますが、下記にペーストしておきます。 >統計を使うくらいですから、その時、母集団の平均や標準偏差の値は分かりません。実測値に基づく数値としては、標本の標本平均や標本標準偏差が得られるのみです。母集団の一部を調べて(標本抽出)、その標本の平均を母集団の平均にしてもよさそうなのは感覚的に許せても、信用がないので、定理が必要になります。 >この定理は母集団の未知の平均と未知の標準偏差によって、標本分布の正規分布を作れるというものです。その関係を逆に利用して、標本の平均や標本の標準偏差しか分かっていない通常の認識状態から、母集団の平均を表現しようとします。この定理によって、母集団の平均値に、標本平均の平均値は近づくと定められています。 >しかし母集団の標準偏差σが未知ですので、肝心かなめの(σ/√n)も未知です。中心極限定理はそこまで定めてくれません。この定理とは別に、(統計学の経験則?により)肝心の(σ/√n)を、標本内から得た標準偏差の値sを使って(s/√n)にします。

その他の回答 (5)

noname#227064
noname#227064
回答No.6

ANo.4お礼 > ここまできて間違えていたらすいません・・・(汗) 大丈夫ですよ。 おそらく、次に疑問に思うことは「サンプルの大きさは幾つあれば十分なのか」になると思いますが、これは母集団の分布や、データの解析結果を使う者がどこまで正規分布との差を許容できるかによって異なるので一概には言えません。 分野にもよるでしょうが下は数十から上は数百くらいではないでしょうか? 試しに、ベータ分布Beta(1/10,1/10)という分布の標本平均を1万回求めてヒストグラムを作成してみました。 サンプルの大きさは1,10,100,1000の4種類で実施しました。 また、データは全て正規化しています。 サンプルの大きさが10のときは正規分布というには厳しいように私には思われます。

noname#227064
noname#227064
回答No.4

ANo.2お礼の最初の方から … > 実際プレス機の特性を統計的に調べる時は、上記のようなデータの集め方をしませんよね。 > 通常は、大きさ15のサンプルを1つ取るだけだと思うのです。 までのところは、書かれているとおりの理解で間違っていません。 > そうすると、例えばプレス機の実荷重の出方が(プレス機の母集団が)一様分布だった場合、 > 15回取ったデータは、一様分布的にばらつくだけで、n数をどれだけ大きくしても、実荷重ばらつきは一様分布のままだと思うのです。 > 中心極限定理は、大きさがnのサンプルをk個無作為抽出し、k個の平均値をプロットした場合、正規分布に近づくということですが、 質問文の「一様分布なら一様分布のまま」という言葉からひょっとしてと思っていたのですが、サンプルの大きさが十分な標本平均が一つだけでは正規分布にならないと思っていますか? 標本平均一つだけをプロットしてみても正規分布には見えないでしょうが、中心極限定理はそれが近似的に正規分布に従うことを保障しています。 プロットしたものが正規分布にみえるかどうかではなく、正規分布に(近似的にでも)従うということが重要なのです。 正規分布に従うということがわかっていれば、一つしかない標本平均と母分散またはその推定値からANo.1に書いたような推定も可能となります。 kを大きな数する必要があるときは、標本平均の分布の形を実際にみる必要があるときでしょう。 (理想的な)サイコロだって一回振っただけでは一様分布には見えないですが、一様分布に従います。

hecunhehui
質問者

お礼

ご回答ありがとうございます。理解できました! quaestioさんが、ひょっとしてと思うように、まさにそんな風に考えていました。 中心極限定理の説明で出てくるk個というのは、 中心極限定理を確認するためにk個必要なだけなんですね。 中心極限定理は、n数が多いと、その平均値プロットは正規分布に近づくと言っているので、 プレス機の例も同じく、n数が多いと、その平均値を何度も取得するまでもなく(k個取得するまでもなく)正規分布に近づいているだろうから、それを利用して色々な統計手法が使用できるということですね! ここまできて間違えていたらすいません・・・(汗)

  • thegenus
  • ベストアンサー率49% (330/673)
回答No.3

こんにちは。 >「それとも、大きさが100のサンプルを1個抽出するという意味でしょうか?」 そうだと思います。 プレス100回の平均(標本平均)を出すとは。 標本(サンプル)の大きさが100。 平均(標本平均)は~です。 一つ標本平均が得られたのです。 この作業を繰り返して標本平均をたくさん得れば、 標本平均の分布(標本分布)が正規分布すると中心極限定理は言っているのでしょう。その正規分布の形を決める変数の一つが、(なぜか)サンプルの大きさ。作業の回数ではないのですよ。 サイコロ実験の方の正規分布は納得されているのですよね。 標本の分布、つまり標本分布が正規分布に近づく話(定理)ですよね。 一方、一様分布というのは標本の分布のことではなく、もとの確率変数が一様であるということですよね。 プロットを繰り返したサイコロでも、サイコロの確率分布は一様ではありませんか。 >【サイコロの出目のような一様分布の母集団から、サンプルを複数抽出して、その平均値をプロットすることを繰り返すと、そのプロットは正規分布に近づく】 この文章がよくないのだと思います。「母集団から、サンプルを複数抽出して、その平均値」に語弊があるような。 「母集団から、標本抽出して、その平均値」でいいと思います。「大きさnの標本の平均値」「の分布が正規分布に近づく」という意味ですよね。 タイトルである中心極限定理、その前に「一様分布」や「正規分布」や「プロットすることを繰り返す」の内容把握でしょうね。 意識を向ける順序は中心極限定理よりも先に標本平均と母集団の平均の関係(大数の法則)だと思います。標本平均の分布が正規分布になる話が中心極限定理ですよね。正規分布の標準偏差は繰り返し実測した結果の量からではなく、統計学的に推定しているのですよね。 一回調べた標本平均がどんなばらつきを持った正規分布から得られた一つの標本平均なのかを見ているのだと思います。 私の用語の正確さは保証しかねますが、伝えたい事は分かって頂けましたか。私も興味あることなので参考にならないと思いますが一緒に考えさせて戴きました。 ちなみに統計を実践的に必要なのでしょうか。純学問的なご質問でしょうか。

hecunhehui
質問者

お礼

thegenusさん、ご回答ありがとうございます。 あと少しでわかるような気がするのですが、あと一歩です。 統計学は実践的に必要です。 私は1年ほど前に仕事上で統計学を学ぶことになり、わかる部分だけを集めてなんとかやって来たました。中心極限定理を理解してないと統計手法を使えないという訳ではないですが、やはり統計手法を正しく使う為に必要だろうということで、ずっと気になってまして、本やネットで調べているのですが、自分に理解できるような解説が見つからず、恥ずかしながら、もう1.5年ほど経過してしまいました・・・・ やはりインターネットの文字でのやり取りなので、thegenusさんから頂いた回答のすべてが理解できたわけではないのですが、 中心極限定理は、『大きさnの標本平均』をたくさん集めれば、その標本平均の分布が席分布に近づき、その正規分布の形を決める変数の一つが、サンプルの大きさ(n数)だということとがわかりましたが、つまり、だからどういうことなのでしょうか?このあとどう理解を繋げたらいいのでしょうか? ここまできたら、だいたいの人は、なるほどつまりこういうことかと理解できるのだろうと思います。(だから世の中にはこれ以降の優しい解説が無い?)でも、自分にはわかりません。 悔しい思いをしています・・・

noname#227064
noname#227064
回答No.2

> 例えばプレス機を例にすると、プレス機を動かす度の実荷重を100回記録することは、 > 大きさが1のサンプルを100個抽出するという意味ですか? > それとも、大きさが100のサンプルを1個抽出するという意味でしょうか? 同じ母集団に属するものは一つのサンプルとして考えます。 プレス機の例ですと、100回記録している間に条件が変わって同じと考えられないのであれば別のサンプルとして考えるべきでしょう。 別々の母集団であれば、母平均等の母数が異なることは当然有り得ることです。 そういう場合に、まとめて一つの平均等を求めることの意義はあまりないですよね。

hecunhehui
質問者

お礼

つまり、プレス機の条件の変動が無いだろうと考えられる時は、100回プレス機の荷重を記録することは、大きさ100のサンプルを1つ抽出するということですね。 ここからquaestioさんの最初の回答の内容に戻るのですが、 >確認しますが、 >実際生産現場などで、サンプルを抽出する場合、『複数のサンプルの平均値』を取得する >というのは、例えばある母集団から大きさがnのサンプルをk個無作為抽出し、k個の平均値を得るというこ>とを意味していますか? これに対してですが、一応日本語のとり違いが無いよう確認したいのですが、 大きさがnのサンプルをk個無作為抽出し、k個の平均値を得るというのは、 プレスの例で言うと、プレス機の実荷重を3回取得し、(より具体的に確認しておきたいので、ここでは3回とします)それを5サンプル(同じく、ここでは5サンプルとします)抽出し、5個の平均値を取得するということで、下記のようなことですよね? ★プレス設定荷重→10トン ☆プレス実荷重↓ 1サンプル目(9.8 9.9 9.8)  平均=9.83 2サンプル目 (10.0 10.1 9.9) 平均=10.0 3サンプル目 (9.9 9.9 9.9)  平均=9.9 4サンプル目 (10.2 10.1 9.8) 平均=10.03 5サンプル目 (10 10 10.1)   平均=10.03 実際プレス機の特性を統計的に調べる時は、上記のようなデータの集め方をしませんよね。 通常は、大きさ15のサンプルを1つ取るだけだと思うのです。 そうすると、例えばプレス機の実荷重の出方が(プレス機の母集団が)一様分布だった場合、 15回取ったデータは、一様分布的にばらつくだけで、n数をどれだけ大きくしても、実荷重ばらつきは一様分布のままだと思うのです。 中心極限定理は、大きさがnのサンプルをk個無作為抽出し、k個の平均値をプロットした場合、正規分布に近づくということですが、実際はそのようなデータの集め方をしないので、 実際のやり方と、中心極限定理の言っていることが、どこでどう関係しているのかが、理解できずにいます。 もしかしたら、quaestioさんの最初の回答で理解できるのかもしれませんが、もう少し教えていただけませんか? 本当によろしくお願いします。

noname#227064
noname#227064
回答No.1

確認しますが、 > 実際生産現場などで、サンプルを抽出する場合、『複数のサンプルの平均値』を取得する というのは、例えばある母集団から大きさがnのサンプルをk個無作為抽出し、k個の平均値を得るということを意味していますか? そうであれば、仰るとおり普通はしないでしょう。 そして、 > 一様分布なら一様分布のまま というのは、ある母集団から大きさが1のサンプルをk個無作為抽出し、k個の平均値(というかデータそのものですが)をプロットすることを考えていますか? そうであれば、この場合の平均値は正規分布に近似出来ませんので、母集団が一様分布ならば一様分布のままです。 nが十分大きくなれば、「平均値の分布」は中心極限定理から正規分布に近づきます。 では実際の現場でどう使うかですが、ある母集団の母平均の値μを知りたいとします。 そのためには、この母集団から大きさがnのサンプルを1個無作為抽出し、平均値mを求めます。 つまり、n個のデータから一つの平均値mを求めます。 分散がわかっているものとし、その分散をσ^2とおきます。(0 < σ < ∞) nが十分大きければ、中心極限定理から平均値の分布は平均がμ分散が(σ^2)/nの正規分布に近似的に従うので、 m - 1.96σ/√n < μ < m + 1.96σ/√n でμの95%信頼区間を近似的に求めることができます。 しかし普通は分散も未知でしょうから、その場合は1.96を自由度n-1のt分布の97.5%点で置き換え、σは不偏分散の正の平方根を推定値として信頼区間を求めます。

hecunhehui
質問者

お礼

quaestioさん、ご回答頂きありがとうございます。 まず自分は大きさがnのサンプルをk個という意味がよく理解できていないのかもしれません。 例えばプレス機を例にすると、プレス機を動かす度の実荷重を100回記録することは、 大きさが1のサンプルを100個抽出するという意味ですか? それとも、大きさが100のサンプルを1個抽出するという意味でしょうか?

関連するQ&A

  • 中心極限定理 一様分布 平均値の意味

    統計学からの疑問です。 以前も中心極限定理について質問したことがあったのですが、また疑問が発生しました。 中心極限定理は、母集団が何分布であれ、そこからサンプリングされた標本の平均値は正規分布に従って分布するということで、この定理があるからこそ色んな統計手法を使うことができますよね。 例えば、プレス機の設定荷重を5.0トンに設定し、実荷重を複数回測定するとします。 この場合、実荷重は、4.9トンとか5.1トンとか、誤差的にばらつきますよね。 なので複数回測定した実荷重の平均値=プレス機の実力であると言えると思います。 では母集団が一様分布、例えばサイコロの場合、 サイコロを2個以上振って出た目の平均値は3.5ですが、この値は一体何を意味してるのでしょうか?サイコロは3.5の目がもっともよく出るというわけはありませんし・・・ 中心極限定理を解説するために、サイコロを使った説明があり、 母集団が一様分布であっても中心極限定理がちゃんと現れることは確認できたのですが、 母集団が一様分布の場合の統計量(平均値)の意味がわかりません。 変な質問かもしれませんが、疑問を解決したいのでどなたか教えて下さい。 よろしくお願いします。

  • 中心極限定理について

    中心極限定理についていろいろ調べたんですが、よくわからないことがあります。 (ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく と書いています。 ある母集団分布をおいて、n = 6 として、 サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める と同様に、やっていくのですよね? で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、 サンプル数(平均値Xの数)はいくつを想定しているのでしょうか? サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。 いろいろなサイトで、 n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか? n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。 教えてください。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • PERT と中心極限定理 2

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。

  • PERT と中心極限定理

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間の期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、・・・(と来て、Tの確率を求めるのですが、長くなるので以下省略します)。 ここで分からないのは、「中心極限定理により、Tは期待値e、分散σ2の正規分布で近似される」というところです。なぜ、いきなりこんなことが言えるのでしょうか。具体的に分からない点は次の(1)です。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。一体これらは、上記Tにおいては、どこへ行ってしまったのでしょうか。

  • 有限母集団の中心極限定理

    訳あって確率統計の勉強をしておりますが、中心極限定理について質問があります。 「母集団の平均をm、分散をvとすると、そこから抽出したn個の標本の平均の分布は、平均m、分散v/nという分布になり、標本数をn→無限大とすると、分布は母集団の分布によらず正規分布に近づく。」 とありますが、母集団が有限個(N個)の集合ならどうなるでしょうか。 その場合、標本数をnがNに等しくなった時点で平均はm、分散0、つまり標本から母集団の平均が完全に推定(決定)することになります。 ●有限母集団の場合も中心極限定理は成り立つのか? ●成り立つならn→Nで分散が0になるという点はどう表現されるのか? このあたりを教えてください。

  • 分布と中心極限定理

    あらゆる〇〇分布はサンプル数が増えると正規分布になるという中心極限定理を習いました。 (たとえポアソン分布) ではなぜ〇〇分布は〇〇分布と定義されるのですか? 全部の分布が中心極限定理に従うならすべての分布が正規分布と定義されるべきだと思うのですが その境はどこでしてるのですか?

  • 中心極限定理について

    中心極限定理で理解できないところがあります。 多分、何か勘違いをしているところがあると思うので、分かる方は教えてください。 平均値 μ*,分散 σ2* をもつ,任意の分布に従う乱数列 x1,x2, … ,xnがあるとき,その平均値 ave(xn) = (x1+X2+・・・+xn)/n の確率分布は,n が大きくなるとき,平均値 μ*,分散 σ2* / n である正規分布に収束する。  すなわち, (ave(xn) - μ*)/(σ*/√n) は,n が大きいとき,平均値 0,分散 1 の標準正規分布に従うとみなしてよい。 はどうやって証明するのでしょうか? また、12個の乱数rand()を発生させた場合、分散は12*1/12=1になるようですが、これは中心極限定理から分散がσ2/nの正規分布に近づくという結果(こちらは1/12を12で割っている)に矛盾しているように思うのですが、どこが勘違いしているのでしょうか? よろしくお願い致します。

  • 中心極限定理 実験

    中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

  • 中心極限定理と分布について

    中心極限定理により、不規則変数の加算によってできる不規則変数は、 平均値を中心に正規分布するようになるため z= y-6 は、平均:0、標準偏差:1の正規乱数となり、基本となる正規分布:N(0,1)と書く。 と書いてあるのですが、正規分布Nというのは山なりの感じの図でよろしいのでしょうか? 後これだけ見てz=y-6が平均0で標準偏差1というのもよくわかりません・・・ ノートを見てもzというのは書いてないのですが、数学関係でいう専門用語のzはなんでしょう。 また中心極限定理もよくわかりません、すいません・・・