中心極限定理とは?おさらいと疑問点

このQ&Aのポイント
  • 中心極限定理とは、任意の母集団から無作為抽出したn個の確率変数の平均値が、nが大きくなると正規分布に近づく現象です。
  • nは抽出するデータの個数を指し、サンプル数とは異なる概念です。
  • nが増えると、平均値の分布がより正規分布に近づき、分散も小さくなります。また、nが十分に大きければ、正規分布に近似的になります。
回答を見る
  • ベストアンサー

中心極限定理について

中心極限定理についていろいろ調べたんですが、よくわからないことがあります。 (ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく と書いています。 ある母集団分布をおいて、n = 6 として、 サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める と同様に、やっていくのですよね? で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、 サンプル数(平均値Xの数)はいくつを想定しているのでしょうか? サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。 いろいろなサイトで、 n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか? n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。 教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.2

質問文に「任意の母集団から」とか「抽出する」とか出てくることが 気になっていたのですが、「この行為を複数やって分布つくる」も その流れですね。まず、そこの考え方が違うんだと思います。 母分布から x1,x2,…,xn を独立に取って X = (x1+x2+…+xn)/n とする と決めた時点で、確率変数 X は定義され、X の分布は決まっています。 X のサンプルをいくつか取り出してヒストグラムを書くのは、 その分布をイメージしやすくするための単なる略図であって、 サンプルを抽出することで「分布をつくる」訳ではありません。 このあたり、確率モデルと記述統計がゴッチャになっているようです。 それが混乱の大元かもしれません。 それから、細かいことですが、その参照サイトで「サンプリング数」と 呼んでいるものは、この質問で n と呼んでいるもののことであり、 貴方が「サンプル数」と呼んでいる、ヒストグラムを書くために抽出した X のデータの個数とは、異なります。ややこしいですね。 X の分布のヒストグラムを書くとき、データをそのままヒストグラムに しており、データを足したり、データ数で割っていないことにも注目 してください。ヒストグラムの全データを足して、データ数で割ったら どうなりますか? ヒストグラムで近似した分布の平均値になりますね。 それがどこにあるか が、データ数→∞ とすると、X の平均を平均とした 正規分布に従う というのが、中心極限定理の結果なのです。

kotaro3yok
質問者

お礼

御礼遅くなりました。 初学者向けの統計学の書籍をいろいろとあたってみました。 微妙にいろいろと説明の仕方が違うんですね。 説明として x1, x2, ・・・・xn という n個のデータを取って、平均をとる、これを k回行う という流れで、n を多くとってみる、というやり方と、k を多くとってみる、というやり方で、どちらも、同じような結果になる、といった説明もありました。 もっと勉強して、その意味するところを自分なりに理解したいと思っています。 きっちりとしたテキストを立ち読み (フェラー、伊藤清など)をしてみたら、そちらの方がよく理解できそうに思えたので、勉強してみます。

その他の回答 (1)

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.1

中心極限定理を正確に書くと、   分散が有限なひとつの確率分布に独立に従う n 個の確率変数 x1,x2,…,xn があるとする。   その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する。 ということです。 確率変数 X の値を何個か取り出すという話は、中心極限定理とは関係ないですよ。

kotaro3yok
質問者

補足

回答ありがとうございます。 記述いただいた 「その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する。」 というのを実際に体感してみたくてエクセルなどでいじっているのですが、その際に、以下のサイトをみつけました。 http://anchoret.seesaa.net/article/65176557.html このサイトでは、「サンプル数が1の場合」「サンプル数が2の場合」という具合にやって、その際の平均の分布をヒストグラムにしているのですが、例えばサンプル数が2というのは、元の母集団から無作為に2つの値を取り出しているというのはわかるのですが、じゃあこのヒストグラムはそういった行為を何回やってできたんだろうかと。 大数の法則と中心極限定理の理解が混乱しているのか・・・ 「その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する」 の「分布」を n = 5 のとき、n = 100 ときといったようにそれぞれつくって体感してみたいのですが、例えば、n = 5 としたら、元の母集団分布から無作為に5つの値を取り出して、平均を計算するんですよね? 「平均」の「確率分布」なので、この行為を複数やって分布つくるんだと理解しているのですが、この時、そういった行為は何回やるのだろうかと? 無限にやったら、n = 5 でも正規分布に近くなると思うと、n = 100 のときと違わないだろう、だったら n -> ∞ で正規分布に分布収束する、という意味がよくわからない、という具合なんです。

関連するQ&A

  • 中心極限定理について

    中心極限定理で理解できないところがあります。 多分、何か勘違いをしているところがあると思うので、分かる方は教えてください。 平均値 μ*,分散 σ2* をもつ,任意の分布に従う乱数列 x1,x2, … ,xnがあるとき,その平均値 ave(xn) = (x1+X2+・・・+xn)/n の確率分布は,n が大きくなるとき,平均値 μ*,分散 σ2* / n である正規分布に収束する。  すなわち, (ave(xn) - μ*)/(σ*/√n) は,n が大きいとき,平均値 0,分散 1 の標準正規分布に従うとみなしてよい。 はどうやって証明するのでしょうか? また、12個の乱数rand()を発生させた場合、分散は12*1/12=1になるようですが、これは中心極限定理から分散がσ2/nの正規分布に近づくという結果(こちらは1/12を12で割っている)に矛盾しているように思うのですが、どこが勘違いしているのでしょうか? よろしくお願い致します。

  • 中心極限定理 実験

    中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

  • PERT と中心極限定理 2

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。

  • 有限母集団の中心極限定理

    訳あって確率統計の勉強をしておりますが、中心極限定理について質問があります。 「母集団の平均をm、分散をvとすると、そこから抽出したn個の標本の平均の分布は、平均m、分散v/nという分布になり、標本数をn→無限大とすると、分布は母集団の分布によらず正規分布に近づく。」 とありますが、母集団が有限個(N個)の集合ならどうなるでしょうか。 その場合、標本数をnがNに等しくなった時点で平均はm、分散0、つまり標本から母集団の平均が完全に推定(決定)することになります。 ●有限母集団の場合も中心極限定理は成り立つのか? ●成り立つならn→Nで分散が0になるという点はどう表現されるのか? このあたりを教えてください。

  • PERT と中心極限定理

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間の期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、・・・(と来て、Tの確率を求めるのですが、長くなるので以下省略します)。 ここで分からないのは、「中心極限定理により、Tは期待値e、分散σ2の正規分布で近似される」というところです。なぜ、いきなりこんなことが言えるのでしょうか。具体的に分からない点は次の(1)です。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。一体これらは、上記Tにおいては、どこへ行ってしまったのでしょうか。

  • 中心極限定理がわかりません

    中心極限定理の解説を見ると、【サイコロの出目のような一様分布の母集団から、サンプルを複数抽出して、その平均値をプロットすることを繰り返すと、そのプロットは正規分布に近づく】などと記述されています。 正規分布に近づいていくことについてはわかるのですが、 実際生産現場などで、サンプルを抽出する場合、『複数のサンプルの平均値』を取得するようなことはしないので、一様分布なら一様分布のままだと思うのですが、どの書籍を見ても解説はここまでで、実際どういうことなのか理解できません。 どなたか解説していただけませんか?

  • 統計学の問題です。

    確率変数X1,・・・,Xnが正規分布N(μ、σ^2)に従うとき、標本平均X=(X1+・・・+Xn)/nは正規分布N(μ、σ^2/n)に従う。母分散10^2の正規母集団から無作為に9個のデータx1,・・・,x9を抽出したところ、x1+・・・+x9=720であった。 このとき、母平均μを信頼係数95%で区間推定した結果は(1)<μ<(2)となる。 答.(1)73.47 (2)86.53 答えはわかっているんですが、導き方がわかりません。 途中式を全てわかりやすく書いていただけるとありがたいです。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • 高校数学の標本平均について 教えてください。

    母集団から大きさnの無作為標本を抽出しそれらの変量xの値をX1.X2.….XnとするときXバー=(X1+X2+…Xn)/nを標本平均という。標本平均Xバーの確率分布と母集団分布関係を調べよう。母平均m,母標準偏差σの母集団から大きさnの無作為標本を抽出しそれらの変量xの値をX1.X2.….Xnとする。各Xkはどれも大きさ1の標本で母集団分布に従う確率変数である。よってE(X1)=E(X2)=E(Xn)=m σ(X1)=σ(X2)=σ(Xn)=σであるしたがって E(Xバー)=mになる。 また復元抽出の場合はX1.X2.….Xnは互いに独立な確率変数であるから分散V(Xバー)={V(X1)+V(X2)+…+V(Xn)}/n^2というところがわかりません。 なぜn^2で割ることになるのですか? どなたか教えてください。お願いします。

  • 中心極限定理とパレート分布

    (1)所得はパレート分布もしくは対数正規分布をすると言われていますが、パレート分布においても、中心極限定理があてはまり、サンプリングを繰り返した時、正規分布するのでしょうか?もし、正規分布をするのであっても、母集団がパレート分布するはずの所得に対して、中心極限定理から導かれた分散、σ/√nを利用して所得の平均の信頼区間を推測することに違和感を感じます。大学の授業で先生が計算していました。 (2)所得の分布では、平均を見るよりも中央値の方が事実に近い結果を示すと言われていますが、平均(Σx_i/n)ではなく、期待値(Σx_i*P(X=x_i))で計算する方が、高額所得者に対しても低確率で重みづけられて、平均で計算するよりも妥当な値が得られそうなのですが、インターネットでも期待値で計算している例はありませんでした。統計学的に、このような計算をしない理由があれば教えてください。 初学者なので、間違いがあれば指摘していただけると幸いです。