• ベストアンサー

PERT と中心極限定理 2

中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • betagamma
  • ベストアンサー率34% (195/558)
回答No.3

すごい鋭いですね。たぶん、本の著者さんも、そこまで考えてないんじゃないでしょうか。すばらしい姿勢だと思います。 Q1:そうです。 Q2: (ア)「クリティカルパス上のn個の作業のうちi番目の作業をsiとするとき、siをx回実施して作業にかかった時間の平均と分散を求めると、n個の作業の1つひとつが全て同じμとσ^2という値を有すると考える」 で考えています。 もし(ア)のようであれば、なぜそのような仮定ができるのでしょうか。平均と分散は作業ごとに異なると思うのですが...。 もっともです。実は、昨日この説明を書いたときは、自分でもそこが引っかかっていたので、自信なし、にしました。 で、よく考えたのですが・・・どうやら、中心極限定理を使うところを間違っていたようです。とりあえず、下の書き込みは、一旦忘れてください。 まず、正規分布には、確率変数X,Yが、X~N(μ1,σ1^2)、Y~N(μ2,σ2^2)の時に、X+Y~N(μ1+μ2,σ1^2+σ2^2)という性質があります。 つまり、平均μ1、分散σ1^2の正規分布に従う値と、平均μ2、分散σ2^2の正規分布に従う値を足すと、その結果は、平均μ1+μ2、分散σ1^2+σ2^2にしたがっているということです。 さて、今、作業全体の所要時間についてはとりあえず、おいておいいて、i番目の作業siについてのみ考えましょう。 すなわち、クリティカルパス上のi番目の作業siをx回繰り返して行い、そのうちのp回目の作業時間をtpsiとするときに得られる{t1si, t2si, ..., tpsi, ..., txsi}なるx個の作業時間群が示す分布を考えます。 作業siの作業時間の分布の平均はμsiで、分散σsiとしましょう。この分布は、正規分布とは限りません。今、たまたま、その中からx個の標本を取ってきたら{t1si, t2si, ..., tpsi, ..., txsi}であった、と考えます。 このとき、この作業siの作業時間の平均をmsiとすると、msi=1/x(t1si+ t2si+ ...+ tpsi+ ...+ txsi)とかけますね。 msiの分布は、中心極限定理より、N(μsi,σsi^2/x)になります。母集団が、得体の知れない平均μsi、分散σsi^2の中から、x個標本をとってきたからです。 先ほどの、正規分布と正規分布の足し算の性質より、ms1+ms2+ms3+...+msnの分布は、 N(μs1,σs1^2/x)+N(μs2,σs2^2/x)+N(μs3,σs3^2/x)+...+N(μsn,σsn^2/x) =N(μs1+...+μsn,σs1^2/x+...+σsn^2/x)に従います。 Tを、n個の作業の平均時間の総和、すなわち、T=ms1+ms2+ms3+...+msnとして考えてみます。 Tは、N(μs1+...+μsn,σs1^2/x+...+σsn^2/x)に従います。 ei=μsi、σi=σs1/(√x)とおけば、 T~N(e1+...+en,σ1^2+...+σn^2)=N(e,σ^2) (e=e1+...+en,σ=σ1^2+...+σn^2とおきました) で、式どおりになると思います。 考えてみましたが、No.2の方法は、おかしなところが、二つあります。 (1)一つは、おっしゃってくださった、「作業siの分布は、作業ごとに異なるのにどうして中心極限定理が使えるのか」という点です。 (2)もう一つは、作業の工程数nが大きい場合はいいとして、小さい場合は、正規分布にはならない、という点です。 今回の方法では、(1)は、うまく解決できましたが、(2)は、微妙です。 T~N(μs1+...+μsn,σs1^2/x+...+σsn^2/x) で言えているのは、xが大きいときは、nが小さくてもTは正規分布で近似できるよ、ということです。 すなわち、何回もプロジェクトをやって、「作業siの所要時間の平均値」の合計Tを計測してみると、Tが正規分布になっていることはいえました。が、Tは、「作業siの所要時間」の合計ではなく、「作業siの所要時間の平均値」の合計であるため、言えていることは弱くなります。 いずれにしても、この教科書の中心極限定理より、の使い方は、かなり怪しいものがあると思います。おそらく、Tが平均e,分散σ^2の正規分布に従うことは確かでしょうが、その導出過程は、必ずしも本の著者が目を向けているとは限りません。結果だけが使えればいい、と考えている場合もありますし、場合によっては本の著者に十分な知識がない場合もあります。 他の本の解説も、参考にしてみてください。

yoohoo_7
質問者

お礼

素人のため御回答の内容を簡単には理解できず、何十回も読み返しまた新たに参考書をひっくり返すなどしたため、御返事がたいへん遅くなったことをお詫びいたします。 Q1とQ2の文字の直後の御回答1~4行は、たいへん参考になりました。どうしてもあいまいだった箇所がやっとはっきりしました。 「もっともです。実は、...」以降の御説明は、全く知らない初めてのことでしたが、なるほどこのように式を展開できるのかということが理解できました。また、Tの平均時間に関する証明はすごいですね。驚きでした。 「(2)もう一つは、作業の工程数nが大きい場合はいいとして、小さい場合は、正規分布にはならない、という点です。」ですが、PERTではnが充分大きいという前提で話しを進めているようです。 御教示いただいてPERTの基礎的な考え方がやっと何とか分かってきたように思います。 有り難うございました。

yoohoo_7
質問者

補足

有り難うございました。 御教示いただいて闇から抜け出すことができました。 厚く御礼申し上げます。

その他の回答 (5)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.6

 直接の回答ではないんですが、PERTにおける確率分布ちうものの位置づけについて、私見をばちろっと開陳してみようかなと。  PERTそのものはアトラスロケット(だっけ?)の開発工程管理のために開発された。けれど、クリティカルパスという重要な概念を発見し、各工程の「最も遅い開始時刻」を計算できるようにして、つまり「動的なスケジュール管理」に使える道具に仕上げたのは大成建設であると記憶しています。いわばPERTに命を吹き込んだんですね。「最悪の場合でもプロジェクトが破綻しないようにコントロールしながら、現実の進捗に合わせてスケジュールを見直して行く事であわよくば前倒ししよう」という手法ですから、ゼネコンが毎回特注の工事を行う際に、それぞれ独自の専門性を持つ多くの外注や下請けをタイムリーに使うにはとても適した方法だと言えましょう。  対照的に、研究開発のように同じグループの人たちが次々と工程をこなして行く場合や、工場で同一の製品を沢山作るために全体の流れを何度も繰り返す場合にPERTを適用すると、「工程の遅れは一度生じると後工程に伝播するが、ある工程が早く終わっても全工程が早くなることはない」という現象が現れて来たりして、結局あんまり旨く機能しないように思われます。  こういう、PERTの適用対象があまり適切ではない場合にこそ、PERTに確率分布をくっつけたり、或いはリソース管理の情報を入れたりしたくなるのだろうと思います。でも、そうしてみても計算がややこしくなるばかりで、本来の「スケジュール管理のツール」としての値打ちは大して上がらないんじゃないか。むしろ「誰にでも分かる明快さ」の方が重要なんじゃないだろうか。  極端なことを言えば、本来PERTを使うに適した一発もののプロジェクトにおいて「最悪どうなのか」をマネージメントする事を主眼に置くならば、「確率分布がどうなるか」なんぞ(一発ものなんですから)「どうでもいい」のであって、PERTに於ける確率分布の計算理論を追求してもさして得るところはない、という意見も可能かと思います。

yoohoo_7
質問者

お礼

そうですね。 PERTの計算理論の複雑さばかりに目を奪われていましたが、確かに、確率を入れることにより複雑になる割には得る成果はさして違わないように思えます。 ただ、確率的な場合にも対応可能だというのがPERTの最大のメリットなのでしょうか。 思ってもなかった御指摘をいただき、又別の角度からPERTを見ることができました。 有り難うございました。

  • betagamma
  • ベストアンサー率34% (195/558)
回答No.5

No.3です。以前の質問のstochmanさんのご意見も拝見して、ちょっと総括してみようと思いました。 結論から言えば、自分もstochmanさんも、  「各工程の所要時間は互いに独立で、ベータ分布に従う」という仮定の下で中心極限定理「多数の工程を直列したたパス全体の所要時間は正規分布に漸近する」は、使えない(=例外がある) という点では一致しています。要は、教科書の説明は不正確で、Tは正規分布に従わないということです。(実用上はそれで足りるのかと思いますが) 私は、No.3の中で、 同じプロジェクトを例えばx=1000回繰り返したき、T'を「個々の工程の所要時間の平均値」の総和とすれば、T'が正規分布に近似することは言える、ことを示してみました。 私が使ったT'は、本来のTの定義である「個々の工程の所要時間」の総和ではなく、「個々の工程の所要時間の平均値」の総和であることに注意してください。 No.3の中では、肯定的に解釈するために、意図的にTをT'で置き換えて書いていましたが、混乱の元でした。ここでは、明確に区別します。 TとT'の違いを、ちょっと極端な例を出してみます。 s1,s2からなるプロジェクトを、x=4回やったとしましょう。数字は、かかった所要時間です。 T s1 s2 100 1 99 100 99 1 2 1 1 100 1 99 このとき、Tは、正規分布に従いません。 s1の作業時間の平均値a(s1)=(1+99+1+1)/4=102/4=25.5 s2の作業時間の平均値a(s2)=(99+1+1+99)/4=200/4=50 T'=a(s1)+a(s2)=25.5+50=75.5 今は、x=4回ですが、T'は、xが大きいときは、正規分布で近似できます。 T'=75.5ですが、Tは、2になることも99+99=198になることもありえます。言えていることは、とても弱いです。 stochmanさんは、No.4の中で、Tが中心極限定理より正規分布に「従わない」ことを示す反例を述べていらっしゃいます。 まぁ、結論から言うと、Tは正規分布に厳密には従いません。実用上、使えれば、それでいいのでしょうが。

yoohoo_7
質問者

お礼

xが小さいときは成り立たないんですね。御教示の証明はたしかにそのとおりですね。 教えていただくと簡単なように思えますが、自分ではこのようなことを考えることもできませんでした。 有り難うございました。

yoohoo_7
質問者

補足

御教示いただいてやっと闇から抜け出すことができました。 有り難うございました。心より御礼申し上げます。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

 ご質問(1)(2)に関しては、 http://oshiete1.goo.ne.jp/kotaeru.php3?q=2327933 と同じ回答です。  ある工程がベータ分布(って、一般的な確率論で言うベータ分布とはどうも別物のようですが)に従っていて、悲観値および楽観値がm,M、平均a, 分散sであるとしましょう。さらに、この工程が独立な二つの工程に分けられたとしましょう。分けた前半を工程1として、その悲観値および楽観値をm[1],M[1]、平均a[1], 分散s[1]とします。後半を工程2として、これも同様にm[2],M[2],a[2],s[2]としますと、 m = m[1] + m[2] M = M[1] + M[2] a = a[1] + a[2] s = s[1] + s[2] を満たす筈です。ところで工程1,2が共に「ベータ分布」であると仮定すると、 s[1] = ((M[1]-m[1])^2)/36 s[2] = ((M[2]-m[2])^2)/36 となるので、 s[1]+s[2] = ((M[1]-m[1])^2 + (M[2]-m[2])^2)/36 一方 s =((M-m)^2)/36 でなくてはならない。  従って、どんなM[1],M[2],m[1],m[2]についても ((M[1]-m[1])^2 + (M[2]-m[2])^2) = ((M-m)^2) となる筈ですが、この恒等式は明らかに成り立ちません。  つまり「工程の所要時間はベータ分布である」という仮定自体がそもそもイーカゲンなものであることが分かります。(ですから、あまり神経質になってもしょうがないように思われます。)  「各工程の所要時間は互いに独立で、ベータ分布に従う」という仮定の下で中心極限定理「多数の工程を直列したたパス全体の所要時間は正規分布に漸近する」が証明できるかどうかに関しては、「例外が作れる」すなわち「証明できない」が答だと思います。  工程kがベータ分布で悲観値、楽観値、平均、分散をそれぞれm[k], M[k], a[k], s[k]とし、工程k=1,2,…,Kを直列したパス全体の悲観値、楽観値、平均、分散をそれぞれm,M,a,sとするとき、もし、 M[1]=1, m[1]=0, s[1] = 1, a[1] = 0.01 m[k] = 0 (k=2,3,…) a[k] = 0.99m[k]+0.01M[k] (k=2,3,…) s[k] = (1/1000000) (4^(-k)) = ((M[k]-m[k])^2)/36 (k=2,3,…) (∴ M[k] = (6/10000) (2^(-k)) です) となるようにしたとすると、 m = 0 1 <s < 1 + 1/1000000 1 <M<1+(6/1000) a = 0.01M となりますんで、パス全体の所要時間の分布はほとんど工程1の分布と変わらないまま収束してしまうことは明らかでしょう(きちんと計算しなくちゃ証明にはなりませんが)。  従って、ご参照になった教科書は、数学的には厳密とは言い難いです。  しかし、「ベータ分布に従っていて、しかも(M[k]-m[k])が同程度であるような、互いに独立の工程をものすごく沢山直列したとき」というような条件を付ければ、中心極限定理が証明可能かも知れません。

yoohoo_7
質問者

お礼

再度の御回答有り難うございます。 素晴らしい御指摘ですね。 このようなこと、考えても見ませんでした。でも、確かに御指摘の通りで、成り立ちませんね。PERTの理論は、いつでも必ず成り立つという理論ではなく、ある特定の条件下では、しかも近似的に成り立つと言うことなんでしょうね。そのようなものだとして考えなければならないのだとよく分かりました。 有り難うございました。

  • betagamma
  • ベストアンサー率34% (195/558)
回答No.2

もうちょっと厳密にしてみました。 >Tは、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計) (1) 母集団にあたるのが、(クリティカルパス上の)個々の作業の所要時間の分布です。個々の作業の所要時間の分布を考えて、その平均をμ、分散をσ^2とおきます。 n個の標本は、今考えているn個の作業を、n個の標本と考えます。例えば、今考えているプロジェクトを何回も繰り返したと考えれば、作業がたくさん出てきますよね。その中から、たまたまn個を選んで取ってきたのが、今のプロジェクトの作業、と考えているわけです。 で、作業の所要時間の平均mは、作業の所要時間の総和Tの1/nですから、m=1/n Tです。 すると、中心極限定理によれば、nが十分大きいとき、作業の所要時間の平均1/n Tは、平均μ、分散σ^2/nの分布に従います。 これを、1/n T ~ N(μ,σ^2/n)と書きます。 T~N(n μ, (nσ)^2/n) = N(nμ, nσ^2) つまり、Tは、平均nμ、分散nσ^2の正規分布で、近似できます。 ここで、Tの意味は、「作業の所要時間の総和」、すなわち、「作業全体にかかる時間」であったことを思い出すと、Tの平均nμの意味は「作業全体にかかる時間の平均」、分散nσ^2の意味は、「作業全体にかかる時間の分散」ということになります。 意味から考えると、 e=Σei  (式-3) は、「作業全体にかかる時間の平均」 σ2=Σσi2 (式-4) は、「作業全体にかかる時間の分散」 となります。そこで、Tは、nμや、nσ^2を、これらの値で置き換えて、 T~N(e,Σσi2) とできるのです。

yoohoo_7
質問者

補足

御回答いただき有り難うございます。 素人ですので理解できない点があり、いくつか質問させていただいてよろしいでしょうか。的はずれの質問かもしれませんが、よろしくお願いします。 Q1:個々の作業の所要時間の分布 「母集団にあたるのが、(クリティカルパス上の)個々の作業の所要時間の分布」の「個々の作業の所要時間の分布」とは、クリティカルパス上のi番目の作業siをx回繰り返して行い、そのうちのp回目の作業時間をtpsiとするときに得られる{t1si, t2si, ..., tpsi, ..., txsi}なるx個の作業時間群が示す分布のことでしょうか。 Q2:個々の作業の平均と分散 「個々の作業の所要時間の分布を考えて、その平均をμ、分散をσ^2とおきます」は、(ア)「クリティカルパス上のn個の作業のうちi番目の作業をsiとするとき、siをx回実施して作業にかかった時間の平均と分散を求めると、n個の作業の1つひとつが全て同じμとσ^2という値を有すると考える」ということでしょうか。 もし(ア)のようであれば、なぜそのような仮定ができるのでしょうか。平均と分散は作業ごとに異なると思うのですが...。 それとも、(イ)、「クリティカルパス上のn個の作業を各1回だけ実施して{t1s1, t1s2, ..., t1sn}という作業時間群を求め、これの平均と分散をμとσ^2と考える」ということでしょうか。 それとも、(ア)、(イ)以外でしょうか。 Q3:作業の所要時間の平均mは ここまでの御説明によると、m=μでしょうか。 よろしくお願いします。

  • betagamma
  • ベストアンサー率34% (195/558)
回答No.1

たぶん、こういうことだと思います。 中心極限定理については、おっしゃるとおりです。 ただ、ちょっと、違う解釈が必要です。 N個の平均というのは、N個の標本値の総和を1/N倍したものですよね。逆に言えば、N個の標本値の総和は、平均のN倍の値になります。 そして、正規分布に従う値を、定数倍しても、やはり、正規分布に従っています。 >Tは、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計) Tは、n個の作業の所要時間の合計、なので、「n個の作業の作業の所要時間の平均」の定数n倍ですよね。 n個の作業の所要時間の平均は、nが大きいとき正規分布になります。したがって、n個の作業の所要時間の合計であるTは、正規分布の定数n倍になるので、やはり正規分布になるのです。

関連するQ&A

  • PERT と中心極限定理

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間の期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、・・・(と来て、Tの確率を求めるのですが、長くなるので以下省略します)。 ここで分からないのは、「中心極限定理により、Tは期待値e、分散σ2の正規分布で近似される」というところです。なぜ、いきなりこんなことが言えるのでしょうか。具体的に分からない点は次の(1)です。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。一体これらは、上記Tにおいては、どこへ行ってしまったのでしょうか。

  • 有限母集団の中心極限定理

    訳あって確率統計の勉強をしておりますが、中心極限定理について質問があります。 「母集団の平均をm、分散をvとすると、そこから抽出したn個の標本の平均の分布は、平均m、分散v/nという分布になり、標本数をn→無限大とすると、分布は母集団の分布によらず正規分布に近づく。」 とありますが、母集団が有限個(N個)の集合ならどうなるでしょうか。 その場合、標本数をnがNに等しくなった時点で平均はm、分散0、つまり標本から母集団の平均が完全に推定(決定)することになります。 ●有限母集団の場合も中心極限定理は成り立つのか? ●成り立つならn→Nで分散が0になるという点はどう表現されるのか? このあたりを教えてください。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • 中心極限定理について

    中心極限定理で理解できないところがあります。 多分、何か勘違いをしているところがあると思うので、分かる方は教えてください。 平均値 μ*,分散 σ2* をもつ,任意の分布に従う乱数列 x1,x2, … ,xnがあるとき,その平均値 ave(xn) = (x1+X2+・・・+xn)/n の確率分布は,n が大きくなるとき,平均値 μ*,分散 σ2* / n である正規分布に収束する。  すなわち, (ave(xn) - μ*)/(σ*/√n) は,n が大きいとき,平均値 0,分散 1 の標準正規分布に従うとみなしてよい。 はどうやって証明するのでしょうか? また、12個の乱数rand()を発生させた場合、分散は12*1/12=1になるようですが、これは中心極限定理から分散がσ2/nの正規分布に近づくという結果(こちらは1/12を12で割っている)に矛盾しているように思うのですが、どこが勘違いしているのでしょうか? よろしくお願い致します。

  • 中心極限定理について

    中心極限定理についていろいろ調べたんですが、よくわからないことがあります。 (ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく と書いています。 ある母集団分布をおいて、n = 6 として、 サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める と同様に、やっていくのですよね? で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、 サンプル数(平均値Xの数)はいくつを想定しているのでしょうか? サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。 いろいろなサイトで、 n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか? n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。 教えてください。

  • 統計学の中心極限定理(nが十分に大きいとき、どんな分布から抽出しても、

    統計学の中心極限定理(nが十分に大きいとき、どんな分布から抽出しても、標本平均は正規分布)について質問させて頂きたいと思います。母集団からn個の標本をk回を取り出す場合、上記の「nが十分に大きいとき」とは1.(文字通り)母集団から取り出すn個の標本が十分大きい、2.取り出し回数のk回が十分多い、3.1と2の両方、のどれを意味しているのでしょうか?初学者なので基本的な質問かと思いますがよろしくお願いいたします。

  • 中心極限定理 実験

    中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

  • 統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っ

    統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っているならば、標本の大きさnの大小に関わらず、その平均の分布は正規分布」という記述があります。であるならば、母平均を区間推定する場合、zの値を用いて推定してもいいのかなと思いますが、ほとんどの書籍では、標本の大きさが小さい場合、tの値を用いて推定しています。なぜでしょうか?たぶん、自分がどこかで誤解をしているのだと思いますが、宜しくお願いします。

  • 中心極限定理がわかりません

    中心極限定理の解説を見ると、【サイコロの出目のような一様分布の母集団から、サンプルを複数抽出して、その平均値をプロットすることを繰り返すと、そのプロットは正規分布に近づく】などと記述されています。 正規分布に近づいていくことについてはわかるのですが、 実際生産現場などで、サンプルを抽出する場合、『複数のサンプルの平均値』を取得するようなことはしないので、一様分布なら一様分布のままだと思うのですが、どの書籍を見ても解説はここまでで、実際どういうことなのか理解できません。 どなたか解説していただけませんか?

  • 中心極限定理 一様分布 平均値の意味

    統計学からの疑問です。 以前も中心極限定理について質問したことがあったのですが、また疑問が発生しました。 中心極限定理は、母集団が何分布であれ、そこからサンプリングされた標本の平均値は正規分布に従って分布するということで、この定理があるからこそ色んな統計手法を使うことができますよね。 例えば、プレス機の設定荷重を5.0トンに設定し、実荷重を複数回測定するとします。 この場合、実荷重は、4.9トンとか5.1トンとか、誤差的にばらつきますよね。 なので複数回測定した実荷重の平均値=プレス機の実力であると言えると思います。 では母集団が一様分布、例えばサイコロの場合、 サイコロを2個以上振って出た目の平均値は3.5ですが、この値は一体何を意味してるのでしょうか?サイコロは3.5の目がもっともよく出るというわけはありませんし・・・ 中心極限定理を解説するために、サイコロを使った説明があり、 母集団が一様分布であっても中心極限定理がちゃんと現れることは確認できたのですが、 母集団が一様分布の場合の統計量(平均値)の意味がわかりません。 変な質問かもしれませんが、疑問を解決したいのでどなたか教えて下さい。 よろしくお願いします。