PERTと中心極限定理

このQ&Aのポイント
  • PERTと中心極限定理について説明します。
  • PERTはプロジェクトの全体工程を求める方法で、中心極限定理に基づいています。
  • 中心極限定理により、プロジェクトの全体工程は正規分布で近似されますが、その根拠は分かりません。
回答を見る
  • ベストアンサー

PERT と中心極限定理

中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間の期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、・・・(と来て、Tの確率を求めるのですが、長くなるので以下省略します)。 ここで分からないのは、「中心極限定理により、Tは期待値e、分散σ2の正規分布で近似される」というところです。なぜ、いきなりこんなことが言えるのでしょうか。具体的に分からない点は次の(1)です。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。一体これらは、上記Tにおいては、どこへ行ってしまったのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

●平均と分散が定義できるような分布(有限のoiとpiの間でだけ0でないような分布なら該当します)が沢山あるとして、それらをφj(x) (j=1,2, …,n)とします。分布φjに従う互いに独立な確率変数Xj (j=1,2,…)を考えたとき、それらの和 C= X1 + X2 + … Xn の確率密度関数がどうなるかということですね。(ご質問の場合は、n個の工程を含むクリティカルパスで、各工程の納期がXjであり、クリティカルパス全体の納期がCになっている。) ●平均と分散を計算するだけならば、中心極限定理などお呼びでない。 手始めに、二つの確率変数の和 Y = (Xi+Xj) ただしi≠j を考えます。Yの確率密度関数をξ(x)とするとき、XiとXjが独立(無相関)であることから、 ξ(x) = ∫φi(x-t)φj(t) dt  (∫は-∞~∞の定積分) となります。この定積分はコンボルーション(畳み込み積)と呼ばれ、 ξ(x) = φi(x)*φj(x) という記号で書かれます。 このとき、φi(x)とφj(x)がどんな関数であろうとも、それぞれの平均Mi, Mjと分散(σi)^2, (σj)^2が存在していさえすれば、ξの平均Mと分散σ^2は M = Mi + Mj σ^2 = (σi)^2 +(σj)^2 となることは容易に証明できます。同様にしてCの平均Mcと分散(σc)^2が Mc = M1+ M2 + … + Mn (σc)^2 = (σ1)^2 +(σ2)^2+…+(σn)^2 で計算できることは、中央極限定理を持ち出すまでもなく成り立ちます。  ちなみに、コンボルーションは「信号φi(x)に平滑化フィルタφj(x)を作用させて得られる信号ξ(x)」を表すと解釈できます。(φj(x)は負の値を取らないので、平滑化フィルタと解釈できるのです。) ●さて、Cの確率密度関数がどうなるかに関しては、ご質問で正しくご指摘の通り、φj(x) (j=1,2,…)が皆異なるのだから、標準的な中心極限定理では片付けられず、φj(x)がどんなものであるかに依存します。  ところで、ご質問で扱っていらっしゃる理論においては、一つの工程に関しoi,mi,piから平均値や分散が簡単に計算できる公式が与えられているようです。ということは、(oi,mi,pi)という3個のパラメータで完全に決まってしまう具体的な確率密度関数を、その理論は仮定しているに違いありません。  ならば、その確率密度関数に関する中心極限定理、すなわち「工程iのパラメータ(oi,mi,pi) (i=1,2,…)が(或る適当な仮定を満たしさえすれば)どんな値であろうとも、Cが正規分布に近づく」を(その理論が自前で)証明しなきゃならんはずです。  ここで重要になるのは、「(或る適当な仮定を満たしさえすれば)」ってところでしょう。例えば、矩形関数 φj(x) = もし(|x| < wj)なら1/(2wj)、さもなくば0 において、wj= 1/(1000^j) ( j=1,2,…)だったとしたら、φ1(x)*φ2(x)*…を作ってもこりゃ正規分布には到底行きそうにありません。でももしwj (j=1,2,…)がもっとテキトーにばらばらであれば正規分布に行くでしょう。  ですから、正規分布に近づくためには「φj(x)が或る意味でランダムに選ばれる」という条件が必要だろうと思います。「或る意味で」というのは、例えば「工程iのパラメータ(oi,mi,pi)それ自体が、ある確率モデルに従って分布する確率変数であって、しかも各工程間では独立である」などの前提のことです。(現実のクリティカルパスにおいて一連の工程のパラメータ(oi,mi,pi)が独立とはとても思えないから、これは荒っぽい「例えば」の話です) ●しかしながら、PERTは実用の話です。実用レベルでは「独立な確率変数X1, X2, …について、それぞれが有限の範囲の値をとる確率変数であるなら、nが大きいときCは大抵、正規分布で近似できる(中心極限定理とは違う話だけれど)」と考えて差し支えないでしょう。(差し支える場合もあることは、上に書いた通りですが。)

yoohoo_7
質問者

お礼

御懇切な御回答を賜り、心より厚く御礼申し上げます。素人のため御教示の内容を理解するのに何度も読み返し、参考書を開き、ために御返事がたいへん遅くなりお詫びいたします。 「●平均と分散が...」の段落は、よく分かりました。というか、「えーっ、そんな話だったの」という感じです。一体何を自分がしようとしていたのかがやっと分かりました。 「●平均と分散を...」の段落は、参考書をみて勉強しました。なんとか理解できたと思います。 「●さて、Cの...」の段落については、質問が不十分で申し訳ありません。「一つの工程に関しoi,mi,piから平均値や分散が簡単に計算できる公式」ですが、「各工程の納期Xj」はベータ分布に従うという前提で話は始まっています。ベータ分布に従うので、式-1,式-2のようになると、PERTの教科書には書いてあります(その間の証明は何もありません)。 また、同じくPERTの教科書には、「クリティカルパスにより求める全体工程(御回答で頂いたC)の分布は、中心極限定理(個々の事象の分布を重ね合わせると正規分布に近づく)により正規分布にしたがう」とされています。ここで言う「個々の事象」は各作業の工程Xjだと思うのですが、Xjを「重ね合わせる」とされており、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出して」という中心極限定理の基本部分と全く合いません。 「●しかしながら...」の段落は、全くそのとおりです。実用レベルでの話ですので、理論的にはあるいは少し矛盾があるかもしれません。 それで、少しお尋ねしたいのですが、最初の質問から時間もずいぶん経ったので、スレッドを改めて「PERTと中心極限定理 2」のタイトルで質問させていただきました。お目にとまりましたら、何卒御教示、御指導賜りますようお願い申し上げます。 有り難うございました。

関連するQ&A

  • PERT と中心極限定理 2

    中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36  (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei  (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。

  • 有限母集団の中心極限定理

    訳あって確率統計の勉強をしておりますが、中心極限定理について質問があります。 「母集団の平均をm、分散をvとすると、そこから抽出したn個の標本の平均の分布は、平均m、分散v/nという分布になり、標本数をn→無限大とすると、分布は母集団の分布によらず正規分布に近づく。」 とありますが、母集団が有限個(N個)の集合ならどうなるでしょうか。 その場合、標本数をnがNに等しくなった時点で平均はm、分散0、つまり標本から母集団の平均が完全に推定(決定)することになります。 ●有限母集団の場合も中心極限定理は成り立つのか? ●成り立つならn→Nで分散が0になるという点はどう表現されるのか? このあたりを教えてください。

  • 中心極限定理について

    お世話になります。 統計学で出てくる中心極限定理について基本的なことをうかがいます。 定理の内容はおよそ「母集団が任意の確率分布を持っていても、そこから抽出した標本分布は標本数nが無限大に近づくにつれて正規分布に近づく」といったことだと思いますが、nを無限大にもっていくとき母集団に近づくのに(というか母集団を超えることも)、たとえば母集団が正規分布していない場合でもそれが正規分布に近づいていくというのは矛盾がある気がするのですが、どこが誤っているのでしょうか。 詳しい方ご教示願います。

  • 中心極限定理 実験

    中心極限定理に、 『母集団分布の平均、分散をμ、σ^2とすると、その分布が何であっても、nが大きければ、 Sn=X1+X2+...+Xnは、N(nμ, nσ^2)に、 Xmean=(X1+X2+...+Xn)/nは、N(μ, (σ^2)/n)に、従う。』 とあります。 これを実証しようと、エクセルで乱数を作りました。 RAND関数なので、母集団の平均μ=0.5、σ^2=0.083です。 サンプル10,000個を作成しました。 その合計Sn=S10,000のデータを30件取り、平均、分散を求めました。 平均は 5001.608 となり、 中心極限定理通りn×μに近い値になりましたが、 分散は460程度となってしまいました。 定理によれば、830付近になるとのことですが、このズレはなぜ発生するのでしょうか? よろしくお願いします。

  • 中心極限定理について

    中心極限定理で理解できないところがあります。 多分、何か勘違いをしているところがあると思うので、分かる方は教えてください。 平均値 μ*,分散 σ2* をもつ,任意の分布に従う乱数列 x1,x2, … ,xnがあるとき,その平均値 ave(xn) = (x1+X2+・・・+xn)/n の確率分布は,n が大きくなるとき,平均値 μ*,分散 σ2* / n である正規分布に収束する。  すなわち, (ave(xn) - μ*)/(σ*/√n) は,n が大きいとき,平均値 0,分散 1 の標準正規分布に従うとみなしてよい。 はどうやって証明するのでしょうか? また、12個の乱数rand()を発生させた場合、分散は12*1/12=1になるようですが、これは中心極限定理から分散がσ2/nの正規分布に近づくという結果(こちらは1/12を12で割っている)に矛盾しているように思うのですが、どこが勘違いしているのでしょうか? よろしくお願い致します。

  • 中心極限定理 一様分布 平均値の意味

    統計学からの疑問です。 以前も中心極限定理について質問したことがあったのですが、また疑問が発生しました。 中心極限定理は、母集団が何分布であれ、そこからサンプリングされた標本の平均値は正規分布に従って分布するということで、この定理があるからこそ色んな統計手法を使うことができますよね。 例えば、プレス機の設定荷重を5.0トンに設定し、実荷重を複数回測定するとします。 この場合、実荷重は、4.9トンとか5.1トンとか、誤差的にばらつきますよね。 なので複数回測定した実荷重の平均値=プレス機の実力であると言えると思います。 では母集団が一様分布、例えばサイコロの場合、 サイコロを2個以上振って出た目の平均値は3.5ですが、この値は一体何を意味してるのでしょうか?サイコロは3.5の目がもっともよく出るというわけはありませんし・・・ 中心極限定理を解説するために、サイコロを使った説明があり、 母集団が一様分布であっても中心極限定理がちゃんと現れることは確認できたのですが、 母集団が一様分布の場合の統計量(平均値)の意味がわかりません。 変な質問かもしれませんが、疑問を解決したいのでどなたか教えて下さい。 よろしくお願いします。

  • 統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っ

    統計入門書によると、中心極限定理に関して「もし、母集団が正規分布に従っているならば、標本の大きさnの大小に関わらず、その平均の分布は正規分布」という記述があります。であるならば、母平均を区間推定する場合、zの値を用いて推定してもいいのかなと思いますが、ほとんどの書籍では、標本の大きさが小さい場合、tの値を用いて推定しています。なぜでしょうか?たぶん、自分がどこかで誤解をしているのだと思いますが、宜しくお願いします。

  • 統計学の中心極限定理(nが十分に大きいとき、どんな分布から抽出しても、

    統計学の中心極限定理(nが十分に大きいとき、どんな分布から抽出しても、標本平均は正規分布)について質問させて頂きたいと思います。母集団からn個の標本をk回を取り出す場合、上記の「nが十分に大きいとき」とは1.(文字通り)母集団から取り出すn個の標本が十分大きい、2.取り出し回数のk回が十分多い、3.1と2の両方、のどれを意味しているのでしょうか?初学者なので基本的な質問かと思いますがよろしくお願いいたします。

  • 中心極限定理について

    中心極限定理についていろいろ調べたんですが、よくわからないことがあります。 (ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく と書いています。 ある母集団分布をおいて、n = 6 として、 サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める と同様に、やっていくのですよね? で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、 サンプル数(平均値Xの数)はいくつを想定しているのでしょうか? サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。 いろいろなサイトで、 n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか? n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。 教えてください。

  • 二項分布の信頼区間

    母数pの二項母集団Bi(1,p)からn=50の大きさの標本を抽出して、0が23、1が27であった。pの信頼係数95パーセントの区間を求めよ。 という問題で、(中心極限定理による正規近似)というヒントが付いているのですが、どこから正規近似したらいいのかがわからないので、全くわかりません。 いきなり正規分布の様に見て 平均=0.54 標本分散=0.46^2*27/49 としてt分布から求めようとしてみましたが、うまく行きませんでした。 どういう流れでとくのか教えていただけないでしょうか。 ちなみにZ0.025=1.960です