- ベストアンサー
PERT と中心極限定理 2
中心極限定理は、次のような定理だと思います。 平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めることを繰り返すと、母集団がどのような分布を示す集団であるかに拘わらず、nが充分大きいとき、mの分布は平均μ、分散σ2/nの正規分布で近似される。 次に、PERTにおいて、n個の作業から成るプロジェクトの全体工程Tを求める方法は、一般に次のように説明されています。 作業iの所用時間がベータ分布に従うと仮定すると、その期待値ei、楽観値oi、最可能値mi、悲観値pi、分散σi2の間には次の関係がある。 ei=(oi+4mi+pi)÷6 (式-1) σi2=(pi-oi)2÷36 (式-2) 一般に平均と分散については加法定理が成り立つので、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計)Tの期待値eと分散σ2は次のように表される。 e=Σei (式-3) σ2=Σσi2 (式-4) 中心極限定理により、Tは期待値e、分散σ2の正規分布で近似されるので、今、e=20、σ2=25であるとすると、95%の確率でTが完了する工期は、標準正規分布表の95%点=1.960から、20-1.960×5≦T≦20+1.960×5となる。 それで、次の(1)、(2)が分かりません。 (1)中心極限定理は、「平均μ、分散σ2の母集団から無作為にn個の標本を抽出してその平均値mを求めること」から始まる定理なのに、上記Tを求めた過程には、「平均μ、分散σ2の母集団」も「n個の標本の抽出」も「その平均値m」も、一切何もありません。母集団、抽出、平均値にあたるものは、上記Tを求めた過程のどの値または計算なのでしょうか。 (2)「中心極限定理により、Tは期待値e、分散σ2の正規分布」とありますが、いったいどう考えればTを正規分布であるとみなせるのでしょうか。
- みんなの回答 (6)
- 専門家の回答
質問者が選んだベストアンサー
すごい鋭いですね。たぶん、本の著者さんも、そこまで考えてないんじゃないでしょうか。すばらしい姿勢だと思います。 Q1:そうです。 Q2: (ア)「クリティカルパス上のn個の作業のうちi番目の作業をsiとするとき、siをx回実施して作業にかかった時間の平均と分散を求めると、n個の作業の1つひとつが全て同じμとσ^2という値を有すると考える」 で考えています。 もし(ア)のようであれば、なぜそのような仮定ができるのでしょうか。平均と分散は作業ごとに異なると思うのですが...。 もっともです。実は、昨日この説明を書いたときは、自分でもそこが引っかかっていたので、自信なし、にしました。 で、よく考えたのですが・・・どうやら、中心極限定理を使うところを間違っていたようです。とりあえず、下の書き込みは、一旦忘れてください。 まず、正規分布には、確率変数X,Yが、X~N(μ1,σ1^2)、Y~N(μ2,σ2^2)の時に、X+Y~N(μ1+μ2,σ1^2+σ2^2)という性質があります。 つまり、平均μ1、分散σ1^2の正規分布に従う値と、平均μ2、分散σ2^2の正規分布に従う値を足すと、その結果は、平均μ1+μ2、分散σ1^2+σ2^2にしたがっているということです。 さて、今、作業全体の所要時間についてはとりあえず、おいておいいて、i番目の作業siについてのみ考えましょう。 すなわち、クリティカルパス上のi番目の作業siをx回繰り返して行い、そのうちのp回目の作業時間をtpsiとするときに得られる{t1si, t2si, ..., tpsi, ..., txsi}なるx個の作業時間群が示す分布を考えます。 作業siの作業時間の分布の平均はμsiで、分散σsiとしましょう。この分布は、正規分布とは限りません。今、たまたま、その中からx個の標本を取ってきたら{t1si, t2si, ..., tpsi, ..., txsi}であった、と考えます。 このとき、この作業siの作業時間の平均をmsiとすると、msi=1/x(t1si+ t2si+ ...+ tpsi+ ...+ txsi)とかけますね。 msiの分布は、中心極限定理より、N(μsi,σsi^2/x)になります。母集団が、得体の知れない平均μsi、分散σsi^2の中から、x個標本をとってきたからです。 先ほどの、正規分布と正規分布の足し算の性質より、ms1+ms2+ms3+...+msnの分布は、 N(μs1,σs1^2/x)+N(μs2,σs2^2/x)+N(μs3,σs3^2/x)+...+N(μsn,σsn^2/x) =N(μs1+...+μsn,σs1^2/x+...+σsn^2/x)に従います。 Tを、n個の作業の平均時間の総和、すなわち、T=ms1+ms2+ms3+...+msnとして考えてみます。 Tは、N(μs1+...+μsn,σs1^2/x+...+σsn^2/x)に従います。 ei=μsi、σi=σs1/(√x)とおけば、 T~N(e1+...+en,σ1^2+...+σn^2)=N(e,σ^2) (e=e1+...+en,σ=σ1^2+...+σn^2とおきました) で、式どおりになると思います。 考えてみましたが、No.2の方法は、おかしなところが、二つあります。 (1)一つは、おっしゃってくださった、「作業siの分布は、作業ごとに異なるのにどうして中心極限定理が使えるのか」という点です。 (2)もう一つは、作業の工程数nが大きい場合はいいとして、小さい場合は、正規分布にはならない、という点です。 今回の方法では、(1)は、うまく解決できましたが、(2)は、微妙です。 T~N(μs1+...+μsn,σs1^2/x+...+σsn^2/x) で言えているのは、xが大きいときは、nが小さくてもTは正規分布で近似できるよ、ということです。 すなわち、何回もプロジェクトをやって、「作業siの所要時間の平均値」の合計Tを計測してみると、Tが正規分布になっていることはいえました。が、Tは、「作業siの所要時間」の合計ではなく、「作業siの所要時間の平均値」の合計であるため、言えていることは弱くなります。 いずれにしても、この教科書の中心極限定理より、の使い方は、かなり怪しいものがあると思います。おそらく、Tが平均e,分散σ^2の正規分布に従うことは確かでしょうが、その導出過程は、必ずしも本の著者が目を向けているとは限りません。結果だけが使えればいい、と考えている場合もありますし、場合によっては本の著者に十分な知識がない場合もあります。 他の本の解説も、参考にしてみてください。
その他の回答 (5)
- stomachman
- ベストアンサー率57% (1014/1775)
直接の回答ではないんですが、PERTにおける確率分布ちうものの位置づけについて、私見をばちろっと開陳してみようかなと。 PERTそのものはアトラスロケット(だっけ?)の開発工程管理のために開発された。けれど、クリティカルパスという重要な概念を発見し、各工程の「最も遅い開始時刻」を計算できるようにして、つまり「動的なスケジュール管理」に使える道具に仕上げたのは大成建設であると記憶しています。いわばPERTに命を吹き込んだんですね。「最悪の場合でもプロジェクトが破綻しないようにコントロールしながら、現実の進捗に合わせてスケジュールを見直して行く事であわよくば前倒ししよう」という手法ですから、ゼネコンが毎回特注の工事を行う際に、それぞれ独自の専門性を持つ多くの外注や下請けをタイムリーに使うにはとても適した方法だと言えましょう。 対照的に、研究開発のように同じグループの人たちが次々と工程をこなして行く場合や、工場で同一の製品を沢山作るために全体の流れを何度も繰り返す場合にPERTを適用すると、「工程の遅れは一度生じると後工程に伝播するが、ある工程が早く終わっても全工程が早くなることはない」という現象が現れて来たりして、結局あんまり旨く機能しないように思われます。 こういう、PERTの適用対象があまり適切ではない場合にこそ、PERTに確率分布をくっつけたり、或いはリソース管理の情報を入れたりしたくなるのだろうと思います。でも、そうしてみても計算がややこしくなるばかりで、本来の「スケジュール管理のツール」としての値打ちは大して上がらないんじゃないか。むしろ「誰にでも分かる明快さ」の方が重要なんじゃないだろうか。 極端なことを言えば、本来PERTを使うに適した一発もののプロジェクトにおいて「最悪どうなのか」をマネージメントする事を主眼に置くならば、「確率分布がどうなるか」なんぞ(一発ものなんですから)「どうでもいい」のであって、PERTに於ける確率分布の計算理論を追求してもさして得るところはない、という意見も可能かと思います。
お礼
そうですね。 PERTの計算理論の複雑さばかりに目を奪われていましたが、確かに、確率を入れることにより複雑になる割には得る成果はさして違わないように思えます。 ただ、確率的な場合にも対応可能だというのがPERTの最大のメリットなのでしょうか。 思ってもなかった御指摘をいただき、又別の角度からPERTを見ることができました。 有り難うございました。
- betagamma
- ベストアンサー率34% (195/558)
No.3です。以前の質問のstochmanさんのご意見も拝見して、ちょっと総括してみようと思いました。 結論から言えば、自分もstochmanさんも、 「各工程の所要時間は互いに独立で、ベータ分布に従う」という仮定の下で中心極限定理「多数の工程を直列したたパス全体の所要時間は正規分布に漸近する」は、使えない(=例外がある) という点では一致しています。要は、教科書の説明は不正確で、Tは正規分布に従わないということです。(実用上はそれで足りるのかと思いますが) 私は、No.3の中で、 同じプロジェクトを例えばx=1000回繰り返したき、T'を「個々の工程の所要時間の平均値」の総和とすれば、T'が正規分布に近似することは言える、ことを示してみました。 私が使ったT'は、本来のTの定義である「個々の工程の所要時間」の総和ではなく、「個々の工程の所要時間の平均値」の総和であることに注意してください。 No.3の中では、肯定的に解釈するために、意図的にTをT'で置き換えて書いていましたが、混乱の元でした。ここでは、明確に区別します。 TとT'の違いを、ちょっと極端な例を出してみます。 s1,s2からなるプロジェクトを、x=4回やったとしましょう。数字は、かかった所要時間です。 T s1 s2 100 1 99 100 99 1 2 1 1 100 1 99 このとき、Tは、正規分布に従いません。 s1の作業時間の平均値a(s1)=(1+99+1+1)/4=102/4=25.5 s2の作業時間の平均値a(s2)=(99+1+1+99)/4=200/4=50 T'=a(s1)+a(s2)=25.5+50=75.5 今は、x=4回ですが、T'は、xが大きいときは、正規分布で近似できます。 T'=75.5ですが、Tは、2になることも99+99=198になることもありえます。言えていることは、とても弱いです。 stochmanさんは、No.4の中で、Tが中心極限定理より正規分布に「従わない」ことを示す反例を述べていらっしゃいます。 まぁ、結論から言うと、Tは正規分布に厳密には従いません。実用上、使えれば、それでいいのでしょうが。
お礼
xが小さいときは成り立たないんですね。御教示の証明はたしかにそのとおりですね。 教えていただくと簡単なように思えますが、自分ではこのようなことを考えることもできませんでした。 有り難うございました。
補足
御教示いただいてやっと闇から抜け出すことができました。 有り難うございました。心より御礼申し上げます。
- stomachman
- ベストアンサー率57% (1014/1775)
ご質問(1)(2)に関しては、 http://oshiete1.goo.ne.jp/kotaeru.php3?q=2327933 と同じ回答です。 ある工程がベータ分布(って、一般的な確率論で言うベータ分布とはどうも別物のようですが)に従っていて、悲観値および楽観値がm,M、平均a, 分散sであるとしましょう。さらに、この工程が独立な二つの工程に分けられたとしましょう。分けた前半を工程1として、その悲観値および楽観値をm[1],M[1]、平均a[1], 分散s[1]とします。後半を工程2として、これも同様にm[2],M[2],a[2],s[2]としますと、 m = m[1] + m[2] M = M[1] + M[2] a = a[1] + a[2] s = s[1] + s[2] を満たす筈です。ところで工程1,2が共に「ベータ分布」であると仮定すると、 s[1] = ((M[1]-m[1])^2)/36 s[2] = ((M[2]-m[2])^2)/36 となるので、 s[1]+s[2] = ((M[1]-m[1])^2 + (M[2]-m[2])^2)/36 一方 s =((M-m)^2)/36 でなくてはならない。 従って、どんなM[1],M[2],m[1],m[2]についても ((M[1]-m[1])^2 + (M[2]-m[2])^2) = ((M-m)^2) となる筈ですが、この恒等式は明らかに成り立ちません。 つまり「工程の所要時間はベータ分布である」という仮定自体がそもそもイーカゲンなものであることが分かります。(ですから、あまり神経質になってもしょうがないように思われます。) 「各工程の所要時間は互いに独立で、ベータ分布に従う」という仮定の下で中心極限定理「多数の工程を直列したたパス全体の所要時間は正規分布に漸近する」が証明できるかどうかに関しては、「例外が作れる」すなわち「証明できない」が答だと思います。 工程kがベータ分布で悲観値、楽観値、平均、分散をそれぞれm[k], M[k], a[k], s[k]とし、工程k=1,2,…,Kを直列したパス全体の悲観値、楽観値、平均、分散をそれぞれm,M,a,sとするとき、もし、 M[1]=1, m[1]=0, s[1] = 1, a[1] = 0.01 m[k] = 0 (k=2,3,…) a[k] = 0.99m[k]+0.01M[k] (k=2,3,…) s[k] = (1/1000000) (4^(-k)) = ((M[k]-m[k])^2)/36 (k=2,3,…) (∴ M[k] = (6/10000) (2^(-k)) です) となるようにしたとすると、 m = 0 1 <s < 1 + 1/1000000 1 <M<1+(6/1000) a = 0.01M となりますんで、パス全体の所要時間の分布はほとんど工程1の分布と変わらないまま収束してしまうことは明らかでしょう(きちんと計算しなくちゃ証明にはなりませんが)。 従って、ご参照になった教科書は、数学的には厳密とは言い難いです。 しかし、「ベータ分布に従っていて、しかも(M[k]-m[k])が同程度であるような、互いに独立の工程をものすごく沢山直列したとき」というような条件を付ければ、中心極限定理が証明可能かも知れません。
お礼
再度の御回答有り難うございます。 素晴らしい御指摘ですね。 このようなこと、考えても見ませんでした。でも、確かに御指摘の通りで、成り立ちませんね。PERTの理論は、いつでも必ず成り立つという理論ではなく、ある特定の条件下では、しかも近似的に成り立つと言うことなんでしょうね。そのようなものだとして考えなければならないのだとよく分かりました。 有り難うございました。
- betagamma
- ベストアンサー率34% (195/558)
もうちょっと厳密にしてみました。 >Tは、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計) (1) 母集団にあたるのが、(クリティカルパス上の)個々の作業の所要時間の分布です。個々の作業の所要時間の分布を考えて、その平均をμ、分散をσ^2とおきます。 n個の標本は、今考えているn個の作業を、n個の標本と考えます。例えば、今考えているプロジェクトを何回も繰り返したと考えれば、作業がたくさん出てきますよね。その中から、たまたまn個を選んで取ってきたのが、今のプロジェクトの作業、と考えているわけです。 で、作業の所要時間の平均mは、作業の所要時間の総和Tの1/nですから、m=1/n Tです。 すると、中心極限定理によれば、nが十分大きいとき、作業の所要時間の平均1/n Tは、平均μ、分散σ^2/nの分布に従います。 これを、1/n T ~ N(μ,σ^2/n)と書きます。 T~N(n μ, (nσ)^2/n) = N(nμ, nσ^2) つまり、Tは、平均nμ、分散nσ^2の正規分布で、近似できます。 ここで、Tの意味は、「作業の所要時間の総和」、すなわち、「作業全体にかかる時間」であったことを思い出すと、Tの平均nμの意味は「作業全体にかかる時間の平均」、分散nσ^2の意味は、「作業全体にかかる時間の分散」ということになります。 意味から考えると、 e=Σei (式-3) は、「作業全体にかかる時間の平均」 σ2=Σσi2 (式-4) は、「作業全体にかかる時間の分散」 となります。そこで、Tは、nμや、nσ^2を、これらの値で置き換えて、 T~N(e,Σσi2) とできるのです。
補足
御回答いただき有り難うございます。 素人ですので理解できない点があり、いくつか質問させていただいてよろしいでしょうか。的はずれの質問かもしれませんが、よろしくお願いします。 Q1:個々の作業の所要時間の分布 「母集団にあたるのが、(クリティカルパス上の)個々の作業の所要時間の分布」の「個々の作業の所要時間の分布」とは、クリティカルパス上のi番目の作業siをx回繰り返して行い、そのうちのp回目の作業時間をtpsiとするときに得られる{t1si, t2si, ..., tpsi, ..., txsi}なるx個の作業時間群が示す分布のことでしょうか。 Q2:個々の作業の平均と分散 「個々の作業の所要時間の分布を考えて、その平均をμ、分散をσ^2とおきます」は、(ア)「クリティカルパス上のn個の作業のうちi番目の作業をsiとするとき、siをx回実施して作業にかかった時間の平均と分散を求めると、n個の作業の1つひとつが全て同じμとσ^2という値を有すると考える」ということでしょうか。 もし(ア)のようであれば、なぜそのような仮定ができるのでしょうか。平均と分散は作業ごとに異なると思うのですが...。 それとも、(イ)、「クリティカルパス上のn個の作業を各1回だけ実施して{t1s1, t1s2, ..., t1sn}という作業時間群を求め、これの平均と分散をμとσ^2と考える」ということでしょうか。 それとも、(ア)、(イ)以外でしょうか。 Q3:作業の所要時間の平均mは ここまでの御説明によると、m=μでしょうか。 よろしくお願いします。
- betagamma
- ベストアンサー率34% (195/558)
たぶん、こういうことだと思います。 中心極限定理については、おっしゃるとおりです。 ただ、ちょっと、違う解釈が必要です。 N個の平均というのは、N個の標本値の総和を1/N倍したものですよね。逆に言えば、N個の標本値の総和は、平均のN倍の値になります。 そして、正規分布に従う値を、定数倍しても、やはり、正規分布に従っています。 >Tは、クリティカルパス上のn個の作業の総所要時間(n個の作業の所要時間の合計) Tは、n個の作業の所要時間の合計、なので、「n個の作業の作業の所要時間の平均」の定数n倍ですよね。 n個の作業の所要時間の平均は、nが大きいとき正規分布になります。したがって、n個の作業の所要時間の合計であるTは、正規分布の定数n倍になるので、やはり正規分布になるのです。
お礼
素人のため御回答の内容を簡単には理解できず、何十回も読み返しまた新たに参考書をひっくり返すなどしたため、御返事がたいへん遅くなったことをお詫びいたします。 Q1とQ2の文字の直後の御回答1~4行は、たいへん参考になりました。どうしてもあいまいだった箇所がやっとはっきりしました。 「もっともです。実は、...」以降の御説明は、全く知らない初めてのことでしたが、なるほどこのように式を展開できるのかということが理解できました。また、Tの平均時間に関する証明はすごいですね。驚きでした。 「(2)もう一つは、作業の工程数nが大きい場合はいいとして、小さい場合は、正規分布にはならない、という点です。」ですが、PERTではnが充分大きいという前提で話しを進めているようです。 御教示いただいてPERTの基礎的な考え方がやっと何とか分かってきたように思います。 有り難うございました。
補足
有り難うございました。 御教示いただいて闇から抜け出すことができました。 厚く御礼申し上げます。