最大値の平均と標準偏差を求める方法

このQ&Aのポイント
  • 仕事で解が解けずに悩んでいます。最大値の平均と標準偏差を求める方法を教えてください。
  • 集団からサンプルを取り出し、その最大値の確率分布を求める方法を知りたいです。
  • 処理時間ばらつきを持つ工程を連続配置したときのスループットの推定方法を教えてください。
回答を見る
  • ベストアンサー

最大値の平均と標準偏差

仕事で解が解けずに悩んでいます。助けてください。 平均値E(1)~E(N) 標準偏差V(1)~V(N)の正規分布の確率分布を持つN群の独立した事象があるとします。各集団のn数は等しく十分に大きいものとします。 このときに各集団から1つづつ任意にサンプルをNコ取り出して、その最大値がどのような確率分布(平均と標準偏差)になるか、一般解を求めたいと考えています。 もっとも単純な例として、等しい分布の集団から2コ取り出す例で 平均:E(1)=E(2)=150 標準偏差;V(1)=V(2)=50とおいてn=5000で実数検証してみると、最大値の分布は E=178 V=40ぐらいになりました。 処理時間ばらつきを持つ工程をNコ連続配置したときにスループットがどのようになるかの推定が目的です。

質問者が選んだベストアンサー

  • ベストアンサー
  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.4

>具体的にn=2のとき e1 e2は どのような式(値)に >なるのでしょうか。稚拙な質問で恐縮です。 n=2ぐらいなら厳密に計算できるかな、と思ってやってみました。 n=2のときの確率密度関数は、 f(x) = e^(-x^2/2)*(1+erf(x/√2))/√(2π) なんで、 平均 = ∫xf(x)dx = 1/√π = 0.56418958354775628695… 分散 = ∫x^2f(x)dx - (∫xf(x)dx)^2 = 1-1/π = 0.68169011381620932846… となるようです。

plateboron
質問者

お礼

感激です。ありがとうございます。 私の質問での言葉の定義が不正確で申し訳なかったのですが Eは平均で Vは標準偏差(=分散^1/2)のつもりでした。 E=150 V=50の正規分布は±3σで0~300まで大きくばらつきがあるものを想定していました。 したがって E=150+0.564*50=178 V^2=0.6817・50^2 V=41 これで完璧に合うのではと思われます。 一方、私の式は、標準正規分布でG(x)=0.5のときにxが(中央値=平均)とみなして値を出そうとしてました。 e1はGinv(0.5^(1/2))=0.545で近い値ですが、 e2の出し方は私の先の考え方が間違っていて、  Ginv[{Ginv(1)}^1/2]-Ginv(0.5^(1/2))=0.8418 で教えていただいた数字0.682に対して0.8418^2=0.707とまあ使える数字でした。 いずれにせよ、きちんと工学的に解法が見出せてきた感があり、とても感謝しています。  

その他の回答 (3)

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.3

単純に1次近似で近似式を求めてみると、 β分布B(n,1)は、 平均が、n/(n+1) 標準偏差が、 √(n/{(n+2)(n+1)^2}) ですから、 正規分布の累積分布関数の逆関数をGinv(x)と書いたときに、 標準正規分布に独立に従うn個の確率変数の最大値は、 平均が、 Ginv(n/(n+1)) 標準偏差が Ginv'(n/(n+1))*√(n/{(n+2)(n+1)^2}) と近似できそうです。 平均μ=150,分散σ^2=50の正規分布で、n=5000として実際に計算してみると、 平均 ≒ 175.03254578514972967 標準偏差 ≒ 1.8657075963054361591 となりました。平均は数値実験(E=178 V=40)とあってるようですが、標準偏差のほうがかなりずれてますね。 数値実験の分散=40ていうのは直感的にはちょっと大きすぎるような気もするのですが、もし本当だとすると、1次近似では無理があるってことですかね。

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.2

#1で書いたことと本質的には全く同じですが。 区間[0,1]の一様分布に従う独立なn個の確率変数の最大値の分布は、β分布 B(n,1) に従います。 http://en.wikipedia.org/wiki/Beta_distribution http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/beta/beta.htm ところで、正規分布の累積分布関数の逆関数をG(x)とすると、[0,1]一様分布に従う確率変数Xがあるとき、定義からG(X)は正規分布に従うことになります。(別に正規分布だけではなくて任意の分布について言えることですが) ということで、β分布B(n,1)に従う確率変数をYとしたとき、 G(Y)は、正規分布に従う独立なn個の確率変数の最大値の分布になりますね。 これから、計算するほうが多分楽でしょう。

plateboron
質問者

お礼

rabbit_cat様 早々にありがとうございます。すばらしいアドバイスで一気に解に近づけました。β分布の活用までは行き着けていたのですが、まだまだ理解不足で断念していました。もう少しきちんと勉強してみます。 ところで ANo1の2つめURLで紹介いただいた解説から、 平均=μ 標準偏差σ の正規分布 nコの最大値の分布で E=μ+e1・σ V=e2・σ^2 でe1 e2はそれぞれnについての増加、減少関数と表現できることはピンとくるのですが、 単純例として 具体的にn=2のとき e1 e2は どのような式(値)に なるのでしょうか。稚拙な質問で恐縮です。

plateboron
質問者

補足

下記の追加質問について自分で解けました。 標準正規分布関数を用いて さらに単純化して考えるとわかりました。 累積分布関数の逆関数をGinv(x)とすると 平均はGinv(0.5^(1/2))=0.54495 標準偏差は平均の二乗で0.7511 実数検証結果と一致していると思われ、だいぶ理解が深まりました。 ありがとうございます。

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.1

一般に累積分布関数がF(x)で表せる、独立なn個の確率変数の最大値の累積分布関数は (x)={F(x)}^n となります。 これから、一応、平均、分散を計算することが可能です。 http://ja.wikipedia.org/wiki/%E9%A0%86%E5%BA%8F%E7%B5%B1%E8%A8%88%E9%87%8F http://www.geocities.jp/ikuro_kotaro/koramu/278_max.htm

関連するQ&A

  • 平均値の標準偏差

    とある画像処理に関する論文を読んでいて次のような記述があったのですが分からない点があったのでどなたか教えてください。(簡単にまとめてあります。) 「ノイズのある画像を複数回撮影し、その平均値をとることでノイズ成分を小さくすることができる。ノイズ成分が正規分布の場合、標準偏差σと測定回数n回の平均値の標準偏差σ1は以下で記述される。 σ1=σ/√n 」 この記述に関して、 1.ノイズ成分が正規分布の場合しか、上記式は適用できないのでしょうか。ランダムノイズの場合でも平均化できるような気がするのですが・・・。 2.またなぜ、測定回数の平方根に反比例するのでしょうか。 3.上記式では測定回数nを多くすれば平均値の標準偏差σ1は0に近づきますが、この数値はいくつくらいならいいのでしょうか。0に近いほど母集団の平均値を推定できているということまでは分かったのですが、どのくらいの数だったらいいという閾値や評価基準みたいなものはあるのでしょうか。 以上、どなたかご回答お願いします。

  • 標準誤差と標準偏差の違いは何?

    誤っているのはどれか? 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい ――――-―――――――------------------------------------- このような問題を考えています。 自分なりに答えを出すと・・・・・・ 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう →(○)正しい。  定義どおりだと思います。 小学校で習った平均値ですね。 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない →(○)正しい。 極端な例が混ざれば平均値は同じでも、バラツキがちがう 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される   →(○)正しい。 そのとおり標準偏差(SD)のSD±1は68.27%である。 SD±2はたいか95%くらいでしたっけ。 SD±3は99.9%くらいだね。 つまりバラツキの度合いに占めるパーセンテージだと。 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい →(○)正しい。 これがうさんくさい。 でも、私の持論によると・・・・・ ■SEχ(標準偏差の平均値)=σ/ √n     σは標準偏差です。 ■SDχ(標準誤差の平均値)=s/ √n      sは限られたサンプルより抽出した標準偏差の「予想値」です。                          そしてnはサンプルのサイズ(数)です。 つまり、標準偏差(SD)は国勢調査などで「全員」の数が把握できている場合であり、標準誤差(SE)は、大阪のミナミの繁華街の商店街の「全員」ということで つまり、 ■SEχ(標準偏差の平均値)=σ/ √n          →σ/ √日本の総人口 ■SDχ(標準誤差の平均値)=s/ √n          →s/ √大阪ミナミの商店街の人口 ・・・・ということで分母が小さくなりますから、 1/1000 と 1/10 では、1/10がおおきいですね。 つまり、調査の数が少ないと、誤差も大きくなるとそういうわけで、 誤差の絶対値は標準偏差よりも高くなるというわけです。 ですから一見この選択肢が誤りに見えますが、実は正しいのだと思います。 間違っていればどこがまちがっているか教えてください! 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい →(○)正しい。 そのとおり。 本物と同じだから誤差も無い

  • 母標準偏差・標本標準偏差と標本平均(Xバー)の標準偏差

    (聞きたいのは、最後の3行がメインです) http://oshiete1.goo.ne.jp/qa3478996.html の質問をしたものです。 標準偏差を求めるとき、(ルートの中の)分母が「n」か「n-1」 の2種類があることはわかりました。 母標準偏差であっても標本標準偏差であっても「n」で求められる が、標本から母標準偏差を推定するときが「n-1」を使うという ことで理解しました。 ところで、「n」にしても「n-1」にしてもそんなに値としては 変わらないということなんですよね? 高校の時の教科書で、「標本平均(Xバー)の標準偏差」という のがありました。  「母平均m、母標準偏差sの母集団から大きさnの無作為標本  抽出するとき、標本平均Xバーの標準偏差σ=s/(ルートn)」 というのがありました。  「標本標準偏差」とこの「標本平均Xバーの標準偏差」というの は全然違うものなんですよね?(値も全然違うものになってしま うと思います。)

  • 母集団の標準偏差

    統計の初心者ですが困っているので教えてください。 母集団(N=30)で各グループ(N=10)の標準偏差がわかっている場合、母集団の標準偏差は計算ででるのでしょうか? 例 グループA(N=10) σ=2 平均値=10 グループB(N=10) σ=3 平均値=9 グループC(N=10) σ=2 平均値=11 この場合母集団(N=30)のσは?

  • 高校数学の標本平均について 教えてください。

    母集団から大きさnの無作為標本を抽出しそれらの変量xの値をX1.X2.….XnとするときXバー=(X1+X2+…Xn)/nを標本平均という。標本平均Xバーの確率分布と母集団分布関係を調べよう。母平均m,母標準偏差σの母集団から大きさnの無作為標本を抽出しそれらの変量xの値をX1.X2.….Xnとする。各Xkはどれも大きさ1の標本で母集団分布に従う確率変数である。よってE(X1)=E(X2)=E(Xn)=m σ(X1)=σ(X2)=σ(Xn)=σであるしたがって E(Xバー)=mになる。 また復元抽出の場合はX1.X2.….Xnは互いに独立な確率変数であるから分散V(Xバー)={V(X1)+V(X2)+…+V(Xn)}/n^2というところがわかりません。 なぜn^2で割ることになるのですか? どなたか教えてください。お願いします。

  • 最大値分布の作成

    最大値分布の作成 最大値分布に関する質問です。ある母集団からN個サンプルをとることを永遠に繰り返した時の、その最大値の分布を導出するのはどうしたらよいですか?Nが2の時、4の時、8の時と分けて3つの異なる分布を得たいです。 例えばある母集団の分布(平均6.3、標準偏差1.3)があり、ここから4個サンプルを取り出すとします。これが(5,9,6,4)だったとするとこの中の最大値は9です。このサンプリングを無限に行う時の最大値の分布はどのように計算できますか? この最大値の分布は1回のサンプル数の大きさに比例して大きくなると考えられますが、サンプル数が2の時、4の時、8の時の最大値分布の平均と標準偏差を求めたいです。 順序統計量の最大値の確率分布を用いるのかと思い調べたのですがよくわかりません。どうか知恵をお貸しください。よろしくおねがいします。

  • 標本平均の標準偏差の変化について

    σ=10の正規分布から、 n=9、n=36、n=100、n=1000、n=10000の標本を抽出したとき(無限母集団)、 標本平均の標準偏差はどのように変化するか簡単に述べなさい(50文字以内)。 ※指摘する論点は二つ この問題が分かる方がいたら教えてほしいです。 よろしくお願いします。

  • 標準偏差について

    ある正規分布(標準偏差a)に従う集団からある正規分布(標準偏差b)に従う集団を引いたもの(または足したもの)の正規分布の標準偏差cは、aとbを用いてどのように表せるのでしょうか? 確か数式があったと思うのですが、ど忘れしました。 平均はただ足しただけだったと思うのですが、 標準偏差は足してルートとったりとかしてたような気が… ネットで調べてもうまく見つからないので、 覚えている方がいればお願いします。 稚拙な説明で申し訳ありません。

  • 標準偏差について教えてください。

    標準偏差について教えてください。 統計初心者です。正規分布するとわかっている母集団があって、ある値がその母集団で標準偏差がいくつなのかを知りたいと思っています。母集団は平均値、1.5SDの値はわかっていますが、それ以上はわかっていません。 初心者のため、簡単に教えていただけるとうれしいです。お願いいたします。

  • 最大値(最小値)の分布

    ある母集団は、平均値がAの正規分布又はポアソン分布であり、その標準偏差は√Aで表されます。その母集団から、N個サンプリングしたとします。(正規分布とポアソン分布のどちらで考えてもいいです。) N個サンプリングしたデータについて、最大値と最小値の標準偏差はどのように表されるでしょうか。平均値Aとサンプリング数Nで表されるはずなのですが、どうしても分かりません。 よろしくお願いいたします。