• ベストアンサー

最大値(最小値)の分布

ある母集団は、平均値がAの正規分布又はポアソン分布であり、その標準偏差は√Aで表されます。その母集団から、N個サンプリングしたとします。(正規分布とポアソン分布のどちらで考えてもいいです。) N個サンプリングしたデータについて、最大値と最小値の標準偏差はどのように表されるでしょうか。平均値Aとサンプリング数Nで表されるはずなのですが、どうしても分かりません。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • age_momo
  • ベストアンサー率52% (327/622)
回答No.5

計算で求めた平均100(標準偏差10)のポアソン分布で65536個サンプリングしたときの 最大値の標準偏差は3.17109459844303でした。 正規分布だと計算式に今一自信がありませんが2.78528535874631です。 Nを大きくすると標準偏差は小さくなりますが対数に反比例するかたちで N=65536とはいえ、極めてとはいかないようです。 以下N=1,10,100,1000,10000,100000の標準偏差です。 10 6.191267961 4.669656868 3.904312363 3.439114194 3.11999874 なお、用いた計算式は 今、最大値がBである確率をM(B)とし、P(B)をBにおける確率密度、 D(B)をBまでの累積確率密度とし、組み合わせの計算をC[a,b]=a!/b!(a-b)!とすると、 N個サンプリングしてBが最大値になる確率は最低1個はBが出て、後はB以下の数字が出ることから その値はN個全てがBになるorN-1個がB、一個がB未満、・・・一個がB、N-1個がB未満の確率の和となり、 M(B)=P(B)^N+C[N,1]P(B)^(N-1)*D(B-1)+C[N,2]P(B)^(N-2)*D(B-1)^2+・・・+C[N,N-1]P(B)*D(B-1)^(N-1) ={P(B)+D(B-1)}^N-D(B-1)^N =D(B)^N-D(B-1)^N 期待値=Σk{D(k)^N-D(k-1)^N} 分散=Σk^2{D(k)^N-D(k-1)^N}-期待値^2 標準偏差=分散^0.5 これをExcelで計算しました。 ポアソンなら離散的ですのでこの式で間違いないと思いますが、連続の正規分布に使えるかどうか。。。 そこらへんが#2(#4)さんとの結果の違いかもしれません。

kumatta-
質問者

お礼

非常にスマートな回答、有難うございました。 内容は私でも理解できそうなので、実際にエクセルで計算してみたいと思います。 実は、もともとポアソン分布を対象にしていました。 皆さん、非常に早く親切な回答なので、心から感謝します。

その他の回答 (4)

noname#14952
noname#14952
回答No.4

プログラムを見直して高速化し、標準正規分布で N = 65536 の場合について1万試行の計算を3回行ったところ、それぞれの回で得られた標準偏差の推定値は 0.271376, 0.271439, 0.271327 でした。 Sub NormDist65536() Dim i As Integer Dim j As Long Dim data(1 To 10000) As Double Dim random, max As Double For i = 1 To 10000 max = 0 For j = 1 To 65536 random = Rnd() Do While random > 0.999999999999999 'エラー回避 random = Rnd() Loop If random > max Then max = random End If Next j data(i) = Application.WorksheetFunction.NormSInv(max) Next i Cells(1, 1) = Application.WorksheetFunction.StDev(data) End Sub

kumatta-
質問者

お礼

マクロを書き直していただき、有難うございました。 正規分布の場合、だいぶ標準偏差は小さくなるようですね。自分でもマクロを試してみようと思います。 非常にすばやい回答で感動しました。

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.3

とりあえず、母集団が(0,1)の一様分布だとすると、N個サンプリングしたときの最大値、最小値の分布は、それぞれ、ベータ分布 β(N,1)、β(1,N)に従います。 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/beta/beta.htm 実際には、母集団は、一様分布ではなくて、正規分布あるいはポアソン分布ですので、一様分布から、これらの分布に変換すれば、よいです。 正規分布(あるいはポアソン分布)の累積密度関数をの逆関数をF(z)とします。(いわゆるパーセント点と呼ばれるやつです。) Xが一様分布(0,1)にしたがう確率変数のとき、F(X)は、正規分布(あるいはポアソン分布)になります。 というわけで、正規分布(あるはポアソン分布)に従う母集団から、N個サンプリングしたデータの、最大値と最小値は、 それぞれ確率分布、 F(β(N,1)) , F(β(1,N)) にしたがうことになります。平均、標準偏差も、ここから求まります。

kumatta-
質問者

お礼

感動しました。回答有難うございます。 すばらしいです。ベータ関数は始めて知りました。 逆関数にして代入するところを、まだ感覚的に理解できていませんが、じっくり考えたいと思います。

noname#14952
noname#14952
回答No.2

式で表すことはできないのではないかと思いますので、シミュレーションを行ってみました。ポアソン分布の場合は難しいので、正規分布の場合だけです。簡単のため、標準正規分布(標準偏差1)としました。 Nが1から5までの場合(N = 1は確認のため)について、Nサンプル中の最大値を得る試行を5,000回行い、そこから標準偏差の推定値を求めました。これを各Nについて10回繰り返して平均を求めたところ、N = 1, 2, 3, 4, 5に対して、得られた値はそれぞれ 1.00, 0.82, 0.75, 0.70, 0.67 となりました。標準正規分布以外の場合は、これらにもとの分布の標準偏差をかけたものが近似値になると思います。用いたプログラム(Excelのマクロ)は以下の通りです。「Const trialCount As Integer = 」のあと の数字が、Nです。 Sub sample() Dim data(1 To 5000) As Double Dim i, j, k As Integer Const trialCount As Integer = 2 Dim sampleSet(1 To trialCount) As Double For i = 1 To 10 For j = 1 To 5000 For k = 1 To trialCount sampleSet(k) = Application.WorksheetFunction.NormSInv(Rnd()) Next k data(j) = Application.WorksheetFunction.Max(sampleSet) Next j Cells(i, trialCount) = Application.WorksheetFunction.StDev(data) Next i End Sub

kumatta-
質問者

お礼

わざわざマクロを作成していただき、有難うございました。 やっぱり、数学的に解くのは難しいですかね。 Nが多くなると最大値の標準偏差が小さくなるのは、間違いないようですね。私が対象としているのはN=65536の場合ですから、標準偏差は極めて小さくなると予想してるのですが。

回答No.1

>ある母集団は、平均値がAの正規分布又はポアソン分布であり、その標準偏差は√Aで表されます。 >N個サンプリングしたデータについて、最大値と最小値の標準偏差はどのように表されるでしょうか。 この2つの文章から、標準偏差について基本的な誤解をしていると思われますが、そのことについてお気づきでしょうか?  

kumatta-
質問者

補足

説明足らずでした。申し訳ありません。 N個サンプリングした時点で、最大値と最小値は決定します。 次に、それと独立にN個サンプリングした場合、別途、最大値と最小値が決定し、それは必ずしも最初のサンプリング時の値とは一致しません。 N個サンプリングすることを繰り返した場合、最大値と最小値の分布が得られると思います。そのばらつき(=標準偏差)が知りたいです。

関連するQ&A

  • t分布とχ2分布は合わせて考えていいのか?

    正規分布に従うであろう母集団から ある20個のサンプルより取ったデータの平均値と標準偏差を求め、 その平均と標準偏差より 信頼区間95%で、t分布より平均は、9.5~10.5と求められ、 信頼区間95%で、χ2分布より、偏差は、1.2-1.8と求められたとします。 この場合、母集団のデータは、下記より 最小値=平均の最小値 - 偏差の最大値 :9.5-1.8=7.7 最大値=平均の最大値 - 偏差の最大値 :10.5+1.8=12.3 7.7 ~ 12.3 の間に95%信頼区間で入ると、考えてよいのでしょうか? ダメな場合は、そもそも20個のサンプルより母集団が正規分布になるとすると、その最大値最小値は、95%信頼区間で、どのような値になると考えればよろしいのか、どなたかご存知でしたら御教授ください。 どのような文献に載っていそうかなどの情報でも構いません。

  • 最大値分布の作成

    最大値分布の作成 最大値分布に関する質問です。ある母集団からN個サンプルをとることを永遠に繰り返した時の、その最大値の分布を導出するのはどうしたらよいですか?Nが2の時、4の時、8の時と分けて3つの異なる分布を得たいです。 例えばある母集団の分布(平均6.3、標準偏差1.3)があり、ここから4個サンプルを取り出すとします。これが(5,9,6,4)だったとするとこの中の最大値は9です。このサンプリングを無限に行う時の最大値の分布はどのように計算できますか? この最大値の分布は1回のサンプル数の大きさに比例して大きくなると考えられますが、サンプル数が2の時、4の時、8の時の最大値分布の平均と標準偏差を求めたいです。 順序統計量の最大値の確率分布を用いるのかと思い調べたのですがよくわかりません。どうか知恵をお貸しください。よろしくおねがいします。

  • Xバーの分布について

    ある標本(xi:i=1,・・・,n)の母集団が平均値μ、標準偏差αの正規分布である。この母集団からn個の標本を抽出してその平均Xバーを求めたとき、この分布はどのような分布となるか説明せよ。という問題ですがわかる方いますか?

  • 統計学について質問です。

    統計学について質問です。 統計学が全然わかりません。 正規分布、とT分布の違いがよくわかりません。 正規分布が十分に大きいn個のサンプルを取り出す。母集団の平均、標準偏差がわかっている。 これってどういうときに使うのでしょうか? そもそも母集団平均がわかっている状況って存在するのですか?? 正規分布、T分布、F分布、ガウス分布、ポアソン分布などいろいろありますが、何が何だかわかりません。理工系の統計術として最低限知っておきたいので、わかりやすくお願いいたします。

  • 最大値の平均と標準偏差

    仕事で解が解けずに悩んでいます。助けてください。 平均値E(1)~E(N) 標準偏差V(1)~V(N)の正規分布の確率分布を持つN群の独立した事象があるとします。各集団のn数は等しく十分に大きいものとします。 このときに各集団から1つづつ任意にサンプルをNコ取り出して、その最大値がどのような確率分布(平均と標準偏差)になるか、一般解を求めたいと考えています。 もっとも単純な例として、等しい分布の集団から2コ取り出す例で 平均:E(1)=E(2)=150 標準偏差;V(1)=V(2)=50とおいてn=5000で実数検証してみると、最大値の分布は E=178 V=40ぐらいになりました。 処理時間ばらつきを持つ工程をNコ連続配置したときにスループットがどのようになるかの推定が目的です。

  • 正規分布近似について

    たとえば、二項分布B(n,p)について、np≧5かつn(1-p)≧5なら正規分布近似できるとか、ポアソン分布Po(λ)についてλ>1000ならば、平均λ、標準偏差√ λの正規分布の非常によい近似であるとか言われますが、その他の分布についてもいつ正規分布で近似できるか、などというよく知られた判定基準はあるのでしょうか? 中心極限定理は確かに有用ですが、nがどれぐらい大きくなれば正規分布にどれぐらい近いか、ということについては何の情報もありません。もちろん分布によってその収束が大きく異なるからでしょうが、収束の速さについての一般的な理論というのはあるのでしょうか?統計の応用という意味では重要な問題のように思うのですが。

  • 正規分布の判断方法

    ばらつきのあるデータをサンプリングして入力します。ある一定量取り込んだ値が正規分布になっているか(ヒストグラムを作成し見た目で判断するのではなく。)判断したいのですが、どの様な計算で正規分布になっているかの判断方法を教えて下さい。データの平均値、標準偏差を計算する事は可能です。 宜しくお願い致します。

  • 統計の代表値から正規分布かどうかを知る

    タイトル通りですが、統計の代表値(平均 中央値 最大最小値 尖度 歪度)からその集団のデータが正規分布しているかどうかをしるにはどうしたらよいでしょうか??

  • 正規分布の標準化について

    たとえば、Aという母集団で、変数X(あるテストの点数)は、正規分布(μ1、σ1^2)に従うとします。 Bという母集団は、変数Y(おなじテストの点数)は、正規分布(μ2、σ2^2)に従うとします。 ここで、母集団AとBに関わらずテストの点数の偏差値を比べることができるためには標準化を行えばいいわけですよね? Xについては、標準化を行い、(X-μ1/σ1)が標準正規分布(0,1)に従い、 Yについては、標準化を行い(Y-μ2/σ2)が標準正規分布(0.1)に従う。 として、(X-μ1/σ1)と(Y-μ2/σ2)を比較してどちらが偏差値が上か比較することは可能ですよね??? 私の考え(解釈)は合っていますか?どこか間違っていますか? 何か自信がないので訂正などあればアドバイスお願いします。

  • 分布の検定

    正規分布に従う母集団(母平均μ,母分散σ^2) からn個の標本を取り出したとします。 その標本の分布は論理的に標本平均μ,標本分散σ^2/n に従った分布になると思います。 そこで、実際にn個抽出し、標本平均と標本分散を算出しました。 もちろん、論理的な数値と実際の数値は異なります。 けれど、この実際に出した数値が信頼できる(論理的な数値に近い)と いうにはどのような検定を行えばよいのでしょうか??