• ベストアンサー

1つデータを足した不偏分散の計算

・n-1個のデータの不偏分散 ・n-1個のデータの平均 が分かっている状態で、データを1つ追加します。 このときデータを追加した後の n個のデータの不偏分散は計算できますか? 自分で計算して出してみたんですが、 どっかで計算ミスしてるのか実際の値と合いません。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

・n-1個のデータの不偏分散=V[n-1] ・n-1個のデータの平均=E[n-1] ・個々のデータをa[1],…,a[n-1] ・1つ追加するデータをa[n] とすると、 ・a[1]+…+a[n-1]=(n-1)・E[n-1] ・(a[1]-E[n-1])^2+…+(a[n-1]-E[n-1])^2  =(a[1]^2+…a[n-1]^2)-(n-1)・E[n-1]^2  =(n-2)・V[n-1] が成立。これより、 n・E[n]=(n-1)・E[n-1]+a[n] (n-1)・V[n]=(n-2)・V[n-1]+(n-1)・E[n-1]^2+a[n]^2-n・E[n]^2 上の式からE[n]を求めて下の式に代入すれば、 v[n]を、V[n-1],E[n-1],a[n]およびnで表せます。

zigzagfire
質問者

お礼

どうもありがとうございます。 検算したらぴったりでした。 自分がどこを間違えてたのか気になりますが締めますね。

関連するQ&A

  • 不偏分散の (n-1)で割る理由、、、

    分散の計算では、nで割る母分散と、(n-1)で割る不偏分散がありますが なぜ(n-1)で割るのか、いまいち直感に訴える説明に出会っていません。 たいていの本では、天下り式に「(n-1)で割る」とだけしか書いて いません。たまに親切な本では計算式に平均値が入っているので自由度は nから1だけ少なくなる云々とありますが、自由度が何故1減らなければ ならないのか、いまいち理解出来ません。 もう少し高度な本になると、期待値Eやら分散Vやらが出て来て、 不偏統計量云々の「ややこしい」説明が出て来ますが、これも直感に 訴えかける説明ではありません。 数物系出身ながらお恥ずかしい質問ですが、いざ自分に問いかけてみると 納得できる説明が出来ません。「なるほど!」というご説明をいただけると 幸いです。よろしくお願いします。

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 分散が変わらないように、データを1個加えるには

    n個のデータがあって、その平均は"m"、分散は"σ^2"であるとします。 分散(標準偏差)が変わらないように、1個のデータを加えるにはどんなデータを加えればよいのでしょうか? "n"と"m"と"σ"で表せるのでしょうか?

  • 不偏分散、ガンマ分布、そして不偏推定量

    X1..Xnは独立で標準分布、期待値μ、分散σ^2。不偏分散s^2=1/(n-1) Σ(Xi - X')^2, X'=1/n ΣXi, で iは1からnまでです。X'はガンマ分布Γ(α、λ)に従い、α=(n-1)/2, λ=(n-1)/(2*σ~2)です。 (a) ガンマ分布を利用して、s^2がσ^2の不偏推定量であることと、その分散を求めよ。 (b) T(k)=k*s^2、kは定数 を考えます。その際に、T(k)の偏り と 分散をσ^2の推定量で表せ。そして、T(k)の 誤差の平方は(MSE)を最小値にするkを求めよ。 と言う問題があります。 最初にs^2=1/(n-1) Σ(Xi^2 - n X'^2)と表し、E(X')=σ^2と言う準備はできたのですが、それ以降さっぱりここ3,4日間考えてますがわかりません。回答は自分で導きたいと思ってますので、アドバイスをいただけないでしょうか?

  • 標本分散と不偏分散の使い分けについて。

    標本分散と不偏分散の使い分けについて。 私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。 自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。 標本分散と不偏分散はどのように使い分ければいいのでしょうか。 例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか? ご存知の方、教えてください。 よろしくお願いします。

  • 分散値の計算方法

    統計に関する質問です。 平均値 a, 分散値 d のサンプルを n 個 まとめた場合の 分散値はそれぞれどのように計算するのでしょうか? よろしくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。