• ベストアンサー

異なる分散の分布が合体して出来た分布の分散はどうなりますか

統合による影響を考えています。 以下のような問題を考えているのですが、 詳しい解説をよろしくお願い申し上げます。 ある変数に対する分散が大きい分布を、分布Aとします(分散をσ_A)。 分散が小さい分布を分布Bとします(分散をσ_B)。 これら二つの分布が合わさってできあがった分布を分布Cとします (分散をσ_C)。 この場合、 できあがった分布Cの分散(σ_C)を、 σ_Aとσ_Bで表したいのですが、どうしたらよいでしょうか。 分布規模が同じ場合と、 規模が異なる場合(分布Aの方が分布Bより大きい)の二つ を求めたいのですが、どうしたらよいでしょうか。 このような問題を考える際、 どのような本を勉強すればよいでしょうか。 分散を詳しく解説してある本もご紹介頂けますと、 重ねてありがたく存じます。 よろしくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

サンプルの集合Aについて、サンプル数をN_A、平均をm_A、サンプルの集合Aに属するサンプルをa[j](j=1,2,...,N_A)と書くことにして、 m_A×N_A = Σ[a[j]] (Σ[ ]はj=1,2,...,N_Aについての総和) であるとしましょう。ご質問では「分散」の意味がちょっと曖昧ですが、サンプルの分散のことであると解釈し σ_A×N_A = Σ[(a[j]-m_A)^2] (Σ[ ]はj=1,2,...,N_Aについての総和。なお「^2」は二乗のこと) であるとしましょう。  サンプルの集合Bについても同様です。  まず、サンプルの集合AとBの合併集合Cについて、平均をm_Cと書くと m_C×(N_A+N_B)=Σ[(a[j]]+Σ[b[j]](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和) ところが Σ[a[j]]=m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和) Σ[b[j]]=m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和) なのだから m_C×(N_A+N_B)=m_A×N_A + m_B×N_B なので m_C= (N_A×m_A + N_B×m_B)/(N_A+N_B) です。つまり、m_A, m_B, N_A, N_Bだけからm_Cが計算できました。  分散についてはちょっとやっかいです。 (a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A) だから、 σ_A×N_A = Σ[(a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A)] = Σ[(a[j]-m_C)^2]+2Σ[a[j]×(m_C-m_A)]-Σ[m_A×(m_C-m_A)] = Σ[(a[j]-m_C)^2]+2(m_C-m_A)×Σ[a[j]]-[m_A×(m_C-m_A)]×N_A (この計算では、 pがjによらない定数であるとき、Σ[p×a[j]]=pΣ[a[j]]であることと pがjによらない定数であるとき、Σ[p]=p×Σ[1]=p×N_Aであること を使っています。) Σ[a[j]]=m_A×N_A なのだから σ_A×N_A =Σ[(a[j]-m_C)^2]+2(m_C-m_A)×m_A×N_A-[m_A×(m_C-m_A)]×N_A =Σ[(a[j]-m_C)^2]+(m_C-m_A)×m_A×N_A 従って、 Σ[(a[j]-m_C)^2]=σ_A×N_A + (m_A-m_C)×m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和) です。  同様にして、 Σ[(b[j]-m_C)^2]=σ_B×N_B + (m_B-m_C)×m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和) が言えますから、 σ_C×(N_A+N_B)=Σ[(a[j]-m_C)^2]+Σ[(b[j]-m_C)^2](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和) =σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B  なので集合Cの分散σ_Cは σ_C = (σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B)/(N_A+N_B) です。つまり、σ_A, σ_B, m_A, m_B, N_A, N_Bだけからm_Cが計算できました。

masatoji
質問者

お礼

計算を確認したところ、 同値であることがわかりました。 お騒がせして、すいませんでした。ありがとうございました。

masatoji
質問者

補足

とても丁寧なご回答をいただき、ありがとうございます。 なるほどと思っております。 ただ、 > 分散についてはちょっとやっかいです。 >(a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 >= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A) とあるのですが、 この部分は、 (a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C×(m_C-m_A)+(m_C-m_A)^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C^2+2m_A・m_C+m_C^2-2m_A・m_C+m_A^2 = (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_C^2+m_A^2 と計算したのですが、どうでしょうか。 再度、目を通していただけますとありがたく存じます。 よろしくお願い申し上げます。

その他の回答 (4)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

ANo.4へのコメントについてです。  すいませんね。stomachmanは計算間違いの常習犯でして…  ご自分で計算がお出来になるのなら、試しに数値を入れて検算なさってみれば、ご質問なさるには及ばないかと思います。

masatoji
質問者

お礼

エクセル等で検証するというのも一つの手だと、気付きました。 少々甘えすぎてしまい、大変失礼しました。 役立つご示唆をいただき、心より感謝しております。 ありがとうございました。

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.3

あ~, なんとなくわかった. たぶん #2 は勘違いしてます. 「2つの集団があって, それぞれの集団内では平均や分散が分かっていると仮定して, 全体をまとめた 1つの集団に対して分散がどうなるか」ということですね. だとしたら, 双方の平均 (の差) も影響してきますよ. 例えば「集団A は 90個の標本からなりその値はすべて 0」「集団B は 10個の標本からなりその値はすべて 1」という状況を考えてみます. それぞれの集団内では分散は 0 になりますが, これらをまとめた (100個の標本からなる) 集団C の分散は 0 にはなりません (0.3 かな?). ということで, 挙げられた値のみからでは求まりません. 地道に偏差の 2乗和を求めに行くことになると思います.

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

確率変数 Z = X+Y においてそれぞれの分散を Var(Z) などと表すことにします. このとき, X と Y が独立なら Var(Z) = Var(X) + Var(Y) です. 独立でないときには X と Y の共分散 (もしくは同じことだが相関係数) が式に入ってきます. この辺は初歩クラスの統計の本にあるような気がします. 蛇足ですが, 普通「σ」は標準偏差を表すのではないかな.

masatoji
質問者

補足

早速ご回答いただき、ありがとうございます。 規模、平均が等しく、独立である場合は、 回答頂けましたように、Var(Z)=Var(X)+Var(Y)になるかと思います (標準偏差の2乗が分散かと思いますので、σ^2と表記できるかと思います。そこで、単純化のため上記のような表記にさせていただきました。誤解を招くような表記をしてしまい、失礼いたしました)。 ありがとうございました。 ただ、その応用の規模(この表記は正しくはないと思うのですが… 分布を形成するデータ数をイメージしています) が異なる場合はどうなるでしょうか。 データ数が100個の分散が0.1で、データ数が10個の分散が2.0があり、 この二つの分布が合わさったとき、 その分散が2.1ではおかしいような気がするのですが…。 私の考え方は間違っていると思うのです。 教えていただけましたら、ありがたく存じます。 よろしくお願い申し上げます。

  • my3027
  • ベストアンサー率33% (495/1499)
回答No.1

たしか平均値がすべて同じ場合これだったかと・・・。 σ_C^2=σ_A^2+σ_B^2 参考書は確率、統計関連の書籍がいいと思います。

参考URL:
http://home.a02.itscom.net/coffee/tako08Annex.html
masatoji
質問者

お礼

ご回答くださり、ありがとうございました。 確かに、同じ分布の場合、上記のようになるかと思います。 ありがとうございました。

関連するQ&A

  • 一様分布の分散について

    Xは2項分布(5,1/10)に従い、Yは(0,c)上の一様分布に従う。 V[X]=V[Y^2]のときcの値を求めよ。(Vは分散です) という問題なのですが Yが(0,c)上の一様分布に従う、ということなので Y^2は(0,c^2)上の一様分布に従うと考え問題を解いていっているのですが 解答と一致しません。 この考え方自体が間違っているのかどうか分かる方教えていただけたら、 と思います。 また、考え方自体は合っているというのならば解答に載っている答えが 間違っている、という可能性もあるのでこの考え方の基に解いていけば cはいくらになるのかを教えていただければ幸いです。 よろしくお願いします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 分散が1でない場合のカイ二乗分布?

    一般的な教科書で定義されているカイ二乗分布は、平均ゼロ、分散1の正規分布に従う確率変数の二乗和が従う分布として導出されています。では、分散がσ2のような一般的な場合はどうなるのでしょうか? このときのカイ二乗分布の分散だけでもわかるとよいのですが・・・、よろしくおねがいします。(この内容が記されている文献やHPの情報でも大歓迎です)

  • 単回帰係数の分散の分布

    単回帰係数の分散は V(b^)=σ^2/Σ(xi-mean(x))^2 カイ2乗分布の比ですからF分布ですよね. それでは原点比例式の係数の分散 V(b^)=σ^2/Σxi^2 は何分布でしょうか. 分母が非心カイ2乗分布だから非心F分布でしょうか? また,この場合,V(b^)の 平均の期待値と 分散の期待値は何になるんでしょうか?

  • 多次元正規分布の分散共分散行列について

    p次元確率変数ベクトル X(i) が p次元正規分布 N(0,Σ) に従っているとき p次正方行列 A で X を一次変換した Y (Y=AX) が従う多次元正規分布の分散共分散行列はどうやって求めればよいでしょうか? 考え方だけでも良いのでおしえてください。 お願いします。

  • 確率変数?分散?確率分布?

    こんばんは!現在浪人生(一浪)です。問題集をやっていて「確率変数」「確率分布」「分散」という言葉が出てきましたが学校で習ってわなかったのでよくわかりません。この言葉の意味について詳しく教えてください。お願いします。

  • 分布収束の問題

    こんにちは。元日ですが、具体的な設定における分布収束の問題についてご質問致します。 nを整数(n>4)、Xを一次元の確率変数、Qを自由度nの逆カイ二乗分布にしたがう確率変数、Cを正の定数とします。また、Xは以下のように構成されているとします。 X~nCQ 【Qにnと定数Cをかけている】 なお、QとXの期待値と分散はそれぞれ以下のようになります。 Qの平均: 1/(n-2) Qの分散: 2/{(n-2)^2×(n-4)} Xの平均: nC/(n-2)【n→∞のときCとなる】 Xの分散: 2×n^2×C^2/{(n-2)^2×(n-4)}【n→∞のとき0となる】 以上の設定において、nを大きくしたとき、√{n}×(X-C)の極限分布と漸近分散を求めたいのですが、√{n}×(X-C)が確率変数列の和という形になっていないので中心極限定理等が使えず、求め方が分からない状況となっています。 nを大きくしたとき、√{n}×(X-C)は分布収束するのでしょうか。また、分布収束する場合は、極限分布はどのように求めたらいいのでしょうか。 よろしくお願い致します。

  • 統計学 分散の加法性と正規分布の一次結合

    分散の加法性と正規分布の一次結合って矛盾していませんか? 正規分布に従う確率変数X1,X2がそれぞれ統計的に独立である場合、それぞれの母分散σ1^2,σ2^2の和σ^2を考えます。 正規分布の式に直接あてはめ一次結合を考えると以下の式が成り立ちます。 σ^2=σ1^2+σ2^2 しかし、母分散の定義式に従って計算すると以下の結果になります。 σ^2=σ1^2+σ2^2+2*σ12 ここで、σ12の共分散です。統計的に独立であっても共分散が0である保証はないので、下の式のほうが厳密であるように思います。しかし、QC(品質管理)検定の問題では無視されており、一次結合に至っては0です。なぜこのような矛盾が生じるのでしょうか?

  • 二項分布に従う確率変数の平均と分散

    Xは二項分布B(n,p)に従う確率変数とする。 Y=e^Xとするとき,Yの平均と分散を求める。 わかりません・・・ 宜しくお願いします

  • 分布の質問です。

    分布の問題がわからなくて困っています。 一つ目 被験者6人にテストを2回実施して個人ごとに成績を比較した結果つぎのようになった ++-+++ 「+」と「-」はそれぞれ成績が向上した結果と低下した結果を表す。 (1) 二回目のテストの成績は、一回目の成績よりも平均的に良くなったかどうかを確かめたい。どのような種類の分布が利用できるか。 (2)差が内と言う仮説の検定を片側で行った場合のp値を求めよ。 2つ目 変数yはN(2.2)の分布に従うとする。 (1)-2yはN(a.b)に従う。aとbを求めよ。 (2)3y-1の分散を求めよ。 (3)yの分布の名称を記せ。 (4)この分布から独立に3つの観測値を得た。この平均の標準偏差を求めよ。 (5)yが2より大きい確率を求めよ。 問題が多くて申し訳ございません。どなたか回答よろしくお願いします。