• ベストアンサー
  • 暇なときにでも

不偏分散の分母の n-1

標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

共感・応援の気持ちを伝えよう!

質問者が選んだベストアンサー

  • ベストアンサー
  • 回答No.1
  • sanori
  • ベストアンサー率48% (5664/11798)

こんばんは。 >>>母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 >>>標本分散では自由度が減らず分母が n-1 ではなく n になる。 >>>この考えは間違っていないでしょうか? 間違っていません。 正しいです。 ただし、「標本分散」は標本の平均を用いて計算しますので、 母集団の平均を用いて計算した分散より小さくなることに注意してください。 (だから、「標本分散」は、あまり有用でなく、分母を n-1 とした不偏分散が使われるのです。) >>> 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、 40人がクラス全員なのであれば、それは母集団と言います。 >>>上式より母平均(?)を求めることができます。 そうです。 >>>母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 >>>これは結局不偏分散を求めているのでしょうか? いえ。 不偏分散は母分散の推定値ですから、分母を n-1 にする必要があります。 しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 情報が40個あります。 ですから、分母を n-1 (=39) にする必要がありません。 以上、ご参考になりましたら。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご返答ありがとうございます。 一つわからない点があります。 >しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 >情報が40個あります。 これは不偏分散のときも同じではないでしょうか。 (普通こんなことはしませんが)40個中39個のデータを抽出した場合は分母が n-1 になって、 40個中40個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。

その他の回答 (4)

  • 回答No.5
  • sanori
  • ベストアンサー率48% (5664/11798)

>>>ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。?? ? nを増やせばそうなるかということですか? だとすれば、自明と言えるかどうかはわかりませんが、近づくというのは正解です。 具体的な n と n-1 を挙げれば、 10で割るのと9で割るのとでは、約10%の差が出るのに対し、 1000で割るのと999で割るのとでは、約0.1%の差しか出ません。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

いろいろと丁寧なご返答ありがとうございました。 よく考えてみたいと思います。

  • 回答No.4
  • sanori
  • ベストアンサー率48% (5664/11798)

>>>不偏分散で使うのは母平均ではなく標本平均だと思います。 そうです。 >>>標本平均と不偏分散は既知なので不足している情報はないように思えます。 いいえ。 母平均と母分散は未知ですから、限られた標本数から母集団の何かを表すときには、情報が少ないことになります。 母集団の全データがわからなくても、 仮にもしも、母平均だけという1個の情報を足すことができれば、 前回述べた「偏り」がなくなり、 母平均を使って計算した標本の分散は、そのまま母分散の推定値となります!!!!! ところが、母平均は未知であるわけです。 抜き取った標本を新たに母集団のように扱うという考え方であれば、 当然、情報は不足していることにはなりませんよ。 そうであれば、標本分散(分母はn)すればよいでしょう。 しかし、標本分散という概念は、あくまでも標本だけのことを表すものであって、 母集団を表すものではありません。 よって、使い道がありません。 有用性があるのは、母集団の分散の推定値(=不偏分散)です。 標本のデータが既知ということは、 ・標本平均は既知。 ・母集団の平均は未知。 ・標本分散は既知。(分母はn) そして、 ・母集団の分散は未知であるが、その推定値は不偏分散である。(分母はn-1) ということです。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご丁寧なご返答ありがとうございます。 ちょっと頭がこんがらがっていますので、時間をかけて考えてみたいと思います。 ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。?? なんか混乱してきました。

  • 回答No.3

その式は、母集団が無限に大きい場合の式です。 有限(N個)の母集団から、ダブりがないようにサンプルを抽出した場合の不偏分散は、別の式になります。 ※確か、母集団が無限の場合の、(N-1)/N倍とかだった気が。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご返答ありがとうございます。

  • 回答No.2
  • sanori
  • ベストアンサー率48% (5664/11798)

お礼のお言葉をありがとうございました。 >>> 一つわからない点があります。 >しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、 >情報が40個あります。 これは不偏分散のときも同じではないでしょうか。 (普通こんなことはしませんが)40個中39個のデータを抽出した場合は分母が n-1 になって、 40個中40個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。 母集団がたとえば1000個であって、そこから40個をサンプリングするとき、 母集団の平均は未知です。サンプルの平均は既知です。 そして、 母集団の分散は未知です。サンプルの分散は既知です。 サンプルの分散を求めるときは、母集団の平均値は使わず、サンプルの平均値を使います。 そうすると、 サンプルの分散 < 母集団の分散 となります。 なぜならば、個々のサンプルの値は、 母集団の平均値よりサンプルの平均値の近くに偏っているからです。 ですから、 サンプルの分散が‘ずるく’小さい値になっている逆ハンデを解消するには、 母集団の平均値を使えばよいということになりそうです・・・・・ ・・・・・が、しかし、 サンプリングの場合は母集団の平均値はわかりません。 それは、サンプルの分散の計算を、母集団の分散の計算と比べると、 「母集団の平均値」という情報が1つ足りないということを意味します。 ですから、母分散の推定値である不偏分散では、分母となるサンプル数のnから1を引かないといけないのです。 逆に言えば、 全体の値がすべてわかっている場合、不足している情報はないので、 分散を求めるときに分母から1を差し引く必要がないということです。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご返答ありがとうございます。 >サンプリングの場合は母集団の平均値はわかりません。 ここまではわかったのですが、 >それは、サンプルの分散の計算を、母集団の分散の計算と比べると、 >「母集団の平均値」という情報が1つ足りないということを意味します。 ここがわかりませんでした。 おっしゃる通り、母集団の平均値という情報が1つ足りませんが、 不偏分散で使うのは母平均ではなく標本平均だと思います。 標本平均と不偏分散は既知なので不足している情報はないように思えます。

関連するQ&A

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 不偏分散の (n-1)で割る理由、、、

    分散の計算では、nで割る母分散と、(n-1)で割る不偏分散がありますが なぜ(n-1)で割るのか、いまいち直感に訴える説明に出会っていません。 たいていの本では、天下り式に「(n-1)で割る」とだけしか書いて いません。たまに親切な本では計算式に平均値が入っているので自由度は nから1だけ少なくなる云々とありますが、自由度が何故1減らなければ ならないのか、いまいち理解出来ません。 もう少し高度な本になると、期待値Eやら分散Vやらが出て来て、 不偏統計量云々の「ややこしい」説明が出て来ますが、これも直感に 訴えかける説明ではありません。 数物系出身ながらお恥ずかしい質問ですが、いざ自分に問いかけてみると 納得できる説明が出来ません。「なるほど!」というご説明をいただけると 幸いです。よろしくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 不偏分散での「すべての可能な標本・・」とは?

    数学を趣味で勉強してる者です よろしくお願いします。 解説書に「すべての可能な標本の不偏分散の平均は、母分散に一致する」とあり、 例えば 母集団の大きさが、5  標本の大きさが、2 のときの、すべての可能な標本には、5*5=25通りとあります。 と言うことは、この場合の2つの標本は、同じもの(重複している)も、ありえるという前提と 解釈すればいいのでしょうか。 つまり、標本の採り方は、必ず元に戻すが基本なのでしょうか? またどうしても、2つの標本が必ず異なる(標本を戻さない)場合は、 不偏分散の考え方とは異なる、別の考え方があるのでしょうか? 理解不十分で、すみません、アドバイスお願いします。

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • 測定値のばらつきにおける分散

    物理実験で測定を行い誤差評価において測定値のばらつきを求める際に、分散は   (分散)= Σ(xi-x)^2/n もしくは  (分散)= Σ(xi-x)^2/(n-1) のどちらかを使って算出するのだと思うのですが、使い分けがよくわかりません。 私が大学から与えられたテキストには「測定数nが大きくないときには分散として (分散)= Σ(xi-x)^2/(n-1)を用いる方が良い」と書いてありました。 この測定数が大きくないとは、どの程度を指すのでしょうか? たとえば、測定データが10個程度のならばどちらの式を使うのでしょうか? また、最初に提示した二つの式は「標本分散」や「不偏分散」といった標本の分散を 求めるものですが、そもそも実験で得られる測定データというのは「標本」として扱うのでしょうか? 全体の中から一部を取り出してるわけではないので、測定データは「標本」ではなく 「母集団」のように思えてしまいます・・・。 回答よろしくお願いいたします。

  • 正規母集団の標本平均と標本分散の独立性

    X_1,…,X_nを正規母集団から取った大きさnの標本とします。 簡単のため、母集団の平均は0、分散は1と仮定します。 このとき標本平均X=(X_1+…+X_n)/nと 標本(不偏)分散s=((X_1-X)^2+…+(X_n-X)^2)/(n-1) を考えます。 Xは平均0、分散1/nの正規分布に、 (n-1)sは自由度n-1のχ^2分布に従うと思いますが、 このXとsの独立性の証明はどうやったらよいのでしょうか? 結合分布の計算にX_i^2が混じるので大変に面倒です。 非芯χ^2分布の特性関数の計算などを使うのでしょうか。 方針は立つものの、あまりに煩雑な計算になりそうで尻込みしています。 簡便な計算法をご存知であれば教えていただきたく思います。 よろしくお願いします。

  • 不偏分散、ガンマ分布、そして不偏推定量

    X1..Xnは独立で標準分布、期待値μ、分散σ^2。不偏分散s^2=1/(n-1) Σ(Xi - X')^2, X'=1/n ΣXi, で iは1からnまでです。X'はガンマ分布Γ(α、λ)に従い、α=(n-1)/2, λ=(n-1)/(2*σ~2)です。 (a) ガンマ分布を利用して、s^2がσ^2の不偏推定量であることと、その分散を求めよ。 (b) T(k)=k*s^2、kは定数 を考えます。その際に、T(k)の偏り と 分散をσ^2の推定量で表せ。そして、T(k)の 誤差の平方は(MSE)を最小値にするkを求めよ。 と言う問題があります。 最初にs^2=1/(n-1) Σ(Xi^2 - n X'^2)と表し、E(X')=σ^2と言う準備はできたのですが、それ以降さっぱりここ3,4日間考えてますがわかりません。回答は自分で導きたいと思ってますので、アドバイスをいただけないでしょうか?