不偏分散の分母の n-1

2009/01/12 16:19

このQ&Aのポイント

不偏分散の計算において、分母はn-1となります。
標本平均と不偏分散の関係は、自由度の減少により分母がn-1となることです。
母平均は既知の値として使われるため、不偏分散の式では不要です。

mitsuruj
お礼率89% (170/191)

数学・算数
回答数5
ありがとう数5

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sanori
ベストアンサー率48% (5664/11798)

2009/01/12 17:43 回答No.1

こんばんは。＞＞＞母平均は標本から求めるものではなく（それは標本平均になる）、既知であることが前提であるため上式は不要であり、＞＞＞標本分散では自由度が減らず分母が n-1 ではなく n になる。＞＞＞この考えは間違っていないでしょうか？間違っていません。正しいです。ただし、「標本分散」は標本の平均を用いて計算しますので、母集団の平均を用いて計算した分散より小さくなることに注意してください。（だから、「標本分散」は、あまり有用でなく、分母を　ｎ－１　とした不偏分散が使われるのです。）＞＞＞例えば、母集団をクラス４０人のテストの点数とすると（これは母集団と言わない？）、４０人がクラス全員なのであれば、それは母集団と言います。＞＞＞上式より母平均（？）を求めることができます。そうです。＞＞＞母平均が４０個のデータに独立でないため、分散の自由度は１減らす必要がある気がします。＞＞＞これは結局不偏分散を求めているのでしょうか？いえ。不偏分散は母分散の推定値ですから、分母を　ｎ－１　にする必要があります。しかし、４０個すべてのデータから得られた母平均や母分散は４０個のデータと独立ではありませんが、情報が４０個あります。ですから、分母を　ｎ－１　（＝３９）　にする必要がありません。以上、ご参考になりましたら。

質問者

お礼 2009/01/12 19:06

ご返答ありがとうございます。一つわからない点があります。＞しかし、４０個すべてのデータから得られた母平均や母分散は４０個のデータと独立ではありませんが、＞情報が４０個あります。これは不偏分散のときも同じではないでしょうか。（普通こんなことはしませんが）４０個中３９個のデータを抽出した場合は分母が n-1 になって、４０個中４０個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。

その他の回答 (4)

sanori
ベストアンサー率48% (5664/11798)

2009/01/13 03:03 回答No.5

＞＞＞ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。？？？ｎを増やせばそうなるかということですか？だとすれば、自明と言えるかどうかはわかりませんが、近づくというのは正解です。具体的な　ｎ　と　ｎ－１　を挙げれば、１０で割るのと９で割るのとでは、約１０％の差が出るのに対し、１０００で割るのと９９９で割るのとでは、約０．１％の差しか出ません。

質問者

お礼 2009/01/13 23:13

いろいろと丁寧なご返答ありがとうございました。よく考えてみたいと思います。

sanori
ベストアンサー率48% (5664/11798)

2009/01/12 22:25 回答No.4

＞＞＞不偏分散で使うのは母平均ではなく標本平均だと思います。そうです。＞＞＞標本平均と不偏分散は既知なので不足している情報はないように思えます。いいえ。母平均と母分散は未知ですから、限られた標本数から母集団の何かを表すときには、情報が少ないことになります。母集団の全データがわからなくても、仮にもしも、母平均だけという１個の情報を足すことができれば、前回述べた「偏り」がなくなり、母平均を使って計算した標本の分散は、そのまま母分散の推定値となります！！！！！ところが、母平均は未知であるわけです。抜き取った標本を新たに母集団のように扱うという考え方であれば、当然、情報は不足していることにはなりませんよ。そうであれば、標本分散（分母はｎ）すればよいでしょう。しかし、標本分散という概念は、あくまでも標本だけのことを表すものであって、母集団を表すものではありません。よって、使い道がありません。有用性があるのは、母集団の分散の推定値（＝不偏分散）です。標本のデータが既知ということは、・標本平均は既知。・母集団の平均は未知。・標本分散は既知。（分母はｎ）そして、・母集団の分散は未知であるが、その推定値は不偏分散である。（分母はｎ－１）ということです。

質問者

お礼 2009/01/13 02:08

ご丁寧なご返答ありがとうございます。ちょっと頭がこんがらがっていますので、時間をかけて考えてみたいと思います。ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。？？なんか混乱してきました。

eatern27
ベストアンサー率55% (635/1135)

2009/01/12 22:20 回答No.3

その式は、母集団が無限に大きい場合の式です。有限(N個)の母集団から、ダブりがないようにサンプルを抽出した場合の不偏分散は、別の式になります。 ※確か、母集団が無限の場合の、(N-1)/N倍とかだった気が。

質問者

お礼 2009/01/13 02:07

ご返答ありがとうございます。

sanori
ベストアンサー率48% (5664/11798)

2009/01/12 20:01 回答No.2

お礼のお言葉をありがとうございました。＞＞＞一つわからない点があります。＞しかし、４０個すべてのデータから得られた母平均や母分散は４０個のデータと独立ではありませんが、＞情報が４０個あります。これは不偏分散のときも同じではないでしょうか。（普通こんなことはしませんが）４０個中３９個のデータを抽出した場合は分母が n-1 になって、４０個中４０個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。母集団がたとえば１０００個であって、そこから４０個をサンプリングするとき、母集団の平均は未知です。サンプルの平均は既知です。そして、母集団の分散は未知です。サンプルの分散は既知です。サンプルの分散を求めるときは、母集団の平均値は使わず、サンプルの平均値を使います。そうすると、サンプルの分散　＜　母集団の分散となります。なぜならば、個々のサンプルの値は、母集団の平均値よりサンプルの平均値の近くに偏っているからです。ですから、サンプルの分散が‘ずるく’小さい値になっている逆ハンデを解消するには、母集団の平均値を使えばよいということになりそうです・・・・・・・・・・が、しかし、サンプリングの場合は母集団の平均値はわかりません。それは、サンプルの分散の計算を、母集団の分散の計算と比べると、「母集団の平均値」という情報が１つ足りないということを意味します。ですから、母分散の推定値である不偏分散では、分母となるサンプル数のｎから１を引かないといけないのです。逆に言えば、全体の値がすべてわかっている場合、不足している情報はないので、分散を求めるときに分母から１を差し引く必要がないということです。

質問者

お礼 2009/01/12 21:28

ご返答ありがとうございます。 >サンプリングの場合は母集団の平均値はわかりません。ここまではわかったのですが、 >それは、サンプルの分散の計算を、母集団の分散の計算と比べると、 >「母集団の平均値」という情報が１つ足りないということを意味します。ここがわかりませんでした。おっしゃる通り、母集団の平均値という情報が１つ足りませんが、不偏分散で使うのは母平均ではなく標本平均だと思います。標本平均と不偏分散は既知なので不足している情報はないように思えます。

不偏分散の分母の n-1

不偏分散の分母の n-1