- ベストアンサー
標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由
お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
こんばんは。 数式ではなく、言葉で説明したいと思います。 母分散というのは、たとえば、学校で試験を受けた生徒全員の点数の分散に適用されます。(生徒の数=n) この場合は、母平均がわかります。 ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、 それらの生徒の平均値(標本平均)はわかりますが、母平均は、わかりません。 つまり、前者に比べて、後者のほうが、真の平均値(母平均)がわからない分だけ、 情報量がn個より1個少ないことになります。 これを「自由度」が1個少ない、と言います。 後者の場合で、分母をn-1にすることにより、(分母をnにしたときよりも)分散を多く見積もらなければいけないのは、そういう理由によるのです。 別の言い方をすれば、 真の平均値(母平均)がわからない標本抽出の統計では、 1/nをかける計算方法で分散を求めてしまうと、ずるく小さい分散になってしまうので、 分母をn-1にすることによって分散値を大きい方に補正して、そのハンデが解消されてフェアな状況になるのです。 標本分散が母分散より少し小さくなる理由について もう少し細かい話もしますね。 分散を計算するときには、1/nをかけるか1/(n-1)をかけるかはさておき、 Σ の部分は、 Σ(各データ値 - 平均値)^2 という計算をしますよね。 A 標本分散のΣの計算の仕方は、 Σ(標本の各データ値 - 標本の平均値)^2 B 母分散のΣの計算の仕方は、 Σ(母集団の各データ値 - 母集団の平均値)^2 です。 実は、Σの値は、計算対象のデータ自身の平均値を用いて計算された場合に最小(極小)になります。 (説明を省きますが、最小二乗法と同様の考え方です。) 極端な例を挙げれば、0.1、0.2、0.3、0.4、0.5 という5個のデータがあるとき、 「平均値」を1万としてΣを計算したことをイメージすれば、直感的に理解できるかと思います。 ですから、上記のAの計算で、もしも平均値として標本平均の代わりに母平均を採用したとすれば、 Σの計算結果は少し大きくなります。 逆に言えば、抽出した標本データだけから求まる標本平均を使うと、 Σが最も小さく抑えられる(=ずるい)ということです。 以上、ご参考になりましたら。
その他の回答 (2)
- hugen
- ベストアンサー率23% (56/237)
数式による説明
- backs
- ベストアンサー率50% (410/818)
> 標本分散が母分散より少し小さくなる理由 数式による説明を理解するしかありません。実務的には「サンプルサイズが小さいときにnで割ってしまうと"不偏分散よりも(不偏分散であっても、母分散より小さめに出ることがあります)"小さめの値が出てしまう」ということを理解しておけば良いです。 > 不偏分散の算出においてn-1でわる理由 これも同様。内容を理解したいのであれば数式を理解するしかありません。実務的には「1つの母数を推定することによって1つの自由度を失うため」ということを理解しておけば問題ありません。 自分にとってどれ程の理解が必要か、あるレベルの理解を得るためにどれ程の力を注ぐ必要があるか、これらを考えることが重要ですね。