• 締切済み

確率・統計での分散について

確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

みんなの回答

  • f272
  • ベストアンサー率46% (8467/18126)
回答No.1

> このような定義で間違いないでしょうか。 定義としては適当でない言葉も含まれているようだが,大体そのような認識でよい。 分散は一般的な用語です。 標本分散は,標本として得られたデータから分散を計算したもの。計算に使う平均としては標本平均を使います。 母分散は,全数を対象として得られる分散のこと。全数調査をしたかどうかは関係がありません。ここで考えている平均も当然に全数を対象としています。 不偏分散は,母分散の推定値の1つであり,期待値が母分散に等しくなるもの。 > 標本分散のことを不偏分散と書いてある本があったりしたのですが。 本当ですか?「1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの」が不偏分散というのならそれは誤りでしょう。不偏性がないことは明らかです。 そうではなくて上記の不偏分散のことを標本分散と呼ぶことはあってもおかしくありません。言葉の定義が世間とは違うんだなですみます。 > たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。 varpは母集団全体に基づいて分散を計算します。その引数は母集団全体であるとみなすのです。エクセルにとっては引数が標本であるのか母集団全体であるのかはわかりません。だから入れ子のような解釈というわけではなくて,単に10個のデータが母集団だと思っているだけです。

skmsk1941093
質問者

お礼

回答ありがとうございます。わかりやすい方から参りますが、エクセルの関数var, varpは前者は和を(n-1)で除し、後者はnで除す、ということになるかと思います(逆ということはないと思うのですが)。前者は母集団が別にあり、そこから抽出したサンプルを処理して不偏統計量(期待値が母数になる)にする必要があり、後者はそれだけがすべて、つまりサンプルそれ自身を母集団であるとみなすのでnで除すと。 説明が混乱するのは両方とも”母集団”という言葉を使って説明しているからだと思います。少なくともエクセルの関数の仕様説明としてはそんな言葉を使わずに(n-1)で除す、nで除す、とだけ書けばいいのにと思うのですが。統計がこんがらがってくる理由は目的と手段が混合して説明されるからではないかと思うのですが。さらにその目的は統計が関与する分野(ほぼ学問全体を被覆しそう)なので個別分野の目的が手段・手法まで越境して説明が荒らされてしまうからではないかと思うのですが(書き過ぎかと思いますがそういう傾向にあると)。 分散についてですが、後から気づきましたが、このOKwaveの中でも用語・定義の非統一感が質問されていました。検索したら出てくるようです。

関連するQ&A