• ベストアンサー

不偏分散の (n-1)で割る理由、、、

分散の計算では、nで割る母分散と、(n-1)で割る不偏分散がありますが なぜ(n-1)で割るのか、いまいち直感に訴える説明に出会っていません。 たいていの本では、天下り式に「(n-1)で割る」とだけしか書いて いません。たまに親切な本では計算式に平均値が入っているので自由度は nから1だけ少なくなる云々とありますが、自由度が何故1減らなければ ならないのか、いまいち理解出来ません。 もう少し高度な本になると、期待値Eやら分散Vやらが出て来て、 不偏統計量云々の「ややこしい」説明が出て来ますが、これも直感に 訴えかける説明ではありません。 数物系出身ながらお恥ずかしい質問ですが、いざ自分に問いかけてみると 納得できる説明が出来ません。「なるほど!」というご説明をいただけると 幸いです。よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#21649
noname#21649
回答No.3

>自由度とは何を意味するのでしょうか? 数学的正確さがない表現です。 測定点がn個あったとします。これをベクトルで考えると.これから求めようとする値である1点の点はn個の方向へ引っ張られているのです。この数が自由度です。 もし.このn個の中の数の1つを使ってしまったらばどうなるのでしょうか。一つ引っ張る方向が減ります。 世の中にnこしか測定点が存在しない場合には.全体が決まっていますから平均値を求めても自由度は変化しません。しかし.無数の測定が出来る時に平均を求めたらばどうなるのでしょうか。本来無数の点すべてを測定した時に求められる1点の値が分からないから.n個の測定値の算術平均を取って多分全体の点の1点になるであろうと推定して平均としました。つまり.絶対的な値ではなくて想像上の点です。今まであった点に変えてこの点を使いますから.引っ張る方向が一つ減ります。 自由度で割るというのは.このように引っ張る点1点あたりの割合を示しています。 このように.一つの値を求めようとした時に.自由度は測定点の数から推定点の数を引いた残りを示しています。

furu007
質問者

お礼

平均値は観測値から計算される物との固定観念を取り去って ほかの観測値と同じデータの一つと考えると、edogawaranpoさんの説明も なんとなくイメージがつかめてきました。ありがとうございます。

その他の回答 (2)

  • motsuan
  • ベストアンサー率40% (54/135)
回答No.2

私も統計的自由度というのがいまいちわかりませんが計算だけなら 確率変数Xの確率分布P(X)があるとします。 このとき標本 Xi (i=1~n) で平均m= ΣXi/n として <Σ(Xi-m)^2>を計算します。 P(X1)P(X2)・・・P(Xn) が{Xi (i=1~n)}の確率で ∫dX1 P(X1) ∫dX2 P(X2)・・・∫dXn P(Xn) Σ(Xi-m)^2 ...(※) を展開して母集団の分散 ∫dX P(X)(X-<X>)^2 との関係を導くと(※)をn-1で割ればいいことがわかります。 この計算においては、∫dX P(X)(X-<X>)^2という1体問題と (※)というn体問題の関係を求めているわけですが このときn-1は結局、n体問題の関係を1体問題にするときに XiXj(i,j=1~n) のなかから 相関のない2つのパラメータの関係(XiXj) (i=jでない) (すなわち本質的な1体問題と) 相関のある自分自身(Xi^2)との関係を 分離することによって出てくるものです。 すなわち、サンプル平均とサンプルの値 Xi (i=1~n) を通して相関がある値が 発生するために自由度が減少しているという計算になっているように見えます。 (力学でいえば、統計的に等質量の質点のサンプルから  重心と慣性モーメントを求めたときに、  本当の重心の位置とサンプルの重心の違いがあるために、  サンプルの慣性モーメントが小さく見えてしまう  (ので、1個あたり揺らぎの大きさn^(-1/2)ずつ加算して  n個で丁度和の自乗が1になる揺らぎを含んでいるので  その分1だけ小さい値で割る)  ということに対応しているのでしょうか?)

noname#21649
noname#21649
回答No.1

正確さが欠けるのですが.以下の説明ではどうでしょうか。 分散の計算では.自由度で割るということが原則です。 ですから. 全数サンプリングの場合には.nで割る。平均値は推定値ではありませんから。 部分サンプリングでは.推定値として1つ「平均値」を使ってしまいましたから.n-1で割る。 重み補正をした場合には.重みに使用した自由度(普通1個)と推定値の「平均値」の合計2個の値を使ってしまいましたから.n-2で割る。 欠点補正をした場合には.1点の補正につき1点の自由度が減少します。2点の欠点がある場合に.2点の補正値を推定して.推定値の平均を1つ.合計3つの値を使ってしまいましたから.n-3で割る。 と考えて行きます。その分散を求めるためにいくつの推定値を使ったか.使った分を除くという考え方に立ちます。

furu007
質問者

補足

早速のご回答ありがとうございます。 edogawaranpoさんの書かれた解答は、一般的な教科書の正統な解答だと 理解しています。ここで、私が理解できないのは 1、「分散の計算では自由度で割るということが原則」とありますが 分散の定義を数学辞典で調べると、平均と標本値の差の自乗の平均が 分散だとしてnで割る場合が書かれています。ところが「(n-1)で割る 場合もある」などと曖昧な表現も追記されています。 自由度で割るというのは定義ですか? 2、そもそも、自由度とは何を意味するのでしょうか? 分散とは、平均と標本値の差の自乗の平均という「高校生向け」定義は 数直線上に標本値と平均値をプロットしながら、「分散とはこういうも のだ」と図示しながら説明がしやすいものです。 しかしながら自由度なるパラメータが出て来て、nで割るはずの平均が (n-1)で割るというのは、視覚に訴えるものが無くて困っています。 なぜ?という疑問を持ち出すと、いままでの自分の理解が浅い事が 痛感されます。

関連するQ&A

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • n+1で割る分散ってあるんですか?

    こんにちは。 平方和をnで割ったものを通常の分散,n-1で割ったものを不偏分散といいますよね。 で,何年か前に,統計の先生がn+1で割る分散もあるという話をされていたように思うのです(思い違いかもしれませんが)。 n+1で割る分散ってあるとしたら何ですか?統計学的にどういう特徴をもつものなんでしょうか? よろしくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 1つデータを足した不偏分散の計算

    ・n-1個のデータの不偏分散 ・n-1個のデータの平均 が分かっている状態で、データを1つ追加します。 このときデータを追加した後の n個のデータの不偏分散は計算できますか? 自分で計算して出してみたんですが、 どっかで計算ミスしてるのか実際の値と合いません。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 不偏分散、ガンマ分布、そして不偏推定量

    X1..Xnは独立で標準分布、期待値μ、分散σ^2。不偏分散s^2=1/(n-1) Σ(Xi - X')^2, X'=1/n ΣXi, で iは1からnまでです。X'はガンマ分布Γ(α、λ)に従い、α=(n-1)/2, λ=(n-1)/(2*σ~2)です。 (a) ガンマ分布を利用して、s^2がσ^2の不偏推定量であることと、その分散を求めよ。 (b) T(k)=k*s^2、kは定数 を考えます。その際に、T(k)の偏り と 分散をσ^2の推定量で表せ。そして、T(k)の 誤差の平方は(MSE)を最小値にするkを求めよ。 と言う問題があります。 最初にs^2=1/(n-1) Σ(Xi^2 - n X'^2)と表し、E(X')=σ^2と言う準備はできたのですが、それ以降さっぱりここ3,4日間考えてますがわかりません。回答は自分で導きたいと思ってますので、アドバイスをいただけないでしょうか?

  • 統計(自由度n-1)について

    統計の自由度のn-1で割るところがよくわかりません。証明とかいう意味ではなくて、0-1分布の場合についてです。例えばあるテレビの視聴率を調べるときに、標本数nを300とし、そのうちm人がある番組を見たとします。ここで視聴率pをp=m/nと定めます。このとき不偏標本分散はp(1-p)だとある本に書いてありましたが、n-1で割るのならnp(1-p)/n-1 になると思うんですがどうでしょうか?それともn/n-1=1 で近似したのでしょうか?少し分かりにくい文章ですいませんがどなたか教えてください。

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。