• ベストアンサー

不偏分散の (n-1)で割る理由、、、

noname#21649の回答

  • ベストアンサー
noname#21649
noname#21649
回答No.3

>自由度とは何を意味するのでしょうか? 数学的正確さがない表現です。 測定点がn個あったとします。これをベクトルで考えると.これから求めようとする値である1点の点はn個の方向へ引っ張られているのです。この数が自由度です。 もし.このn個の中の数の1つを使ってしまったらばどうなるのでしょうか。一つ引っ張る方向が減ります。 世の中にnこしか測定点が存在しない場合には.全体が決まっていますから平均値を求めても自由度は変化しません。しかし.無数の測定が出来る時に平均を求めたらばどうなるのでしょうか。本来無数の点すべてを測定した時に求められる1点の値が分からないから.n個の測定値の算術平均を取って多分全体の点の1点になるであろうと推定して平均としました。つまり.絶対的な値ではなくて想像上の点です。今まであった点に変えてこの点を使いますから.引っ張る方向が一つ減ります。 自由度で割るというのは.このように引っ張る点1点あたりの割合を示しています。 このように.一つの値を求めようとした時に.自由度は測定点の数から推定点の数を引いた残りを示しています。

furu007
質問者

お礼

平均値は観測値から計算される物との固定観念を取り去って ほかの観測値と同じデータの一つと考えると、edogawaranpoさんの説明も なんとなくイメージがつかめてきました。ありがとうございます。

関連するQ&A

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • n+1で割る分散ってあるんですか?

    こんにちは。 平方和をnで割ったものを通常の分散,n-1で割ったものを不偏分散といいますよね。 で,何年か前に,統計の先生がn+1で割る分散もあるという話をされていたように思うのです(思い違いかもしれませんが)。 n+1で割る分散ってあるとしたら何ですか?統計学的にどういう特徴をもつものなんでしょうか? よろしくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 1つデータを足した不偏分散の計算

    ・n-1個のデータの不偏分散 ・n-1個のデータの平均 が分かっている状態で、データを1つ追加します。 このときデータを追加した後の n個のデータの不偏分散は計算できますか? 自分で計算して出してみたんですが、 どっかで計算ミスしてるのか実際の値と合いません。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 不偏分散、ガンマ分布、そして不偏推定量

    X1..Xnは独立で標準分布、期待値μ、分散σ^2。不偏分散s^2=1/(n-1) Σ(Xi - X')^2, X'=1/n ΣXi, で iは1からnまでです。X'はガンマ分布Γ(α、λ)に従い、α=(n-1)/2, λ=(n-1)/(2*σ~2)です。 (a) ガンマ分布を利用して、s^2がσ^2の不偏推定量であることと、その分散を求めよ。 (b) T(k)=k*s^2、kは定数 を考えます。その際に、T(k)の偏り と 分散をσ^2の推定量で表せ。そして、T(k)の 誤差の平方は(MSE)を最小値にするkを求めよ。 と言う問題があります。 最初にs^2=1/(n-1) Σ(Xi^2 - n X'^2)と表し、E(X')=σ^2と言う準備はできたのですが、それ以降さっぱりここ3,4日間考えてますがわかりません。回答は自分で導きたいと思ってますので、アドバイスをいただけないでしょうか?

  • 統計(自由度n-1)について

    統計の自由度のn-1で割るところがよくわかりません。証明とかいう意味ではなくて、0-1分布の場合についてです。例えばあるテレビの視聴率を調べるときに、標本数nを300とし、そのうちm人がある番組を見たとします。ここで視聴率pをp=m/nと定めます。このとき不偏標本分散はp(1-p)だとある本に書いてありましたが、n-1で割るのならnp(1-p)/n-1 になると思うんですがどうでしょうか?それともn/n-1=1 で近似したのでしょうか?少し分かりにくい文章ですいませんがどなたか教えてください。

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。