• ベストアンサー

分散について

こんにちは。 標本分散と不偏分散の違いが分かりません。 ご存じの方、是非、書き込みをお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

標本分散(標本の大きさnで割る場合)は母分散よりも少し小さくなる傾向があるのです。これは標本の大きさが大きければたいして問題にはならないのですが,標本の大きさが小さい場合には都合が悪いということです。 だから標本の分散を求めるときは不偏分散(n-1で割る場合)を用いた方が良いのです。例えば,平均が50,標準偏差が10の正規分布から大きさ10,100,1000の標本を抽出してそれぞれの場合において分散を求めてみると次のようになります。 ・標本の大きさが10のときの標本分散と不偏分散。   標本分散=116.3079   不偏分散=129.2310 ・標本の大きさが100のとき   標本分散=99.55616     不偏分散=100.5618 ・標本の大きさが1000のとき   標本分散=96.26725   不偏分散=96.36361 どうです?標本の大きさが十分に大きければどちらもほとんど差はありませんが,標本の大きさが小さいと随分と差がでてくるでしょう?ちなみに,これはRという統計ソフトを使って計算しました。数学的に理解することも大切ですが,コンピュータを使って実際にやってみるのも良いことだと思うのです。

その他の回答 (2)

  • solla
  • ベストアンサー率59% (45/76)
回答No.3

平均μ、分散σ^2(平均と分散が存在するなら分布の型や有限か無限かには依存しません)の母集団から大きさnの無作為標本を抽出したとします。このとき、この標本について分散の定義に従って s^2 = (1/n) Σ(xi-m)^2 m = (1/n) Σxi と求めたs^2が標本分散で、『大きさnの標本のばらつき』を表します。ここには母集団との関わりは意味的には何も含まれていません。 一方、母集団の未知なる分散σ^2を標本から推測したいというときに、その推定量の良さとして“不偏性”、すなわち推定に偏りがない、という基準を考えると、 s^2' = (1/(n-1)) Σ(xi-m)^2 という不偏分散が、σ^2の推定量として最も良いということが示されます。つまり不偏分散は『不偏性の基準において最も良い母分散の推定量』を表します。ちなみに推定量の良さとして不偏性以外の基準を考えれば、必ずしも不偏分散が良いとは限りません。

  • noocyte
  • ベストアンサー率58% (171/291)
回答No.2

正規分布 N(μ,σ) に従う確率変数 X があるとします. 平均μ,標準偏差σを直接測定することはできませんから, X の標本値 X1,X2,…,Xn からμとσを推定することを考えます. 標本値の算術平均,つまり標本平均 X ̄ = (1/n)ΣXi の期待値は母平均μに一致します. したがって標本平均は母平均の良い推定値になります. しかし標本値から計算した分散,つまり標本分散 σn ^ 2 = (1/n)Σ(Xi-X ̄)^2 の期待値は母分散σ^2には一致せず,((n-1)/n)σ^2 となります. そこでこの値に n/(n-1) を掛けた σ(n-1) ^ 2 = (1/(n-1))Σ(Xi-X ̄)^2 を定義すれば,その期待値は母分散に一致します.これが不偏分散です. つまり標本分散は,実際に測定された X1,…,Xn だけに関する分散なのに対し, 不偏分散はその背景にある母集団の分散の推定値である,と言えると思います. 昔,ある統計学の本で不偏分散について定性的に説明したくだりを読んで, なるほどと思ったことがあります.その内容は (うろ覚えですが) だいたい 次のようなものだったと思います. 「正規分布は平均値に近いほど確率密度が高いので,  標本数が少ないと実際に出現する標本値は平均値付近に  偏ってしまい,標本分散は母分散よりも少し小さくなる.」 分散 (Wikipedia) http://ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3

関連するQ&A

  • 標本分散と不偏分散の使い分けについて。

    標本分散と不偏分散の使い分けについて。 私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。 自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。 標本分散と不偏分散はどのように使い分ければいいのでしょうか。 例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか? ご存知の方、教えてください。 よろしくお願いします。

  • 標本分散と不偏分散

    標本分散と不偏分散について勉強しているのですが 例えば、分散についての問題が出たときには「不偏分散を求めよ」 「標本分散を求めよ」といった、どちらの公式を使うか問題で指定されるものなのでしょうか? それとも、自分でどちらの公式を使うか見分けるものなのでしょうか? もし、見分けるものなら見分けるポイント等を教えていただけたらと思います。 質問の内容が分かりにくいとは思いますが、よろしくお願いします。

  • 分散と標本分散についてです

    私の学校のテストなんですが、ある2変数の数値が10個ずつあり、分散、標本分散、共分散を求めろという問題がありました。 共分散を求めろはわかるのですが、いまいち分散と標本分散を求めろの意味がわかりません。この場合は不偏分散として求めればよろしいのですか? 教えてください。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 不偏分散での「すべての可能な標本・・」とは?

    数学を趣味で勉強してる者です よろしくお願いします。 解説書に「すべての可能な標本の不偏分散の平均は、母分散に一致する」とあり、 例えば 母集団の大きさが、5  標本の大きさが、2 のときの、すべての可能な標本には、5*5=25通りとあります。 と言うことは、この場合の2つの標本は、同じもの(重複している)も、ありえるという前提と 解釈すればいいのでしょうか。 つまり、標本の採り方は、必ず元に戻すが基本なのでしょうか? またどうしても、2つの標本が必ず異なる(標本を戻さない)場合は、 不偏分散の考え方とは異なる、別の考え方があるのでしょうか? 理解不十分で、すみません、アドバイスお願いします。

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 母分散と標本分散

    母分散と標本分散の違いがいまひとつわかりません。 母分散は母集団の分散、標本分散は標本の分散ということは文字通りですが、分散(偏差?)σ^2として、なぜ標本分散はσ^2/nで表されるのでしょうか?nで割る理由はあるのでしょうか? もしよければ、違いが分かるような典型的な例題(文章問題)等も教えてください。