• 締切済み
  • 困ってます

確率・統計での分散について

確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

共感・応援の気持ちを伝えよう!

みんなの回答

  • 回答No.1
  • f272
  • ベストアンサー率46% (6992/14896)

> このような定義で間違いないでしょうか。 定義としては適当でない言葉も含まれているようだが,大体そのような認識でよい。 分散は一般的な用語です。 標本分散は,標本として得られたデータから分散を計算したもの。計算に使う平均としては標本平均を使います。 母分散は,全数を対象として得られる分散のこと。全数調査をしたかどうかは関係がありません。ここで考えている平均も当然に全数を対象としています。 不偏分散は,母分散の推定値の1つであり,期待値が母分散に等しくなるもの。 > 標本分散のことを不偏分散と書いてある本があったりしたのですが。 本当ですか?「1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの」が不偏分散というのならそれは誤りでしょう。不偏性がないことは明らかです。 そうではなくて上記の不偏分散のことを標本分散と呼ぶことはあってもおかしくありません。言葉の定義が世間とは違うんだなですみます。 > たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。 varpは母集団全体に基づいて分散を計算します。その引数は母集団全体であるとみなすのです。エクセルにとっては引数が標本であるのか母集団全体であるのかはわかりません。だから入れ子のような解釈というわけではなくて,単に10個のデータが母集団だと思っているだけです。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

回答ありがとうございます。わかりやすい方から参りますが、エクセルの関数var, varpは前者は和を(n-1)で除し、後者はnで除す、ということになるかと思います(逆ということはないと思うのですが)。前者は母集団が別にあり、そこから抽出したサンプルを処理して不偏統計量(期待値が母数になる)にする必要があり、後者はそれだけがすべて、つまりサンプルそれ自身を母集団であるとみなすのでnで除すと。 説明が混乱するのは両方とも”母集団”という言葉を使って説明しているからだと思います。少なくともエクセルの関数の仕様説明としてはそんな言葉を使わずに(n-1)で除す、nで除す、とだけ書けばいいのにと思うのですが。統計がこんがらがってくる理由は目的と手段が混合して説明されるからではないかと思うのですが。さらにその目的は統計が関与する分野(ほぼ学問全体を被覆しそう)なので個別分野の目的が手段・手法まで越境して説明が荒らされてしまうからではないかと思うのですが(書き過ぎかと思いますがそういう傾向にあると)。 分散についてですが、後から気づきましたが、このOKwaveの中でも用語・定義の非統一感が質問されていました。検索したら出てくるようです。

関連するQ&A

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 統計学について

    「t分布の自由度が高いと標準正規分布とほぼ同じとみなせる」のは、例えば t(自由度N-1)=標準正規分布に従う変数/【(N-1)S^2/σ^2×1/(N-1)】の平方根 (S^2は不偏分散、σ^2は母分散) という式で考えた場合、自由度が高いとSとσがほぼ同じで、上記の式の分母がほぼ1になり、分子のみ残るから、という理解でよいでしょうか? また、「サンプルサイズが大きくなると標本標準偏差が母標準偏差に近づく」と本に書いてありますが、この場合の標本標準偏差は偏差平方和をNで割って求めたものと、N-1で割って求めたものの、どちらの分散から計算されたと理解したらよいでしょうか? 宜しくお願い致します。

  • 統計学、分散について

    標本平均の分散が誤差項が互いに独立ならば、標本平均の分散は Var(Xばー)=1/n(σ^2) であるという事に関して質問があります。 https://sites.google.com/site/kanolabweb/home/econometrics/note04.pdf?attredirects=0&d=1 の4ページ目に計算過程が書いてあるのですが、 Var(μばー)=E(uばー^2)になるのは何故ですか? Var(μばー)=E{(ui-uばー)^2}        =E{(ui)^2-2*ui*uばー+(uばー)^2}        =E{(ui)^2}-2*E{ui*uばー}+E{uばー)^2} となるんじゃないでしょうか? uばーの分散ってなんなんでしょうか?(誤差項の平均の分散ってどういう事なんでしょう?平均は平均で定まってるんじゃないんですか?) そもそも期待値の関数の形のままでの計算方法が良く分かっていないです。 また、どの部分の知識が抜けているから分からないのでしょうか? 読みにくいですが、ご教授よろしくお願いします。

  • 標本分散と不偏分散の使い分けについて。

    標本分散と不偏分散の使い分けについて。 私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。 自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。 標本分散と不偏分散はどのように使い分ければいいのでしょうか。 例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか? ご存知の方、教えてください。 よろしくお願いします。

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • エクセルによる母分散の検定

    一つの母集団から標本のサンプルサイズ10、標本平均50、不偏分散100を与え、母分散に関する帰無仮説 σ2=50、有意水準5%としたとき棄却域を求め仮説を検定しろ。 という課題がでたのですが、悪戦苦闘しています。どなたか分かる方教えてください。

  • 社会統計について質問です。

    友人に社会統計学について、質問を受けました。 私は心理学科なので、心理統計しか分からず、困っています。 どなたか助けてください。 以下のような問題です。 体重に関して正規分布N(μ,σ二乗)に従う母集団から、無作為抽出によって以下の16の標本を得た。 62,50,60,48,62,59,36,64,64,62,87,63,75,27,65,76 (1)標本平均、不偏標本分散、不偏標本標準偏差を求めよ。 (2)母平均の最尤推定値(最尤推定量の実現値)を求めよ。 (3)母分散は既知とする。このとき標本平均の標本分布はどのような分布に従うか。「確立変数~確率分布」という形式で答えよ。 (4)母分散は未知であるとする。このとき、母平均の95%信頼区間を求めよ。 (5)母平均は未知であるとする。帰無仮説をHo:μ=52としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1% 水準右片側検定をそれぞれ実施せよ。 (7)さらに、体重に関して正規分布する別の母集団から、無作為抽出して以下の16の標本を得た。2つの母集団の母分散は未知であるが、母分散は同じであると仮定して良い。「2つの母平均は等しい」を帰無仮説として、母平均の差に関する5%水準両側検定を実施せよ。(ヒント:t0.025(30)=2.042) 65,60,57,76,79,72,57,75,54,75,42,77,38,48,71,78 よろしくお願いします。

  • 基礎統計の問題が解けません

    明日試験なので、至急ご回答いただけると助かります! 問題「平均未知、分散未知の正規母集団から9つの標本を抽出したところ、標本平均は5、標本分散は16だった。このとき母平均の90%信頼区間を求めよ」 解答(2.5, 7.5) 解説(下記)では標本分散を標準標本偏差としてs=4としていますが、不偏分散は16÷8×9(n=9なので8分の9倍する)で18となり、標準標本偏差はs=√18となると思ったのですが、どなたか解説していただけないでしょうか… 解説「平均未知, 分散未知の正規部母集団において, 母平均の信頼区間は (X - t(n-1, α) × s/√n, X + t(n-1, α) × s/√n) で求められる. ただし, ここでnはサンプルサイズ, Xは標本平均, sは標本標準偏差, t(n-1, α)は自由度n-1のt分布の上側100α%点である. この問題では, n=9 X = 5 s = √16 = 4 t(n-1, α) = t(8, 0.05) = 1.860 に対応する.」