• ベストアンサー
  • 暇なときにでも

標本分散と不偏分散

平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

noname#232710
noname#232710

共感・応援の気持ちを伝えよう!

質問者が選んだベストアンサー

  • ベストアンサー
  • 回答No.2
  • f272
  • ベストアンサー率46% (6972/14842)

品質管理の分野で「標本分散がS/n-1と書かれている」というのは本当ですか? 適当に検索すると... https://ameblo.jp/rin-sus304/entry-10453664673.html 偏差平方和を、「データの個数-1」で割ったものを不偏分散(または分散) http://www2.kaiyodai.ac.jp/~mizobata/class/joushori-heikin.bunsan.htm まずは(1)式をDOループで制御してやればよい。(2)式の「データの個数」であるが、データの総数である「n」を代入する場合と「n-1」を代入する場合では意味が異なる。前者では得られた分散を「標本分散」、後者では得られた分散を「不偏分散または母分散」という。 と書かれています。 なお、不偏分散のことを不偏標本分散とも言います。 > 不偏分散は母集団の分散値に一致し > 標本分散だと標本が少ないほど母集団の分散とのずれが生じる? 「不偏分散は母集団の分散値に一致し」というのは言い過ぎのような気がする。母集団の分散値の推定値であるなら許せるけど。 標本分散は標本が少ないときは母集団の分散の推定値とのずれがあります。 母集団の分散値は、全数調査をしないとわかりません。だから標本調査でわかるのはあくまで推定値です。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

QC検定過去問解説でそうありました。 確かに検索すると違うんですけどね。 自分が信頼出来そうな情報はネットでは探しにくそうだったので 追々本でも調べられればと思っているんですが。 一致は言い過ぎなんですね。 有難うございます。

その他の回答 (1)

  • 回答No.1
  • f272
  • ベストアンサー率46% (6972/14842)

> 単なる平均よりは余裕を持って出した平均が不偏分散ですか? そんな理解ではなく、ちゃんと母集団分散の不偏推定量になるように定義されていると理解してください。これの意味するところは、不偏分散の期待値は母集団の分散に等しいということです。 標本分散の期待値は母集団の分散に等しくはなりません。 > また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 どちらも使われますよ。でも使われる場面が違います。まあ、nが大きいときはどちらもほぼ等しいですから、あまり気にしなくなりますが...

共感・感謝の気持ちを伝えよう!

質問者からのお礼

質問本文で聞いた内容は、一応理解としては合っているということでしょうか。その業界の人からしたら、怒られるような理解ですみません。 おっしゃる内容も今はよくわかりませんが、頭に入れておきます。 nが小さいときに違いが出て、使い分けされるんですね。 有難うございます。

質問者からの補足

見直すと基本統計量の種類として標本分散がS/n-1と書かれている。 品質管理では不偏分散と標本分散の式は同じなのか? ※https://mathtrain.jp/huhenbunsanと合わせて見て、なんとなく理解しました。 理由はよくわからないが不偏分散は母集団の分散値に一致し 標本分散だと標本が少ないほど母集団の分散とのずれが生じる?

関連するQ&A

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 標本分散と不偏分散の使い分けについて。

    標本分散と不偏分散の使い分けについて。 私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。 自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。 標本分散と不偏分散はどのように使い分ければいいのでしょうか。 例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか? ご存知の方、教えてください。 よろしくお願いします。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 不偏分散での「すべての可能な標本・・」とは?

    数学を趣味で勉強してる者です よろしくお願いします。 解説書に「すべての可能な標本の不偏分散の平均は、母分散に一致する」とあり、 例えば 母集団の大きさが、5  標本の大きさが、2 のときの、すべての可能な標本には、5*5=25通りとあります。 と言うことは、この場合の2つの標本は、同じもの(重複している)も、ありえるという前提と 解釈すればいいのでしょうか。 つまり、標本の採り方は、必ず元に戻すが基本なのでしょうか? またどうしても、2つの標本が必ず異なる(標本を戻さない)場合は、 不偏分散の考え方とは異なる、別の考え方があるのでしょうか? 理解不十分で、すみません、アドバイスお願いします。

  • 不偏分散の分母の n-1

    標本平均 Xav を求める式、  Xav = 1/nΣxi を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。 母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、 標本分散では自由度が減らず分母が n-1 ではなく n になる。 この考えは間違っていないでしょうか? もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか? 例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。 母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。 これは結局不偏分散を求めているのでしょうか?

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

  • 不偏分散の分布は?

    不偏分散の分布について混乱していますので、ご助言頂けましたら幸甚です。 例えば母集団の分布を正規分布N(μ,σ^2)とした際、 標本平均x(=1/nΣxi)を区間推定する場合、正規分布の再帰性より、標本平均の分布はN(μ,(σ/√n)^2)となることから、μの区間推定が可能と理解しています。 また、若干やり様は異なりますが、標本分散s^2=1/nΣ(x-xi)^2に対し、ns^2/σ^2がΧ2分布に従うことから、σの導出が可能と理解しています。 ここで、上記と同様に、不偏分散(=1/n-1Σ(x-xi)^2)についての分布とは、どのような分布になるのでしょうか? おそらくΧ2分布になると推察しますが、証明できてません。 また、不偏分散の導出方法は、 E[S^2]、即ちS^2の平均と理解していますが、 S^2を確率変数とした際の分布がΧ2分布なのであれば、 このΧ2分布の平均が、不偏分散になってもよさそうですが、 Χ2分布の平均=n ですので、不偏分散とは不一致です。 上記のとおり、整理がついておりませんので、教えて頂けましたら助かります。 特に上記のとおり混乱しておりますので、現在はむしろ、「不偏分散については、点推定でのみ用いるのか?」と考えております。

  • 統計学入門書の例題で、標本平均7.5(標準偏差2.5、n=28)と標本

    統計学入門書の例題で、標本平均7.5(標準偏差2.5、n=28)と標本平均9.1(標準偏差2.3、n=25)を平均値検定した結果、z=2.43で有意水準5%で有意差ありとなっていました。ところが、それぞれの母平均を区間推定すると95%信頼区間で推定幅に重なりを持ってしまいます。もし、有意差があるなら、重なりを持たないと理解していますが…。当方の計算法の誤りまたは計算違いでしょうか?計算方法は、例えば前者の場合、7.5±1.96×不偏分散の平方根/28の平方根でやってます。

  • 標本分散の求め方について

    3740、3680、3800、4100、3720 3900、3700、4500、3780、3880 このデータから標本分散はどう求められるのでしょうか? 標本平均は3880です データから標本平均を引いて2乗するという計算を地道にしていかなければいけないのですか? 因みにs^2=(251.0)^2となります

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・