• ベストアンサー

分散について

分散には標本分散と普遍分散と2種類あるのですが平均との差の平方和をその母集団の個数で割るか個数-1で割るかの違いなのですが、これらの使い分けが分かりません。また普遍分散がどうして普遍なのかも分かりません。分散の使い分けや普遍分散の普遍性を説明できる方もしくは、分かりやすく解説してあるサイト等を知っている方がいましたら是非よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

ちらっと探してみたのですが、直感に訴える、わかりやすい説明をしたサイトは見当たらなかったので、私が説明します。 標本分散というのは、たとえば、試験を受けた全ての生徒の点数の分散に適用されます。(生徒の数=n) この場合は、真の平均値がわかっています。 ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、それらの生徒の平均値はわかりますが、全体(あるいは無限数)の真の平均値は、わかりません。 要するに、前者に比べて、後者のほうが、真の平均値がわからない分だけ、情報量がn個より1個少ないことになります。 これを「自由度」が1個少ない、と言います。 後者の場合で、分母をn-1にすることにより、(分母をnにしたときよりも)分散を多く見積もらなければいけないのは、そういう理由によるのです。 別の言い方をすれば、 真の平均値がわからない、標本抽出の統計では、不偏分散の計算方法で分散を求めてしまうと、ずるく小さい分散になってしまうので、分母をn-1にすることによって分散値を大きい方に補正して、そのハンデが解消されてフェアな状況になるのです。

koota2000
質問者

お礼

とても分かりやすい説明ありがとうございました。自由度が小さい理由まで説明して頂いて疑問が一気に解消されました。こんなにすっきり理解できる説明は初めてです。これで分散の使い分けもばっちりです。ありがとうございました。

関連するQ&A

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 標本平均値の分散

    平均μ、分散σ^2の母集団からとられた標本数nの標本平均値x ̄(エックス・バー)の平均値はμということは、理論的にも感覚的にもだいたいわかりますが、標本平均値の分散がσ^2/n(母集団の分散を標本数nで割った値)になるのかは、nが多いと母集団の平均値に近い標本がとれる確率が高くなるからなど、感覚的にはある程度(ほんとうにある程度…)わかりますが、理論的にはほとんどわかりません。どなたかなぜ標本平均値の分散がσ^2/nになるのか、特に理論的にお教えいただけないでしょうか? 本などを見ても、このことを理論的にわかりやすく説明した本は少なく、実際に実験してみたらそうなるからとか、あいまいな説明しかありません。 ちなみに数学はあまり得意じゃありません。

  • 「標本平均の分散」についての質問です.

    「標本平均の分散」についての質問です. 「母集団からn個のデータを無作為抽出する.すると,サンプルサイズnの標本ができ,標本平均が計算できる.これを,標本平均1としよう.この作業を何度も繰り返し,標本平均2,標本平均3・・・と,多数の標本平均を集める.これらの標本平均の分散は,母分散のn分の1(母分散/n)である」という説明をある本で読みました. では,極端な話,1000個のデータからなる母集団(有限母集団)から,サンプルサイズ1000個(母集団サイズと同じ)の標本をいくつも作ったとします.標本平均は,いつも母平均そのものであり,よって,標本平均の分散は0です.母分散/1000とはなりません. 上記の説明が間違っているのでしょうか?私が何か勘違いをしているのでしょうか?それとも,説明は無限母集団を対象としている,とか,母集団サイズとサンプルサイズが一致するような抽出は想定されていない,と言った理由があるのでしょうか?

  • 分散の求め方

    はじめまして。分散の求め方で質問があります。 おわかりになる方、書き込みをお願いします。 測定値1,2,3,4,5について。 (1) 平均値=3、自乗の平均値=11より    分散=自乗の平均値-平均値の自乗より      =11-(3×3)=11-9=2 (2) 平方和=(1×1+2×2+3×3+4×4+5×5)-5×3×3      =10   自由度=5-1=4   分散=平方和÷自由度より     =10÷4=2.5 (1)、(2) どちらが正しいのでしょうか。 よろしくお願いします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 母分散と標本分散

    母分散と標本分散の違いがいまひとつわかりません。 母分散は母集団の分散、標本分散は標本の分散ということは文字通りですが、分散(偏差?)σ^2として、なぜ標本分散はσ^2/nで表されるのでしょうか?nで割る理由はあるのでしょうか? もしよければ、違いが分かるような典型的な例題(文章問題)等も教えてください。

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

  • 標本分散の期待値の求め方

    統計初心者です。 標本分散の期待値の求め方をわかりやすく教えて下さい。 たとえば、母平均=0、母分散=30の母集団から、10の標本を抽出したときの標本分散の期待値はどうなるのでしょうか。 よろしくお願いします。

  • 不偏分散での「すべての可能な標本・・」とは?

    数学を趣味で勉強してる者です よろしくお願いします。 解説書に「すべての可能な標本の不偏分散の平均は、母分散に一致する」とあり、 例えば 母集団の大きさが、5  標本の大きさが、2 のときの、すべての可能な標本には、5*5=25通りとあります。 と言うことは、この場合の2つの標本は、同じもの(重複している)も、ありえるという前提と 解釈すればいいのでしょうか。 つまり、標本の採り方は、必ず元に戻すが基本なのでしょうか? またどうしても、2つの標本が必ず異なる(標本を戻さない)場合は、 不偏分散の考え方とは異なる、別の考え方があるのでしょうか? 理解不十分で、すみません、アドバイスお願いします。