• 締切済み

分散の計算で平方和をnではなくn-1で割るのはなぜ?

SQCの勉強を始めたところです。 分散の計算で、平方和をnではなくn-1で割るのが理解できません。 本には Σ(xi-xbar)=0の関係があるので、平方和は実質的にはn-1個分の和である。 と書いてあります。 しかし、なぜΣ(xi-xbar)=0(つまり偏差の総和が0)ならn-1なのか、 理解できません。 どなたか、教えてもらえないでしょうか? 例えば、2個のサンプルがあって それぞれの測定値が、1,2だった場合 xbar=1.5 S=0.5 ここでVはSをデータ1個あたりに規準化したものと言うんですから、 V=0.5/2 とするのが自然な考えだと思うのですが、 なぜ、V=0.5/1 なんでしょうか? その理由が、偏差の総和が0だからと言われても、 まったく要領を得ません。 なお、当方恥ずかしながら、数式だけでの説明では理解が難しいので、 上のように実例を挙げて言葉で説明していただけると助かります。 よろしくお願いいたします。

みんなの回答

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.8

#6です。 > この場合n-1でないと不都合である事がわかるだけです。 > 不都合だから、n-1にしたわけではなく、もっと何か > 明確な理由があっての事だと思うのですが、 おっしゃるとおりです。私の説明では「n-1 だと好都合」というだけであって「n-1でなければならない」ことを証明していません。 数学的に証明するのは、それほど困難なものでないのですが、統計学の教科書に載っているものを、ここで詳細に丸写ししたくないものですから、ご自身で調べてください。

すると、全ての回答が全文表示されます。
  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.7

#6です。 すみません。私の回答で、分散と平方和が混線していました。 誤:(1) では、期待値は、10σ^2となります。 誤:(2) では、期待値は、(10-1)σ^2となります。 正:(1) では、分散の期待値は、σ^2となります。 正:(2) では、分散の期待値は、(9/10)σ^2となります。 (1) のやり方を採るからには、標本数に関係なく常に標本分散が母分散を中心として出現します。当然ですよね。しかし、現実には、標本を見ただけで母平均を知ることは不可能ですから、標本から母分散を推定するときには (2) を足がかりにせざるをえないのです。

すると、全ての回答が全文表示されます。
  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.6

私もかつて悩んだ問題です。 #1さんの答が、最も説得力があります。 では、なぜ(2や3じゃなくて)1なの? 1つの母集団(μ, σ^2)から、10個のサンプルを採るとき、そのサンプル内の分散はどうなるでしょうか。 (1) μが分かっている場合、個々のデータからμを引いて求める。 (2) μが分からないので、個々のデータから「標本10個の平均」を引いて求める。 という方法があります。 (1) では、期待値は、10σ^2となります。 (2) では、期待値は、(10-1)σ^2となります。 (2) では「身内の中の計算で平均値を作る」から、それだけ小さい値が出てしまうのです。ですから、求めた分散から母分散を推定するときには、9を使わないといけません。 なぜ-1か?厳密には数学の助けを借りる必要がありますが、サンプル数が10でなく1だと考えて見ましょう。サンプル内では分散がゼロになります。じゃ、元のσ^2はゼロだ、と言ってよいのでしょうか。1から1を引けばゼロになる。だからサンプル内の分散はいつもゼロになる。これを使って母分散を推定することは「できない」ということが分かります。サンプルが2個なら、精度はよくないけれど、計算はできます。 では、なぜ自由度というのか。私たちは10個のデータを入手しましたが「分散を計算するなら、10個の平均はゼロだとしてくださいね」と条件を付けられて受け取りました。つまり10個の数が自由に存在するように見えながら、実は「10個の未知数に、1個の方程式(拘束条件)が付いている」状態です。「データを9個しか受け取らなかった。その後の1個は自分で計算しなさいと言われた」のと同じことだったのです。 それで、データ数引く1を「自由度」というのです。

m_abe
質問者

補足

ご回答いただき、ありがとうございます。 なぜ-1か?ですが、サンプル数が1の場合は、私も考えました。 両極を考える事で、意味が分かる事はよくあります。 しかし、この場合n-1でないと不都合である事がわかるだけです。 不都合だから、n-1にしたわけではなく、もっと何か明確な 理由があっての事だと思うのですが、他の回答者様のご意見では、 数学の力を借りる以外に手は無いようで、もう諦めようかな、 と思っております。

すると、全ての回答が全文表示されます。
  • zk43
  • ベストアンサー率53% (253/470)
回答No.5

言葉だけでの説明は難しいので、品質管理とかの実用性だけが目的なら ば、数学的にそういう事実があると思って使用すればよいのではないで すかね。どうしても理論的な納得がしたければ、確率論の基礎から地道 に勉強していくしかないと思います。多分、基礎がなくて、このことだ けを理解するのは不可能と思われます。他の分野でも、数学的な厳密な 理論は分からないが、結果だけは利用しているということも良くあるよ うです。例えば、中心極限定理とか。証明は非常に難しい。おそらく、 証明を理解する域に達することができる人は少ないでしょう。 しかし、この分散の問題はそれほどではなく、初学者でも半年も勉強す れば分かるようになるでしょう。

m_abe
質問者

お礼

言葉での理解は難しいとのことで、あきらめがつきました。 丸暗記が嫌いな性分で、今までほとんど乗り越えてきましたが、 たまに今回のような事例に出くわします。 ちなみに、前回はOFDM(地デジの変調方式)の理解に 必要なFFTでした。 この度は、貴重な時間を取っていただき、ありがとうございました。

すると、全ての回答が全文表示されます。
  • zk43
  • ベストアンサー率53% (253/470)
回答No.4

n-1が出てくるのは、E[Σ(Xi-Xbar)^2/n]=(n-1)/n*σ^2となるからであ り、これより、両辺にn/(n-1)を掛けると、 n/(n-1)*E[Σ(Xi-Xbar)^2/n]=σ^2 n/(n-1)をEのカッコのなかに入れると、 E[Σ(Xi-Xbar)^2/(n-1)]=σ^2 となるからです。 細かい途中計算はここでは書きませんが(最近、細かい数式を打つ気力 がなくなってきた。手書きならすぐ書けるのですが・・・)、手持ちの 教科書に説明がなくとも、確率・統計の大体の教科書には不偏推定量の 詳細な説明があると思いますので、調べて見られることをお勧めしま す。 手持ちの教科書は実用重視で、あまり理論的なことが書いてないのでし ょうか?

m_abe
質問者

補足

何度もすみません。 手持ちの教科書ですが、製造業の品質管理の道具として書かれていますので、理論はありません。 当方、数学の能力は中2程度でΣの意味も今回勉強してわかった次第です。 日頃から数式を使う事をしていないので、数式での説明はきついです。 丸暗記した方が良いのでしょうか?

すると、全ての回答が全文表示されます。
回答No.3

#1のつづきです。 自由度というのは、あまりスマートな説明ではありません。統計の本には自由度で割るとありますが、これは後からつけた説明のようであり、専門家にしかピンとこないものです。実際には、定義式をまとめていくとn-1が出てきます。 以下のリンクを参考にしてください。なんとなく感触がわかると思います。 でも大事なのは nでわるときと n-1で割るときの違いを理解できているかどうかです。もっともサンプルが100もあれば、どっちで割っても違いはありませんが。

参考URL:
http://case.f7.ems.okayama-u.ac.jp/statedu/lispstat-book/node119.html
m_abe
質問者

補足

何度もすみません。 リンク先見てみましたが、お手上げです。 やはり、式で考えないと無理でしょうか? 直感的な理解は無理でしょうか?

すると、全ての回答が全文表示されます。
  • zk43
  • ベストアンサー率53% (253/470)
回答No.2

不偏分散のことと思いますが。 母分散σ^2の推定量として、Σ(Xi-Xbar)^2/(n-1)を考えると、 E[Σ(Xi-Xbar)^2/(n-1)]=σ^2となっているから不偏性がある。 Σ(Xi-Xbar)^2/nでは、E[Σ(Xi-Xbar)^2/n]=(n-1)/n*σ^2となって、 不偏性がなく、これから、n-1で割ったものは不偏性があると分かります。 一般に母数θの推定量f(X1,…,Xn)が不偏推定量であるとは、 E[f(X1,…,Xn)]=θを満たす、すなわち、f(X1,…,Xn)はθのまわりに 偏りなく分布しているという感じです。 n-1で割っているのは、この不偏性という基準を重視したものです。

m_abe
質問者

補足

回答ありがとうございます。 残念ながら、数学力不足で式の内容はチンプンカンプンですが、 不偏性が関係していることはわかりました。 そこで、googleで「不偏性」と「n-1」をキーワードに 検索したところ、参考になりそうな解説がたくさん出てきました。 しかし、なぜ-1かという説明が無いのです。 このことは解説するまでもない、当たり前の事なのでしょうか? 講義での分散の説明は数十秒でしたが、それがわからないとは 情けない話です。これからが思いやられます。

すると、全ての回答が全文表示されます。
回答No.1

これは誰もが考えてしまうところですね。統計の本を読んでも、明確に書かれているのは少ないのが実情です。 (1)nで割る いま10個のデータがあり、その10個の分散を求める場合は、10で割ります。9ではありません。 たとえば、あるクラスの男子が全部で15人いたとして、15人の身長の分散は、15で割ります。14ではありません。 (2)n-1で割る 本当の集団は10個より多いが、手に入るデータが10個だけの場合、 この10個から、もとの集団の分散を推定するのは、9で割ります。 先ほどの例では、1クラス15人の男子のデータから、その学年の男子の 身長の分散を推定するのは14で割ります。 (3)n-1の意味 これはむずかしい。でもこう考えてください。nで割るより、n-1のほうが、分散は大きくなる(=元の集団の推定が、あいまいになる)。だからn-1で割った方が、元の集団を表すには適切であると。 数学的には、自由度という考えです。単純に平均を計算するには、常にnで 割ります。でも分散にはxbarつまり、平均を使います。 xbar=(x1+x2+...xn)/n です。x1からxnに、どんな数値が入ってもxbarを計算できます。ではxbarが先に与えられているとき、x1からxnは、やはり自由に数値を入れることができるでしょうか?実は、どれかひとつは、自由にならず、自由になるのはn-1だけです。このn-1が、ご質問に該当するものです。

m_abe
質問者

補足

長文の回答、本当に恐れ入ります。 (1)(2)はルールの話だと理解しました。 最後の自由度という考えも、何となくわかりました。 しかし、一番知りたい(3)がわかりません。  なぜ-1なのか、この-1はどこから来たのか?  最後の説明の自由度と今回の件が何のつながりがあるのか? ということが明確になっていないように思います。

すると、全ての回答が全文表示されます。

関連するQ&A

  • 平方和と偏差平方和について

    平方和と偏差平方和について質問があります。 品質管理の本を読んでいたら、偏差平方和を平方和と呼んでいるものがありました。 『個々の測定値と平均値との差(これを偏差という)の2乗和を平方和(偏差平方和ともいう)といい、Sで表します。』(日本規格協会の本より) これ以外にも、品質管理関係の本を読んでいたら同じ記述がたくさんありました。 自分自身の解釈では、  ・平方和は X1^2+X2^2+X3^2+.....Xn^2 で、  ・偏差平方和は、(X1-Xbar)^2+(X2-Xbar)^2+(X3-Xbar)^2+.....(Xn-Xbar)^2 で、同じ物ではなく違うものです。 現にExcelの式でも、 ・平方和は SUMSQ(数値1,数値2,...) ・偏差平方和はDEVSQ(数値1,数値2,...) となっています。 平方和と偏差平方和は完全に別物だと思うのですが、どうしてこういった記述がされているのでしょうか?

  • 統計での問題ですが・・・

    ちょっとずっと考えてもわからなかったのですが・・・ データがX1,・・・,Xnまであるとします。 そのときの平方和をSxx=Σ(Xi-Xbar)^2とすると これによって分散Vx=Sxx/(n-1) 標準偏差Sx=√Vx また、標準化によりUi=(Xi-Xbar)/Sx になります。 このときUiの分散が Vu=(Σ(Ui-Ubar)^2)/(n-1) =(=Σ(Xi-Xbar)/Sx)^2/(n-1) =(Σ(Xi-Xbar))^2/(n-1)*Sx^2   (Sx^2=Vx=Σ(Xi-Xbar)^2/(n-1)より) =1    と求ります。 そのときの条件としてはデータの平方和つまりSxx≠0となのですが、 Sxx=0のときも分散は1と求められるのでしょうか? 私が考えたこととしてはSxx=Σ(Xi-Xbar)^2=0のときはX1=X2=・・・=Xn=Xbarになってしまい標準化しても全部0、つまりUi=0より分散が0になってしまいます・・・ どのようにすればいいのでしょうか?

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • n+1で割る分散ってあるんですか?

    こんにちは。 平方和をnで割ったものを通常の分散,n-1で割ったものを不偏分散といいますよね。 で,何年か前に,統計の先生がn+1で割る分散もあるという話をされていたように思うのです(思い違いかもしれませんが)。 n+1で割る分散ってあるとしたら何ですか?統計学的にどういう特徴をもつものなんでしょうか? よろしくお願いします。

  • 結局その数値 分散,標準偏差の数値は何?

    こんにちは。  計算は公式に入れてなんとかできました。次の問題です。  問題 5人の生徒の英語のテストの得点xである。       50, 70, 90, 80, 50 (点)    (1) 偏差の2乗の平均値を求めることにより,分散s^2を求めよ。    (2) 標準偏差を求めよ。  (1) 平均値 点数総和 340なので,340/5=68(点)     偏差の平方の和 1280なので, s^2=1280/5=256  (2) 標準偏差 s=√256=16(点)  この256とか16点の数値の意味が教科書になく、16点だから何?という ことです。  分散は標準偏差をもとめる段階での数値と理解していいのでしょうか。

  • 母集団の分散の推定値:なぜ平方和を自由度で割るのか

    母集団の分散の推定値Vを求めるときに、なぜ平方和Sを(標本数nではなく)自由度n-1で割るんですか? いろんな本を読み、インターネットでも調べましたが、きちんと理解できるものがありませんでした。 しかし、以下のサイトのコメント欄で理解できそうなのを発見しました: https://tech.naviplus.co.jp/2014/02/27/%E4%B8%8D%E5%81%8F%E5%88%86%E6%95%A3%E3%81%AF%E3%81%AA%E3%81%9C-n-1-%E3%81%A7%E5%89%B2%E3%82%8B%E3%81%AE%E3%81%8B%EF%BC%9F/#conclusion ただ、最後のこの文だけ理解できていないです: >基準点を平均値にすると差分の計算自体は、見かけ上n個現れますが、平均値を持つサンプルがたまたまあった場合を考えると、n-1個の差分であり、この場合の一般化(オフセットの処理)と考えたほうが、わかりやすいのではと思います。 ただ、この一般化が気持ち悪いのかもしれませんね。 …この文までは理解できていたのですが、これを読んで「普段は基準点を平均値にしている」ことに気付き、また理解できなくなりました。 例えば、2, 3, 5, 6という4つの標本の場合、合計は16で標本数nは4なので、平均は4です。 よって、この4を基準にして計算すると、 (2 - 4)^2 = (-2)^2 = 4 (3 - 4)^2 = (-1)^2 = 1 (5 - 4)^2 = (-1)^2 = 1 (6 - 4)^2 = (-2)^2 = 4 なので、Σで合計を取ると、10になります。 V = S/ν = S/(n-1) = 10/(4-1) = 10/3 = 3.333... これが通常の計算だと思います。 もし、基準を最小値の2にした場合は (2 - 2)^2 = (0)^2 = 0 ←差分が無い (3 - 2)^2 = (1)^2 = 1 (5 - 2)^2 = (3)^2 = 9 (6 - 2)^2 = (4)^2 = 16 なので、Σで合計を取ると、26になります。 V = S/ν = S/(n-1) = 26/(4-1) = 26/3 = 8.667 計算は合わないですが、これならn-1になる理由が理解できます。 これを踏まえて、コメント欄にある文章の「平均値を持つサンプルがたまたまあった場合を考えると」がさっぱり分かりません。だって、今回は平均値4を持つサンプルが無いじゃないですか。理解できる方、私にも理解できるように説明をお願いします。 これさえ理解できれば、次のステップに進めそうです。 逆質問があれば答えます。 ※今、これを書いていて閃いたのですが、もしかして「もし4があったら」みたいな仮定の話で進めているのでしょうか? 例えば、2, 3, 4, 7という4つの標本の場合、合計は16で標本数nは4なので、平均は4です。 よって、この4を基準にして計算すると、 (2 - 4)^2 = (-2)^2 = 4 (3 - 4)^2 = (-1)^2 = 1 (4 - 4)^2 = (0)^2 = 0 ←差分が無い (7 - 4)^2 = (3)^2 = 9 なので、Σで合計を取ると、14になります。 V = S/ν = S/(n-1) = 14/(4-1) = 14/3 = 4.667 これは計算自体は合っていますが、2, 3, 5, 6の場合の結果3.333とは違いますね。うーん、やっぱり分からないです。すみません、お願いします。

  • 統計学: 不偏標本分散の分母は、なぜ(n-1)なの?

    好奇心から統計の入門書を読んでの疑問です。 標本分散(sample variance)=偏差平方和(SS)/標本サイズ(n) は理解できたのですが、 この分母を (n-1) にして、 不偏標本分散(unbiased sample variance)=SS/(n-1) というものをわざわざ考えるのはなぜですか? 標本分散だけで充分役に立つと思うのですが…。 分母を n でなく (n-1) とする意義は何でしょうか? 「突出した標本を未然に除外する」ということなんでしょうか? オリンピック体操種目の採点の際、不公正を排すために最高点・最低点を除外して計算するというのを聞いたことがありますが、それと同じ目的でしょうか? だとすれば、なぜ (n-2)や(n-3)ではなく、あえて (n-1) なのでしょうか? よろしくお願いいたします。

  • 標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

    お世話になっております。 統計学初心者で、母平均の信頼区間の推定について勉強しています。 勉強している中で、標本分散が母分散より少し小さくなるということ、 そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。 しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。 わかりやすい形で教えて頂けないでしょうか? どうぞよろしくお願い申し上げます。

  • (統計学) 偏差平方和について

    偏差平方和とは、、、、対象データの平均と各データの差を2乗した値の合計 これはどういう意味があり、どういう時に使うものなのでしょうか? 分散とも似ているように感じるのですが、いまいち使い分けの方法がわかりません。 お詳しい方、ご教授お願いいたします。

  • モーメント法による母集団の偏差σの推定

    X1,X2,...,Xnが独立に正規分布N(0,σ^2)に従うときの母集団の偏差σを推定したいのですが、モーメント法で推定するにはどうすれば良いのでしょうか? 分散σ^2ならS=(1/n-1)Σ(Xi-Xbar)^2の期待値がσ^2になるので簡単なんですが、偏差σはどう推定すれば良いのでしょうか? お分かりの方、お教え願います。

このQ&Aのポイント
  • ノートパソコンのCR2032電池の寿命が気になり、交換方法を教えてください。
  • Webで検索しても情報が見つからず、裏蓋の取り外し手順がわかりません。
  • NECのPC-LL750CS6Rというモデルについての情報もお願いします。
回答を見る