• 締切済み
  • 困ってます

統計学 分散について

今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

共感・応援の気持ちを伝えよう!

みんなの回答

  • 回答No.4
  • ur2c
  • ベストアンサー率63% (264/416)

私も学生時代、同じ疑問を持った一人です。 データのまんなかを表す指標も、算術平均だけがまんなかの指標ではありません。中央値 http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%A4%AE%E5%80%A4 とか幾何平均 http://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87 とか、最小最大を除いた平均とかが使われることがあります。 同様にばらつきの指標も分散 V あるいは標準偏差 SD = V^(1/2) (standard deviation) だけがばらつきの指標ではありません。たとえば MAD (median absolute deviation) http://en.wikipedia.org/wiki/Median_absolute_deviation とか IQR (interquartile range) http://en.wikipedia.org/wiki/Robust_measures_of_scale とか。 ご提案の平均絶対偏差も average absolute deviation とか MD (mean absolute deviation) とか呼ばれて、実際に使われています。 http://en.wikipedia.org/wiki/Absolute_deviation 標準偏差 SD と平均絶対偏差 MD の優劣比較は 1914 年頃から 1920 年頃に行われたそうです。その時代には Fisher が論争に勝って V と SD が使われるようになりました。しかし現代的な視点からは、そのときの論拠は説得的でない、という意見もあります。詳しくは http://www.leeds.ac.uk/educol/documents/00003759.htm をご覧ください。 結局 MD でなく SD が使われるようになったのは、一言で済ませるなら歴史的な事情だと思います。その事情は数式の扱いやすさを含み、特に正規分布が数理統計学の中心的な地位を占めた事に関係します。 ところが測定値が完全な正規分布からのランダムサンプルではなく、たとえば転記ミスや伝送エラーのような異常値を僅かながら含むという現実的な仮定を置くと、SD の MD に対する統計理論上の優位は崩れます。そしてコンピュータが駆使できるという状況のもとでは数式の扱いやすさも絶対的な優位をもたらさず、「MD のほうが SD より良いかもしれない」という意見につながっていると思います。あと 100 年たったら、どうなっているでしょうね?

共感・感謝の気持ちを伝えよう!

  • 回答No.3

「矛盾が出ない」だけでよければ、バラツキの定義方法はいくらでもあります。例えば、次のようなものもアリです。 ばらつき案4=((データ-平均値)の絶対値)の総和÷データ数 ですから、定義の段階でいくら頭をひねっていても、定義の良さの比較はできません。問題は、定義の後に出てくるいろいろな理論が、どれだけスッキリして数学的に美しいものなるか、です。 もっと先へ進んでから、またこの問題を考えてみるといいでしょう。

共感・感謝の気持ちを伝えよう!

  • 回答No.2

>分散=((データ-平均値)の2乗)の平方根の総和÷個数 >が正しいような気がします。 どうして今のような分散の定義が定着したのかという正確な歴史的な経緯は知りませんが、一つには独立な場合には加算が成り立つという扱いやすさがあると思います。 二つの確率変数x1, x2があり、それぞれn個の平均と分散をμ1,V1, μ2、V2賭します。 V1 = Σ(x1-μ1)^2/n, V2 = Σ(x2-μ2)^2/n この二つの変数の和x1+x2の分散を考えます。サイコロを二つ投げたときの目の合計のようなものを思い浮かべてください。この分散V(1+2)を計算します。平均はμ1+μ2なので定義にしたがって V(1+2)=Σ[(x1+x2)-(μ1+μ2)]^2/n =Σ[(x1-μ1)+(x2-μ2))]^2/n =Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n +2Σ[(x1-μ1)(x2-μ2)]/n となりますが、x1,x2が独立の場合は第3項が0になるので V(1+2)=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n = V1+V2 となり、x1+x2の分散をx1とx2の分散の加算で求めることができます。 サイコロのようにx1とx2が同じものであれば分散が等しいのでV1=V2=Vと置けば V(1+2)=2V のように求めることができます。 分散の定義を V = Σ√[(x1-μ1)^2]/n = Σ|x1-μ1|/n としてしまうと、こうは行きません。

共感・感謝の気持ちを伝えよう!

  • 回答No.1
noname#227064
noname#227064

> 分散は平均からのずれを出すのであれば、 > 分散=((データ-平均値)の2乗)の平方根の総和÷個数 > が正しいような気がします。 その定義は、平均値からの差の絶対値の平均と同じですよね。 私もそう思ったことがありますので、お気持ちが良くわかります。 しかし、絶対値記号の出てくると場合わけで苦労したことがないでしょうか? 絶対値記号が出てくると取り扱いが少し面倒なので、2乗のままの方がいいのです。 また、分散の加法性というよい性質があることも2乗の方が使われる理由でしょう。

共感・感謝の気持ちを伝えよう!

関連するQ&A

  • 統計 標準偏差について素朴な疑問

    SDについて、標準偏差は、データのばらつきを表す分散に平方根をつけた値である。分散に平方根をつけることによって、データと同じ単位で比較できるのだ。 という理解をしています。 そこで素朴な疑問です。データのばらつきをデータの単位と同じ水準でみたいのなら、わざわざ二乗して平方根つけるなんてめんどくさいことしないで、各データの平均値の差を絶対値で求めて平均値を求めればいいのでは??と思いました。 どんな弊害が出てくるのでしょう?教えてください。

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • データのばらつきを評価する方法についての質問です.

    データのばらつきを評価する方法についての質問です. ばらつきを数値で表すために,分散という値が用いられます.そのためにまず,各データの平均値からのずれの総和を求めます.この時,(データ-平均値)の総和だとゼロになってしまいます.データが平均値よりも小さいと,(データ-平均値)がマイナスになるからです.そこで,(データ-平均値)を2乗することにより,マイナスをプラスに変える,といつも説明されています. ここからが質問です.(データ-平均値)がマイナスになったとき,それをプラスに変えるためならば,2乗しなくても絶対値をとれば良いのではないでしょうか?その後,(データ-平均値)の総和を計算すれば,2乗の総和を求めるより計算が容易ですし,単位も各データの単位と一致します.けれでも,そういう方法が用いられない理由は何なのでしょうか? よろしくお願い致します.

  • 標準偏差と分散の単位についての質問です.

    標準偏差と分散の単位についての質問です. データのばらつきを評価する1つの手段として,分散が使われます.この時,分散の計算式から,「分散の単位は,標本のデータの2乗である.そこで標本のデータと単位をそろえるために,平方根を取り,標準偏差とする」と,しばしば説明されます.この説明の,特に前半部分がピンときません. 例えば標本の単位がメートルであった時,分散の単位は平方メートルになります.「そりゃ,機械的にそうなるよな」と,私はまず思います.次に「単位が平方メートルということは,じゃあ,分散というものは面積か?」と考えてしまいます.そして「長さのばらつきを評価したいだけなのに,なぜ面積なんかが登場するのだ」,と混乱します.標本の単位がグラムであれば,「グラムの2乗ってなんなんだ?」とますます混乱します. 混乱しないためにはどのように考えれば良いのか,アドバイスをいだたければ幸いです. メートルの2乗だから面積,などと具体的に踏み込んでしまうのがいけないのでしょうか?メートルの2乗はメートルの2乗以上のものではなく(つまり面積を意味しているわけではなく),機械的にメートルの2乗になっているだけなのでしょうか?グラムの2乗についてもそうで,その具体的な意味を考えることが無意味なのでしょうか? それとも,グラムの2乗にもちゃんと意味があって,混乱するのは,私が単位というものの本質を理解していないからでしょうか?

  • 分散(2乗平均)を求めるとき

    データがあって、その分散を求めようとしています。分散=(2乗平均-平均の2乗)で計算を試みているのですが、困った点がありまして質問させていただきました。もしお時間よろしければお願いいたします。 ・分散を求めるとき、「各データを2乗したものの和÷データの個数(2乗平均)」と「各データの和÷データの個数→これを2乗(平均の2乗)」において、「データ」が無数(データの和が無限級数のようになってる)のとき計算はどうなるのでしょうか? いい例えでないですが、例えばデータが、実力伯仲の3人の力士が巴戦(先に連勝した者の勝ちで、誰かが連勝するまで延々と勝負は続く)などで複数人から一人の勝者を決まるまでの回数など。このように決まらない場合は回数は延々と増えていくような。指針、アドバイスなどあればお教えくださいm(_ _)m ・あと、上に関連する計算の一部で自分なりに出した式なのですが、 「n^2・x^n-2(ただしx^∞→0)」のn=1から∞までの和というのは求められるでしょうか?求められないでしょうか?(2つもスイマセン)

  • 統計(帰無仮説)についての質問です。

    現在、統計について勉強しています。 問題集を解いていてどうしても解決しないので、どなたかお力をお貸しください。 男10人と女12人の血色素量を測定したところ、以下の通りであった。このデータから、男と女の血色素量の平均値に違いがあるかどうかを統計的に検定したい。なお、血色素量の平均値は、男15.9g/dl、女14.2g/dlである。また不偏分散はそれぞれ0.46、0.28であり、合併した分散は0.37である。 この時のt値は? という問題で苦戦しています。 男 15.6 16.8 15.5 15.2 16.2 15.9 16.3 14.6 16.4 16.5 女 14.1 13.4 14.1 14.9 14.6 14.3 14.5 13.8 14.2 14.7 13.1 14.3 検定量t0の解き方で解いているのですが解答と合いません。 正解は6.78なのですが、 どうしても6.58になります。 途中式などの解説もない問題集です。 計算に使うデータが違うのかそもそも、 計算が違うのかが分からず困っています。 (1)男女の平均値を求め(15.05)ました。 (2)合併した分散0.37÷データ数22。 (3)(2)の平方根を求めました。 (4)(1)を(3)の数値で割って求めた結果、6.58になります。 独学なので、難しい用語ではなく、 簡易な解説をしていただけると助かります。 よろしくお願いします。

  • 標準偏差算出方法をご教授ください。

    下記の数値の標準偏差を出し方を教えてください。 不安です。わからないと思います。 (1)21.8 (2)22.3 (3)21.9 (4)21.8 (5)22.1 ・与えられた数値の集合の標準偏差  1) 平均を求める  2) 平均と各数値の差を求め、それを二乗する  3) それを、データの個数で割る  4) その平方根を求める  これで、 0.193 が求められます。 ・与えられた数値が、ある大きな集団からとられた数値だとして、もとの大きな集団の標準偏差を推定する  上の 3) を、「データの個数 - 1」で割る に読み替えます。  これで、 0.217 が求められます。 上記の【データ個数 -1】=4(合っていますか?)で割るとすると どの数値を割ればよいか教えてください。

  • エクセル STDEVとSTDEVPの違い

    エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。 宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。 (例) セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。 また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。 では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

  • 結局その数値 分散,標準偏差の数値は何?

    こんにちは。  計算は公式に入れてなんとかできました。次の問題です。  問題 5人の生徒の英語のテストの得点xである。       50, 70, 90, 80, 50 (点)    (1) 偏差の2乗の平均値を求めることにより,分散s^2を求めよ。    (2) 標準偏差を求めよ。  (1) 平均値 点数総和 340なので,340/5=68(点)     偏差の平方の和 1280なので, s^2=1280/5=256  (2) 標準偏差 s=√256=16(点)  この256とか16点の数値の意味が教科書になく、16点だから何?という ことです。  分散は標準偏差をもとめる段階での数値と理解していいのでしょうか。

  • 分散について

    分散には標本分散と普遍分散と2種類あるのですが平均との差の平方和をその母集団の個数で割るか個数-1で割るかの違いなのですが、これらの使い分けが分かりません。また普遍分散がどうして普遍なのかも分かりません。分散の使い分けや普遍分散の普遍性を説明できる方もしくは、分かりやすく解説してあるサイト等を知っている方がいましたら是非よろしくお願いします。