• ベストアンサー

分散の公式で・・

各データと平均の差を2乗してデータ数で割る という方法と 各データと平均の差を2乗して(データ数-1)で割る という方法の2つがあるのですが、どちらが正しいのでしょうか? 普遍分散と分散と呼ばれているそうですが、何が何だかで・・ 下記に2つ式が載っています。どうかご享受願お願いいたします。 http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

母集団のデータ(対象とするもの全て)なら、分散。 しかし、母集団のデータを全て得るのは、困難です。ある学校のあるクラスについて知りたいのなら、50人程度だから、なんとかなるでしょう。  それでも、その学年、その学校、その市町村のその年齢、と増えるに従って、困難になります。  知りたいのは、母集団の分散です。そこで統計学的な方法(無作為抽出)で何人かをサンプルとして選びだし、母集団の分散を推定します。この場合は、n-1で割った不偏標準偏差の方が母集団の分散に近いのだそうです。その根拠は知りませんが、数学的に証明出来るとのことです。

その他の回答 (3)

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.4

昔見た本だと, 「標本から分散を計算するとどうしても母集団の分散より小さくなる傾向がある (なぜなら標本平均は*標本から得られた分散*を*最小化*するため値となる) ため, 不偏分散を計算するためにはデータ数ではなくデータ数から 1 だけ減らした値で割らないといけない」 って書いてあったような. で, なんで 1 かというと「平均を固定したまま標本をとろうとすると, どうしても最後の 1個は自動的に決まってしまうから」(つまり自由度が 1 減るから) だとか.

  • backs
  • ベストアンサー率50% (410/818)
回答No.3

ウィキぺディアにも「標本数nが大きければ,分散と不偏分散の差は小さい。」と書いてありますが,前者の場合だと母分散の分散と一致せず,少々小さくなる傾向があります。 サンプルサイズが大きければそれほど問題にはなりませんが,サンプルサイズが小さい場合は後者の不偏分散の公式を用いた方が良いわけです。ちなみにウィキぺディアには「標本数」とありますが,正しくは標本の大きさもしくはサンプルサイズですね。

  • Willyt
  • ベストアンサー率25% (2858/11131)
回答No.2

 統計データというのは対象とするデータを全部集め、これによって処理するのが筋なのですが、これが不可能な場合、限られたデータで処理をしなけければならないことの方がむしろ多いくらいです。このような場合には全部のデータが揃っているときの分散と限られた数からだけ得られた分散は当然変って来ます。そのような場合には二乗平均をとるときにデータの数から1を減じたもので平均をとるということが行なわれます。つまり限られた標本で母集団を推定するときには安全を見て少し太目の分散を摂るべきであるという考え方からこういう方法をとるのです。  ではこれが2や3ではなく、どうして1なのかということに関しては尋ねない方が身のためです。難しすぎるのです。信頼してください(^_-) 実は私もパスしてます(^_^;)

関連するQ&A

  • 分散について

    分散には標本分散と普遍分散と2種類あるのですが平均との差の平方和をその母集団の個数で割るか個数-1で割るかの違いなのですが、これらの使い分けが分かりません。また普遍分散がどうして普遍なのかも分かりません。分散の使い分けや普遍分散の普遍性を説明できる方もしくは、分かりやすく解説してあるサイト等を知っている方がいましたら是非よろしくお願いします。

  • 実効湿度計算式

    実効湿度を自分で計算してみたいので式を教えてください。 ウイキペディアで紹介されている式がありますが、式中に二乗や3乗がでてきて、 意味がわかりません。ほんとうは、もっと簡単なんじゃないでしょうか? 当日~過去3日ほどの平均湿度を想定して実際に数値をだしてみて いただけたら、非常にありがたいです。 http://ja.wikipedia.org/wiki/%E5%AE%9F%E5%8A%B9%E6%B9%BF%E5%BA%A6

  • 標本分散と不偏分散

    平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の2乗?)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。 単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け?)が不偏分散ですか? また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。 宜しくお願いします。

  • 2乗平均速度

    物理の「気体の分子運動」の単元で、 「2乗平均速度」の公式が出てきますよね。 なんでわざわざ「2乗平均速度」にしなくちゃいけないんでしょうか? 普通に「平均速度の2乗」にしてはいけないのでしょうか? 私の言っている公式がなんのことか伝わらない人は、 URLを参考にして下さい。 http://ja.wikipedia.org/wiki/2%E4%B9%97%E5%B9%B3%E5%9D%87%E9%80%9F%E5%BA%A6

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 女より男の自殺率が高いのはなぜ?

    http://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E8%87%AA%E6%AE%BA%E7%8E%87%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88

  • マイナスを含むデータの平均と分散

    例えば, {-0.0027,0.0005,-0.0006,0.0003,-0.0002,-0.0002,0.0016,-0.0017,-0.0003,-0.0004,-0.0005,-0.0007} のようなマイナスを含む誤差データがあるとします. この誤差データの平均と分散を求めたいとしますと,単純に足してデータ数で割っただけだとマイナスでキャンセルされてしまって平均とは呼べないと思います. そこで平均二乗誤差を使用してデータの平均を求めた場合,分散を計算するときに使用する平均値のデータとしては,平均二乗誤差を使用しても良いのでしょうか? このようなデータ処理の仕方について,わかりやすい本がありましたらついでに教えていただけると助かります.

  • この初等的証明は何故、証明になってるのですか?

    https://ja.wikipedia.org/wiki/%E4%BB%A3%E6%95%B0%E5%AD%A6%E3%81%AE%E5%9F%BA%E6%9C%AC%E5%AE%9A%E7%90%86

  • 分散(標準偏差)は、なぜ「二乗」を使うの・・・

    昔の「おさらい」をしている者です。 「分散」とは ”平均値からの差の二乗 の平均”とありますが なぜ あえて「二乗」を採用したのでしょうか。 例えば「平均値からの差の絶対値の平均」、「平均値からの差の4乗の平均」・・とかを考えることも出来るのではと思いますが。 「二乗」に何か意味があるのではと思うのですが、教えてください。

  • 大数の法則について

    大数の法則について、例えば、wikipedia http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87 なんかでは難しく書いてあってあまりよく分からないのですが、 データ数nが無限に大きくなったときに、その確率変数Xの離散的 な平均が連続的な平均に収束するということでしょうか? このような理解であっているか不安なので、ご指摘お願いします。