- ベストアンサー
分散の公式で・・
各データと平均の差を2乗してデータ数で割る という方法と 各データと平均の差を2乗して(データ数-1)で割る という方法の2つがあるのですが、どちらが正しいのでしょうか? 普遍分散と分散と呼ばれているそうですが、何が何だかで・・ 下記に2つ式が載っています。どうかご享受願お願いいたします。 http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE
- ponta20
- お礼率26% (84/319)
- 数学・算数
- 回答数4
- ありがとう数4
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
母集団のデータ(対象とするもの全て)なら、分散。 しかし、母集団のデータを全て得るのは、困難です。ある学校のあるクラスについて知りたいのなら、50人程度だから、なんとかなるでしょう。 それでも、その学年、その学校、その市町村のその年齢、と増えるに従って、困難になります。 知りたいのは、母集団の分散です。そこで統計学的な方法(無作為抽出)で何人かをサンプルとして選びだし、母集団の分散を推定します。この場合は、n-1で割った不偏標準偏差の方が母集団の分散に近いのだそうです。その根拠は知りませんが、数学的に証明出来るとのことです。
その他の回答 (3)
- Tacosan
- ベストアンサー率23% (3656/15482)
昔見た本だと, 「標本から分散を計算するとどうしても母集団の分散より小さくなる傾向がある (なぜなら標本平均は*標本から得られた分散*を*最小化*するため値となる) ため, 不偏分散を計算するためにはデータ数ではなくデータ数から 1 だけ減らした値で割らないといけない」 って書いてあったような. で, なんで 1 かというと「平均を固定したまま標本をとろうとすると, どうしても最後の 1個は自動的に決まってしまうから」(つまり自由度が 1 減るから) だとか.
- backs
- ベストアンサー率50% (410/818)
ウィキぺディアにも「標本数nが大きければ,分散と不偏分散の差は小さい。」と書いてありますが,前者の場合だと母分散の分散と一致せず,少々小さくなる傾向があります。 サンプルサイズが大きければそれほど問題にはなりませんが,サンプルサイズが小さい場合は後者の不偏分散の公式を用いた方が良いわけです。ちなみにウィキぺディアには「標本数」とありますが,正しくは標本の大きさもしくはサンプルサイズですね。
- Willyt
- ベストアンサー率25% (2858/11131)
統計データというのは対象とするデータを全部集め、これによって処理するのが筋なのですが、これが不可能な場合、限られたデータで処理をしなけければならないことの方がむしろ多いくらいです。このような場合には全部のデータが揃っているときの分散と限られた数からだけ得られた分散は当然変って来ます。そのような場合には二乗平均をとるときにデータの数から1を減じたもので平均をとるということが行なわれます。つまり限られた標本で母集団を推定するときには安全を見て少し太目の分散を摂るべきであるという考え方からこういう方法をとるのです。 ではこれが2や3ではなく、どうして1なのかということに関しては尋ねない方が身のためです。難しすぎるのです。信頼してください(^_-) 実は私もパスしてます(^_^;)
関連するQ&A
- 統計学 分散について
今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。 ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。 分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。 2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。 言ってる事がいまいち伝わらないかと思いますが・・・ どなたか解説お願いします。 分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・
- 締切済み
- 数学・算数
- 女より男の自殺率が高いのはなぜ?
http://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E8%87%AA%E6%AE%BA%E7%8E%87%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88
- 締切済み
- 心理学・社会学
- マイナスを含むデータの平均と分散
例えば, {-0.0027,0.0005,-0.0006,0.0003,-0.0002,-0.0002,0.0016,-0.0017,-0.0003,-0.0004,-0.0005,-0.0007} のようなマイナスを含む誤差データがあるとします. この誤差データの平均と分散を求めたいとしますと,単純に足してデータ数で割っただけだとマイナスでキャンセルされてしまって平均とは呼べないと思います. そこで平均二乗誤差を使用してデータの平均を求めた場合,分散を計算するときに使用する平均値のデータとしては,平均二乗誤差を使用しても良いのでしょうか? このようなデータ処理の仕方について,わかりやすい本がありましたらついでに教えていただけると助かります.
- ベストアンサー
- 物理学
- この初等的証明は何故、証明になってるのですか?
https://ja.wikipedia.org/wiki/%E4%BB%A3%E6%95%B0%E5%AD%A6%E3%81%AE%E5%9F%BA%E6%9C%AC%E5%AE%9A%E7%90%86
- ベストアンサー
- 数学・算数
- 分散(標準偏差)は、なぜ「二乗」を使うの・・・
昔の「おさらい」をしている者です。 「分散」とは ”平均値からの差の二乗 の平均”とありますが なぜ あえて「二乗」を採用したのでしょうか。 例えば「平均値からの差の絶対値の平均」、「平均値からの差の4乗の平均」・・とかを考えることも出来るのではと思いますが。 「二乗」に何か意味があるのではと思うのですが、教えてください。
- ベストアンサー
- 数学・算数