締切済み

統計学　分散について

2009/10/15 02:42

今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。このHPで、データのばらつきを数値で表すという、項目があります。　ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・平均値からのずれ（つまり個々のデータと平均値との差）を足せば、ばらつきの数値になるのではないかと考えます。つまり、ばらつき案1＝（データ－平均値）の総和ということです。しかし、これですと、データが小さいときに（データ－平均値）はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、２乗することでマイナスをプラスにします。次の案はこうなります。ばらつき案2＝（（データ－平均値）の２乗）の総和しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、ばらつき案3＝（（データ－平均値）の２乗）の総和÷個数これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。分散＝（（データ－平均値）の２乗）の総和÷個数分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。と、あります。　分散は平均からのずれを出すのであれば、分散＝（（データ－平均値）の２乗）の平方根の総和÷個数が正しいような気がします。例えば平均から+5ｃｍの２乗は25なのに、 +0.3ｃｍの場合２乗は0.09になってしまい、大きくぶれたものはより大きく、小さくぶれたものはより小さくなってしまいます。ばらつき案1でデータから平均値を引いた答えに+と-があり、総和を求めると、この+と-のブレがお互いに干渉しあって数値を0に近くする為、一度２乗して+と-を無くしたのに、何故その後、そのままなのかよく分かりません。　２乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。　言ってる事がいまいち伝わらないかと思いますが・・・　どなたか解説お願いします。　分散とはそういう計算式なんだ！と、言ってしまえばそれまでですが、どうしても納得がいきません・・・

guns_and_roses
お礼率75% (12/16)

数学・算数
回答数4
ありがとう数0

みんなの回答 （4）
専門家の回答

みんなの回答

ur2c
ベストアンサー率63% (264/416)

2009/10/15 16:04 回答No.4

私も学生時代、同じ疑問を持った一人です。データのまんなかを表す指標も、算術平均だけがまんなかの指標ではありません。中央値 http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%A4%AE%E5%80%A4 とか幾何平均 http://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87 とか、最小最大を除いた平均とかが使われることがあります。同様にばらつきの指標も分散 V あるいは標準偏差 SD = V^(1/2) (standard deviation) だけがばらつきの指標ではありません。たとえば MAD (median absolute deviation) http://en.wikipedia.org/wiki/Median_absolute_deviation とか IQR (interquartile range) http://en.wikipedia.org/wiki/Robust_measures_of_scale とか。ご提案の平均絶対偏差も average absolute deviation とか MD (mean absolute deviation) とか呼ばれて、実際に使われています。 http://en.wikipedia.org/wiki/Absolute_deviation 標準偏差 SD と平均絶対偏差 MD の優劣比較は 1914 年頃から 1920 年頃に行われたそうです。その時代には Fisher が論争に勝って V と SD が使われるようになりました。しかし現代的な視点からは、そのときの論拠は説得的でない、という意見もあります。詳しくは http://www.leeds.ac.uk/educol/documents/00003759.htm をご覧ください。結局 MD でなく SD が使われるようになったのは、一言で済ませるなら歴史的な事情だと思います。その事情は数式の扱いやすさを含み、特に正規分布が数理統計学の中心的な地位を占めた事に関係します。ところが測定値が完全な正規分布からのランダムサンプルではなく、たとえば転記ミスや伝送エラーのような異常値を僅かながら含むという現実的な仮定を置くと、SD の MD に対する統計理論上の優位は崩れます。そしてコンピュータが駆使できるという状況のもとでは数式の扱いやすさも絶対的な優位をもたらさず、「MD のほうが SD より良いかもしれない」という意見につながっていると思います。あと 100 年たったら、どうなっているでしょうね？

全文を見る

ログインすると、全ての回答が全文表示されます。

Ishiwara
ベストアンサー率24% (462/1914)

2009/10/15 13:51 回答No.3

「矛盾が出ない」だけでよければ、バラツキの定義方法はいくらでもあります。例えば、次のようなものもアリです。ばらつき案4＝（（データ－平均値）の絶対値）の総和÷データ数ですから、定義の段階でいくら頭をひねっていても、定義の良さの比較はできません。問題は、定義の後に出てくるいろいろな理論が、どれだけスッキリして数学的に美しいものなるか、です。もっと先へ進んでから、またこの問題を考えてみるといいでしょう。

全文を見る

ログインすると、全ての回答が全文表示されます。

hitokotonusi
ベストアンサー率52% (571/1086)

2009/10/15 10:24 回答No.2

>分散＝（（データ－平均値）の２乗）の平方根の総和÷個数 >が正しいような気がします。どうして今のような分散の定義が定着したのかという正確な歴史的な経緯は知りませんが、一つには独立な場合には加算が成り立つという扱いやすさがあると思います。二つの確率変数x1, x2があり、それぞれn個の平均と分散をμ1，V1, μ2、V2賭します。 V1 = Σ(x1-μ1)^2/n, V2 = Σ(x2-μ2)^2/n この二つの変数の和x1+x2の分散を考えます。サイコロを二つ投げたときの目の合計のようなものを思い浮かべてください。この分散V(1+2)を計算します。平均はμ1＋μ2なので定義にしたがって V(1+2)=Σ[(x1+x2)-(μ1＋μ2)]^2/n =Σ[(x1-μ1)+(x2-μ2))]^2/n =Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n +2Σ[(x1-μ1)(x2-μ2)]/n となりますが、x1,x2が独立の場合は第3項が0になるので V(1+2)=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n = V1+V2 となり、x1+x2の分散をx1とx2の分散の加算で求めることができます。サイコロのようにx1とx2が同じものであれば分散が等しいのでV1=V2=Vと置けば V(1+2)=2V のように求めることができます。分散の定義を V = Σ√[(x1-μ1)^2]/n = Σ|x1-μ1|/n としてしまうと、こうは行きません。

全文を見る

ログインすると、全ての回答が全文表示されます。

noname#227064

2009/10/15 06:49 回答No.1

> 分散は平均からのずれを出すのであれば、 > 分散＝（（データ－平均値）の２乗）の平方根の総和÷個数 > が正しいような気がします。その定義は、平均値からの差の絶対値の平均と同じですよね。私もそう思ったことがありますので、お気持ちが良くわかります。しかし、絶対値記号の出てくると場合わけで苦労したことがないでしょうか？絶対値記号が出てくると取り扱いが少し面倒なので、2乗のままの方がいいのです。また、分散の加法性というよい性質があることも2乗の方が使われる理由でしょう。

全文を見る

ログインすると、全ての回答が全文表示されます。

関連するQ&A

統計　標準偏差について素朴な疑問
ＳＤについて、標準偏差は、データのばらつきを表す分散に平方根をつけた値である。分散に平方根をつけることによって、データと同じ単位で比較できるのだ。という理解をしています。そこで素朴な疑問です。データのばらつきをデータの単位と同じ水準でみたいのなら、わざわざ二乗して平方根つけるなんてめんどくさいことしないで、各データの平均値の差を絶対値で求めて平均値を求めればいいのでは？？と思いました。どんな弊害が出てくるのでしょう？教えてください。
- ベストアンサー
- 数学・算数
標本分散と不偏分散
平方和で、個々の測定値と平均値の差の2乗(偏差の絶対値の２乗？)の総和を出せますね。その総和から、測定値と平均値の差の2乗の平均を出したものが標本分散。単なる平均よりは余裕を持って出した平均(平均値の一部をn-1等分で振り分け？)が不偏分散ですか？また、不偏分散と標本分散は実際、どちらも使われるのでしょうか。宜しくお願いします。
- ベストアンサー
- 測定・分析
データのばらつきを評価する方法についての質問です．
データのばらつきを評価する方法についての質問です．ばらつきを数値で表すために，分散という値が用いられます．そのためにまず，各データの平均値からのずれの総和を求めます．この時，（データ－平均値）の総和だとゼロになってしまいます．データが平均値よりも小さいと，（データ－平均値）がマイナスになるからです．そこで，（データ－平均値）を2乗することにより，マイナスをプラスに変える，といつも説明されています．ここからが質問です．（データ－平均値）がマイナスになったとき，それをプラスに変えるためならば，2乗しなくても絶対値をとれば良いのではないでしょうか？その後，（データ－平均値）の総和を計算すれば，2乗の総和を求めるより計算が容易ですし，単位も各データの単位と一致します．けれでも，そういう方法が用いられない理由は何なのでしょうか？よろしくお願い致します．
- ベストアンサー
- 数学・算数
標準偏差と分散の単位についての質問です．
標準偏差と分散の単位についての質問です．データのばらつきを評価する1つの手段として，分散が使われます．この時，分散の計算式から，「分散の単位は，標本のデータの2乗である．そこで標本のデータと単位をそろえるために，平方根を取り，標準偏差とする」と，しばしば説明されます．この説明の，特に前半部分がピンときません．例えば標本の単位がメートルであった時，分散の単位は平方メートルになります．「そりゃ，機械的にそうなるよな」と，私はまず思います．次に「単位が平方メートルということは，じゃあ，分散というものは面積か？」と考えてしまいます．そして「長さのばらつきを評価したいだけなのに，なぜ面積なんかが登場するのだ」，と混乱します．標本の単位がグラムであれば，「グラムの2乗ってなんなんだ？」とますます混乱します．混乱しないためにはどのように考えれば良いのか，アドバイスをいだたければ幸いです．メートルの2乗だから面積，などと具体的に踏み込んでしまうのがいけないのでしょうか？メートルの2乗はメートルの2乗以上のものではなく（つまり面積を意味しているわけではなく），機械的にメートルの2乗になっているだけなのでしょうか？グラムの2乗についてもそうで，その具体的な意味を考えることが無意味なのでしょうか？それとも，グラムの2乗にもちゃんと意味があって，混乱するのは，私が単位というものの本質を理解していないからでしょうか？
- ベストアンサー
- 数学・算数
分散（２乗平均）を求めるとき
データがあって、その分散を求めようとしています。分散＝（２乗平均－平均の２乗）で計算を試みているのですが、困った点がありまして質問させていただきました。もしお時間よろしければお願いいたします。・分散を求めるとき、「各データを２乗したものの和÷データの個数（２乗平均）」と「各データの和÷データの個数→これを２乗（平均の２乗）」において、「データ」が無数（データの和が無限級数のようになってる）のとき計算はどうなるのでしょうか？いい例えでないですが、例えばデータが、実力伯仲の３人の力士が巴戦（先に連勝した者の勝ちで、誰かが連勝するまで延々と勝負は続く）などで複数人から一人の勝者を決まるまでの回数など。このように決まらない場合は回数は延々と増えていくような。指針、アドバイスなどあればお教えくださいm(_ _)m ・あと、上に関連する計算の一部で自分なりに出した式なのですが、「n^2・x^n-2(ただしx^∞→０)」のn=1から∞までの和というのは求められるでしょうか？求められないでしょうか？（２つもスイマセン）
- ベストアンサー
- 数学・算数
統計（帰無仮説）についての質問です。
現在、統計について勉強しています。問題集を解いていてどうしても解決しないので、どなたかお力をお貸しください。男10人と女12人の血色素量を測定したところ、以下の通りであった。このデータから、男と女の血色素量の平均値に違いがあるかどうかを統計的に検定したい。なお、血色素量の平均値は、男15.9g/dl、女14.2g/dlである。また不偏分散はそれぞれ0.46、0.28であり、合併した分散は0.37である。この時のt値は？という問題で苦戦しています。男　１５．６　１６．８　１５．５　１５．２　１６．２　１５．９　１６．３　１４．６　１６．４　１６．５女　１４．１　１３．４　１４．１　１４．９　１４．６　１４．３　１４．５　１３．８　１４．２　１４．７　１３．１　１４．３検定量t0の解き方で解いているのですが解答と合いません。正解は６．７８なのですが、どうしても６．５８になります。途中式などの解説もない問題集です。計算に使うデータが違うのかそもそも、計算が違うのかが分からず困っています。 (1)男女の平均値を求め（１５．０５）ました。 (2)合併した分散０．３７÷データ数２２。 (3)(2)の平方根を求めました。 (4)(1)を(3)の数値で割って求めた結果、６．５８になります。独学なので、難しい用語ではなく、簡易な解説をしていただけると助かります。よろしくお願いします。
- ベストアンサー
- 数学・算数
標準偏差算出方法をご教授ください。
下記の数値の標準偏差を出し方を教えてください。不安です。わからないと思います。 (1)21.8 (2)22.3 (3)21.9 (4)21.8 (5)22.1 ・与えられた数値の集合の標準偏差　1) 平均を求める　2) 平均と各数値の差を求め、それを二乗する　3) それを、データの個数で割る　4) その平方根を求める　これで、 0.193 が求められます。・与えられた数値が、ある大きな集団からとられた数値だとして、もとの大きな集団の標準偏差を推定する　上の 3) を、「データの個数 - 1」で割るに読み替えます。　これで、 0.217 が求められます。上記の【データ個数　-1】＝4（合っていますか？）で割るとするとどの数値を割ればよいか教えてください。
- ベストアンサー
- その他（ビジネス・キャリア）
エクセル　STDEVとSTDEVPの違い
エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。（例）セルA1～A13に1～13の数字を入力、平均値＝７、STDEVでは3.89444、STDEVPでは3.741657となります。また、平均値7と各数字の差を取り、それを２乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。では、STDEVとSTDEVPの違いは何なのでしょうか？統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。
- ベストアンサー
- オフィス系ソフト
結局その数値　分散，標準偏差の数値は何？
こんにちは。　計算は公式に入れてなんとかできました。次の問題です。　問題　５人の生徒の英語のテストの得点xである。　　　　　　50, 70, 90, 80, 50 （点）　　　(1) 偏差の２乗の平均値を求めることにより，分散s^2を求めよ。　　　(2) 標準偏差を求めよ。　(1) 平均値点数総和　340なので，340/5=68(点) 　　　　偏差の平方の和　1280なので， s^2=1280/5=256 　(2) 標準偏差　s=√256＝16（点）　この256とか16点の数値の意味が教科書になく、16点だから何？ということです。　分散は標準偏差をもとめる段階での数値と理解していいのでしょうか。
- ベストアンサー
- 数学・算数
分散について
分散には標本分散と普遍分散と2種類あるのですが平均との差の平方和をその母集団の個数で割るか個数－１で割るかの違いなのですが、これらの使い分けが分かりません。また普遍分散がどうして普遍なのかも分かりません。分散の使い分けや普遍分散の普遍性を説明できる方もしくは、分かりやすく解説してあるサイト等を知っている方がいましたら是非よろしくお願いします。
- ベストアンサー
- 数学・算数

トラックボールマウスのボールのみ販売

2024/04/29 19:17

このQ&Aのポイント

エレコムのトラックボールマウスのボールのみ販売しているかについて質問があります。
浮遊マウスのボールがよく外れるため、紛失に備えてボールのスペアが欲しいです。
購入した製品はエレコムトラックボールマウスハンディタイプ Relacon メディアコントロールボタン搭載スタンド付静音 Bluetooth ブラック M-RT1BRXBK です。

回答を見る

統計学　分散について

みんなの回答

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

統計学 分散について

みんなの回答

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

統計学　分散について

カテゴリ
一覧

専門家に質問してみよう
専門家登録