• ベストアンサー

統計 標準偏差について素朴な疑問

SDについて、標準偏差は、データのばらつきを表す分散に平方根をつけた値である。分散に平方根をつけることによって、データと同じ単位で比較できるのだ。 という理解をしています。 そこで素朴な疑問です。データのばらつきをデータの単位と同じ水準でみたいのなら、わざわざ二乗して平方根つけるなんてめんどくさいことしないで、各データの平均値の差を絶対値で求めて平均値を求めればいいのでは??と思いました。 どんな弊害が出てくるのでしょう?教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • gootaroh
  • ベストアンサー率47% (396/826)
回答No.1

2乗して平方根を取るのと、絶対値を取るのとでは、結果的に同じなのでしょ?という疑問ですよね。 確かに同じですので、標準偏差を求めるだけならばどっちでもいいでしょう。 ただ、数学上のお約束では、2乗して平方根を取ることになっています。 なぜなら、標準偏差は標本のばらつきぐあいを示しますが、標準からどれぐらいかけ離れているかを計るモノサシとして「平方偏差」というのもあるからです。 これは、この2乗された差をすべて足してサンプルの大きさから1引いた数値で割ったものです。 ですので、最初から2乗して平方根を取っていた方が、あとあと別のものに利用でき、何かと便利なのです。 それから、ここから先は私の想像ですが、昔、コンピュータで式を作る時も、2乗して平方根を取った方が楽だったかもしれません。 今のようにABS関数やAVERAGE関数などがなかったころは、2乗して平方根を取る方が数式作成上楽だったかもしれません。 絶対値ということになると、まずその数値が正の値か負の値かを確定させて、正の値ならばそのまま、負の値ならば(-1)を乗じるなど、場合わけをしなくてはならない分、面倒だったのではないでしょうか。

gongfuu
質問者

お礼

ありがとうございます。 とても分かりやすかったです。 幅広い知識をお持ちなのですね。うらやましい。ありがとうございました。

関連するQ&A

  • 標準偏差について

    標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 -----  計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 -----  計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。

  • 標準偏差について

    下記、アドバイスをお願いします。 前提:標準偏差=データの各観測値と平均との差の2乗の平均を取って、その平方根を取った値。正規化された形で表されたデータのばらつきを示す数値。 1.0.86 2.4.4 3.-0.72 4.0.44 5.1.57 6.1.13 7.-1.70 8.-0.58 上記の平均は、0.86←これは、理解できます。 上記の標準偏差は、1.86←これが、分かりません。 上記の標準偏差に対する比率0.36←これも、分かりません。 標準偏差・標準偏差に対する比率の出し方の指南をお願いします。 宜しくお願いします。

  • 標準偏差の成り立ち

    標準偏差の意味について、質問致します。 (質問を簡潔にするため、母集団を分析の対象とします) 標準偏差を求める場合、偏差の2乗和をデータ数で割り、 その値の平方根を計算しますよね。 なぜ、偏差2乗和の平方根で求めた数値を、 データ数で割るという方法ではないのでしょうか?? (偏差2乗和)^0.5÷データ数 の方がイメージがつかみやすい気がします… 分散は、対象データとは次元(単位?)が違うので、 感覚的に分かり易いように、標準偏差が使用されると 理解しています。 単位を揃えることが目的ならば、データ数で割るという 行為はルートの外に出すべきなのではと考えてしまいます。 私は、どこで訳がわからなくなっているのでしょうか。。。 アドバイス頂ければ幸いです。

  • 標準偏差と分散の単位についての質問です.

    標準偏差と分散の単位についての質問です. データのばらつきを評価する1つの手段として,分散が使われます.この時,分散の計算式から,「分散の単位は,標本のデータの2乗である.そこで標本のデータと単位をそろえるために,平方根を取り,標準偏差とする」と,しばしば説明されます.この説明の,特に前半部分がピンときません. 例えば標本の単位がメートルであった時,分散の単位は平方メートルになります.「そりゃ,機械的にそうなるよな」と,私はまず思います.次に「単位が平方メートルということは,じゃあ,分散というものは面積か?」と考えてしまいます.そして「長さのばらつきを評価したいだけなのに,なぜ面積なんかが登場するのだ」,と混乱します.標本の単位がグラムであれば,「グラムの2乗ってなんなんだ?」とますます混乱します. 混乱しないためにはどのように考えれば良いのか,アドバイスをいだたければ幸いです. メートルの2乗だから面積,などと具体的に踏み込んでしまうのがいけないのでしょうか?メートルの2乗はメートルの2乗以上のものではなく(つまり面積を意味しているわけではなく),機械的にメートルの2乗になっているだけなのでしょうか?グラムの2乗についてもそうで,その具体的な意味を考えることが無意味なのでしょうか? それとも,グラムの2乗にもちゃんと意味があって,混乱するのは,私が単位というものの本質を理解していないからでしょうか?

  • 標準偏差の意味がわかりません

    標準偏差の意味がわかりません。 1  平均との差を求め 2 それを2乗して 3 その総和を求めて 4 データ数で割って 5 その平方根 以上が一般的な標準偏差の説明の説明のようですが、4、5が入れ換わり . . 3 その総和を求めて 4 その平方根 5 その平方根をデータ数で割る ならば標準偏差の値の意味が理解できるのですが? 数学に疎い私でも理解できるような説明をお願いします。 ネット上も探したのですがよくわかりません。

  • 標準偏差

    平均を求め、平均との差の2乗を求め、差の2乗の平均を求め、平方根をはずしましたが、これで標準偏差は求まっているのでしょうか。 平均:AVERAGE 平方根:SQRT

  • 統計 基準値の標準偏差はなぜ1か

    統計の勉強をしていて、標準偏差とはデータの ばらつき具合、分散と書かれていました。 平均から比べてどのくらい差があるかという事は 理解しました。 しかし基準値を勉強していて、 本には基準値の平均は必ず0である。標準偏差は 必ず1であると書かれています。標準偏差は データのばらつき具合なのに、なぜ基準値の元では すべての標準偏差は1になるのでしょうか?

  • 標準偏差について

    標準偏差とは、 「数列の平均と各値の差を2乗し、それらを平均したものの平方根」 ということがシスアドの教科書に書いてあったのですが、何故こうなるのかわかりません。 何故こうなるのでしょうか?

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 標準偏差と誤差

    初めて質問します。 一般に標準偏差の計算は,母集団=標本集団とすると (測定値-平均値)の2乗の和をデータ数で割ったものの平方根だと思います。 (EXCELのSTDEVP関数もこの計算をしているようです。) ところで,大学のときに習った平均自乗誤差は, 母集団=標本集団の場合 (測定値-平均値)の2乗の和をデータ数の2乗で割ったものの平方根 ただし,母集団>標本集団の場合は, (測定値-平均値)の2乗の和を (データ数*データ数-1)で割ったものの平方根 以上のように習いました。 そこで質問です。 1.分母が標準偏差は1乗で,平均自乗誤差は2乗なのはなぜでしょうか? 2.母集団>標本集団の場合は,(データ数*データ数-1)になるのはなぜでしょうか? 3.EXCELには母集団=標本集団のSTDEVP関数と 母集団>標本集団のSTDEV関数がありますが,母集団>標本集団の場合の標準偏差の計算というのはどんな計算をしているのでしょうか。 よろしくお願いします。