• 締切済み
  • 困ってます

標準偏差について

標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 -----  計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 -----  計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。

共感・応援の気持ちを伝えよう!

  • 回答数4
  • 閲覧数502
  • ありがとう数0

みんなの回答

  • 回答No.4

「そのまま平均するとゼロになってしまうので2乗する」という説明が、実はインチキなのです。なぜ2乗するのか、という理由には、先人たちの努力の積み重ねが含まれているのです。(インチキな説明によるなら、4乗だって6乗だっていいことになります。) 数学に限らないかもしれませんが、私たちは「体系化」された学問を習うときに「先人が苦労した課程を追いつつ」その順序で学習するのではありません。最初にその結論を「便利な道具」として、まず提供されて体系を学びます。ですから、この方法ですと「なるほどそのようなわけで2乗するのか」と納得するのは、かなり勉強が進んでからになってしまいます。そのあたりになれば「差の絶対値の平均」が、たいして役に立たないパラメータであることが分かります。 私たちは、とても自力では証明できないような定理を、毎日のように道具として使っています。「体系化された学問」というものは、そうして役に立っているのだ、と理解してください。

共感・感謝の気持ちを伝えよう!

  • 回答No.3
  • Tacosan
  • ベストアンサー率23% (3656/15482)

「平均偏差」というやつですね. 標準偏差と同じく「データのばらつき」を表す尺度なんですが, 標準偏差より扱いにくいので使われないんだそうです. 偏差の絶対値を使うなら, 平均値じゃなくて中央値を使いたい気もするなぁ. 「中央値からの偏差の絶対値の中央値」... うん, 「データのばらつき」を表す尺度としてはそれなりに合理的かもしれない. 数学的な扱いにくさはかなりのものだと思うけど.

共感・感謝の気持ちを伝えよう!

  • 回答No.2
  • sanori
  • ベストアンサー率48% (5664/11798)

もしも分布が二等辺三角形型の分布であるならば、おっしゃるような偏差の絶対値での統計は有力でしょう。 しかし、世の中にある確率分布は、現実問題、正規分布(ガウス分布)やポワッソン分布の形になっています。 それらは元々、二項分布の極限です。 私は、その説明をするときに、専ら、パチンコの釘と玉のモデルを使っています。 ここに図は描けないので、ネットで探してきたリンクを下記に示しておきます。 http://gakuen.gifu-net.ed.jp/~contents/museum/probability/page92_5.html http://gakuen.gifu-net.ed.jp/~contents/museum/probability/bin_dis.html http://gakuen.gifu-net.ed.jp/~contents/museum/probability/binomial_dis.html http://www.hokuriku.ne.jp/fukiyo/math-obe/nikou.htm ということで、正規分布等を前提とした確率統計論によって、#1さんがおっしゃるような、偉大なる先人達が残した便利ツールを利用することができるわけです。

共感・感謝の気持ちを伝えよう!

  • 回答No.1

バラツキを求めるのならば、偏差の絶対値の平均を求めれば良いのでは、ということですね。 「偏差の絶対値の平均」も立派な統計量と言うべきで、それでバラツキを把握されるのが間違っているとは言えないと思います。 ただ、お聞きしたいのは、なぜバラツキの量を把握したいのですか、それを把握して、どう利用されるおつもりですか、ということです。 例えば、製品の長さのバラツキを調べるとします。さて、バラツキを調べて、それから何をしましょうか。例えば、(1)製品の長さのバラツキを抜き取り検査で調べて、製品全体の不良率を推定したい、というのが一つの例でしょうか。ちょっと毛色を変えて(2)製品1個の長さのバラツキはわかったけど、それをn個つなげたときの長さのバラツキを推定したい、などというのもあるかも知れません。 このような要望に対して、「偏差の絶対値の平均」は現実的に無力です。一方、標準偏差は、(1)、(2)のような要望に答えてくれる統計量として活用されています。 (1)については、平均値と標準偏差σを調べれば、「では、平均からこのぐらい外れる確率は?」という数値(分布表)が、統計の教科書に必ず載っており、不良率などを見積もることができます。 (2)については、n個つなげた時には分散σ^2がn倍になりますので(分布によらずです)、標準偏差は√n 倍になると見積もることができます。 先にも言ったように、残念ながら「偏差の絶対値の平均」ではこのような応用をすることができません。 多くの分布関数が平均値と分散(or 標準偏差)をパラメタとして記述されていることもありますし、分散や平均値に対しては数学的な多くの議論も可能ですので、特別な理由がなければ標準偏差でバラツキを把握しておくのが無難だと思います。

共感・感謝の気持ちを伝えよう!

関連するQ&A

  • 統計 標準偏差について素朴な疑問

    SDについて、標準偏差は、データのばらつきを表す分散に平方根をつけた値である。分散に平方根をつけることによって、データと同じ単位で比較できるのだ。 という理解をしています。 そこで素朴な疑問です。データのばらつきをデータの単位と同じ水準でみたいのなら、わざわざ二乗して平方根つけるなんてめんどくさいことしないで、各データの平均値の差を絶対値で求めて平均値を求めればいいのでは??と思いました。 どんな弊害が出てくるのでしょう?教えてください。

  • 標準偏差等の求め方

    公式はわかるのですが、教科書には細かい説明がなく、どう計算していいのかわからないので教えてください。(少し数学もはいるかも・・・) 薬包紙の重さを測った結果 0.4125 0.4137 0.4205 0.4196 0.4139 0.4187 0.4099 となっていて、平均値は0.4161になりました。 標準偏差の求め方を教えてください。平方根が外れないので、相対標準偏差や検出限界も出せないんです。。。(泣)お願いします!!

  • 標準誤差と標準偏差の違いは何?

    誤っているのはどれか? 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい ――――-―――――――------------------------------------- このような問題を考えています。 自分なりに答えを出すと・・・・・・ 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう →(○)正しい。  定義どおりだと思います。 小学校で習った平均値ですね。 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない →(○)正しい。 極端な例が混ざれば平均値は同じでも、バラツキがちがう 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される   →(○)正しい。 そのとおり標準偏差(SD)のSD±1は68.27%である。 SD±2はたいか95%くらいでしたっけ。 SD±3は99.9%くらいだね。 つまりバラツキの度合いに占めるパーセンテージだと。 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい →(○)正しい。 これがうさんくさい。 でも、私の持論によると・・・・・ ■SEχ(標準偏差の平均値)=σ/ √n     σは標準偏差です。 ■SDχ(標準誤差の平均値)=s/ √n      sは限られたサンプルより抽出した標準偏差の「予想値」です。                          そしてnはサンプルのサイズ(数)です。 つまり、標準偏差(SD)は国勢調査などで「全員」の数が把握できている場合であり、標準誤差(SE)は、大阪のミナミの繁華街の商店街の「全員」ということで つまり、 ■SEχ(標準偏差の平均値)=σ/ √n          →σ/ √日本の総人口 ■SDχ(標準誤差の平均値)=s/ √n          →s/ √大阪ミナミの商店街の人口 ・・・・ということで分母が小さくなりますから、 1/1000 と 1/10 では、1/10がおおきいですね。 つまり、調査の数が少ないと、誤差も大きくなるとそういうわけで、 誤差の絶対値は標準偏差よりも高くなるというわけです。 ですから一見この選択肢が誤りに見えますが、実は正しいのだと思います。 間違っていればどこがまちがっているか教えてください! 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい →(○)正しい。 そのとおり。 本物と同じだから誤差も無い

  • 標準偏差の比較

    お世話になってます。 標準偏差の大きさの比較をしたく困っております。 例えば平均値A、標準偏差A’(A±A')と平均値B、標準偏差B’(B±B')の2つの集団があった場合、標準偏差のA'とB'の大きさを比較する場合、どのようにしたらいいのでしょうか? つまり、2つの集団のバラツキの度合いを比較したいのですが、どのようにしたらいいのでしょうか? 教えて下さい。

  • 標準偏差について疑問が!

    データの評価に標準偏差というものを使おうと思うのですが、疑問があります。 88 40 41 74 47 3 90 94 42 57 88 95 60 91 83 97 65 95 79 36 25 27 63 83 2 15 27 32 っというデータ群があります。 平均が59で、標準偏差が30です。 で、ばらつきの範囲というので μ+3σ(99%含まれる) μ+2σ(95%含まれる) μ+1σ(64%含まれる) 標準偏差(σ) μ-1σ(64%含まれる) μ-2σ(95%含まれる) μ-3σ(99%含まれる) μは平均値 という式があるので、これに上記結果を当てはめると μ+3σ 149 μ+2σ 119 μ+1σ 89 標準偏差 30 μ-1σ 29 μ-2σ -1 μ-3σ -31 っとなります。 ここで不思議なのですが、今回のサンプルデータは国語のテストの点数という事で、最低を0点、最高を100点としています。 平均に対するバラツキという意味で考えると、サンプルデータの最高点と最低点よりも上下のあるのがおかしく思えます。 っというか100点以上と、0点いかが存在するのは本当に不思議です。 私の計算が間違っているだけだと思うのですが、 どなたかこの間違いを指摘していただけないでしょうか?

  • 標準偏差の意味がわかりません

    標準偏差の意味がわかりません。 1  平均との差を求め 2 それを2乗して 3 その総和を求めて 4 データ数で割って 5 その平方根 以上が一般的な標準偏差の説明の説明のようですが、4、5が入れ換わり . . 3 その総和を求めて 4 その平方根 5 その平方根をデータ数で割る ならば標準偏差の値の意味が理解できるのですが? 数学に疎い私でも理解できるような説明をお願いします。 ネット上も探したのですがよくわかりません。

  • 標準偏差と誤差

    初めて質問します。 一般に標準偏差の計算は,母集団=標本集団とすると (測定値-平均値)の2乗の和をデータ数で割ったものの平方根だと思います。 (EXCELのSTDEVP関数もこの計算をしているようです。) ところで,大学のときに習った平均自乗誤差は, 母集団=標本集団の場合 (測定値-平均値)の2乗の和をデータ数の2乗で割ったものの平方根 ただし,母集団>標本集団の場合は, (測定値-平均値)の2乗の和を (データ数*データ数-1)で割ったものの平方根 以上のように習いました。 そこで質問です。 1.分母が標準偏差は1乗で,平均自乗誤差は2乗なのはなぜでしょうか? 2.母集団>標本集団の場合は,(データ数*データ数-1)になるのはなぜでしょうか? 3.EXCELには母集団=標本集団のSTDEVP関数と 母集団>標本集団のSTDEV関数がありますが,母集団>標本集団の場合の標準偏差の計算というのはどんな計算をしているのでしょうか。 よろしくお願いします。

  • 標準偏差について

    下記、アドバイスをお願いします。 前提:標準偏差=データの各観測値と平均との差の2乗の平均を取って、その平方根を取った値。正規化された形で表されたデータのばらつきを示す数値。 1.0.86 2.4.4 3.-0.72 4.0.44 5.1.57 6.1.13 7.-1.70 8.-0.58 上記の平均は、0.86←これは、理解できます。 上記の標準偏差は、1.86←これが、分かりません。 上記の標準偏差に対する比率0.36←これも、分かりません。 標準偏差・標準偏差に対する比率の出し方の指南をお願いします。 宜しくお願いします。

  • 標準偏差について

    「ある設定値に対する実績値の偏差」の標準偏差を求めたいのですが、「実績値-設定値」の標準偏差を直接求める(マイナスデータが出る)のか、「絶対値(実績値-設定値)」の標準偏差を求めるのかがわかりません。前者なら実績値の標準偏差と同じ値になるので後者のような気がするのですが、根拠がわかりません。 教えて下さい。 例:設定値20   実績1=15、実績2=23、実績3=18、実績4=26   偏差1=-5、偏差2=3 、偏差3=-2、偏差4=6   偏差の標準偏差は?

  • 標準偏差の計算について

    標準偏差の計算について教えてください。 データが次のように用意されていたとします。 1,3,0,-1,-3 このときの解答が 平均値 = (1+3+0+-1+3)/5=0                          標準偏差=√ [ { (1-0)^2+(3-0)^2+(0-0)^2+(-1-0)^2+(-3-0)^2 } / 4 ] = √(20/4) = √5 このようになっておりました。 標準偏差を求める際に、なぜデータの個数が5であるにも関わらず割る4なのでしょうか。 平均値と同じ値のデータは分散のデータ数にカウントしないのでしょうか。 初歩的な質問かもしれませんが教えていただければ幸いです。