- 締切済み
標準偏差の意味がわかりません
- みんなの回答 (6)
- 専門家の回答
みんなの回答
実際に具体的なデータで平均、分散、標準偏差及び貴方が提案された標準偏差を計算してみましょう。 例1(■で頻度1。以下同様) -1:■ 0 :■■ 1 :■ 平均 0 分散 1/2 標準偏差 (√2)/2 提案された標準偏差 √2/4 例2 -1:■■ 0 :■■■■ 1 :■■ 平均 0 分散 1/2 標準偏差 (√2)/2 提案された標準偏差 1/4 例3 -1:■■■■ 0 :■■■■■■■■ 1 :■■■■ 平均 0 分散 1/2 標準偏差 (√2)/2 提案された標準偏差 √2/8 以上3つの具体例を挙げてみましたが、如何でしょうか? 3つの例は、データ数は違いますが頻度ではなく割合で表示しますと、全部同じであることはお分かりかと思います。 さて、分散も標準偏差もデータが平均からどれだけばらついているかの指標ですが、この例のように割合で表示したときに同じ分布になるものは、ばらつきの指標も同じ値になって欲しいと思いませんか? 残念ながら、貴方の提案された標準偏差では同じにはならず、データ数に依存した値になっています。 データ数が多ければ多いほどその値が小さくなっています。 一方、分散と標準偏差は3つの例で全て一致しています。
- atkh404185
- ベストアンサー率65% (77/117)
例えば、 a,b,c,d,e の5個のデータの平均値は x=(a+b+c+d+e)/5 と、データの個数5で割るから、 標準偏差も同じように、 √{(a-x)^2+(b-x)^2+(c-x)^2+(d-x)^2+(e-x)^2}/5 のように、 5で割るべきだ。 と考えているわけですね。 √[a-x)^2+(b-x)^2+(c-x)^2+(d-x)^2+(e-x)^2}/5] だと、 √5 個の平均 になってしまうのではないかと。 この、平均値 や 標準偏差 を学習するとき、 平均値 と 標準偏差 の間に 分散 というのを学習すると思います。 これが、 {(a-x)^2+(b-x)^2+(c-x)^2+(d-x)^2+(e-x)^2}/5 であり、データの個数5で割ります。 でも、これは 2乗 しているため データの平均値からの 平均的なばらつき を表していない と考えられ、(← ここの表現はいろいろあるので ウィキペディア等参考にして下さい) データがテストの点数だと (得点)^2 データが長さ(cm)だと (cm)^2 になってしまい、 √ をとる(平方根にする)ことによって、 単位がそろい、 データの平均値からの 平均的なばらつき を表すことができる。 のではないかと。 平均値 → 標準偏差 ではなく 平均値 → 分散 → 標準偏差 の流れを考えれば、理解できるのではないでしょうか。
- bran111
- ベストアンサー率49% (512/1037)
1 平均との差を求め 2 それを2乗して 3 その総和を求めて ここまでは一緒です。総和=S、データ数=nとします。 統計では v=S/n (これを分散といいます) をもとめ、この平方根として標準偏差σを決めます。つまり σ=√v=√(S/n) です。 質問者の手順は σ’=√S/n を求めるものであり、 σ’とσの関係は σ’=σ/√n ということです。データ数が100の場合 σ’=σ/10 となり、質問者の方式で得られるσ’は統計で使う標準偏差の1/10になります。 多くのデータは平均値の左右2σの間に95%以上が入ってしまうことが解っています。 この性格はデータの種類、データ数、平均値、標準偏差の値によらず普遍的に認められます。 標準偏差の1/10である、σ’はその意味で何の意味も持ちません。データ数が大きくなるとそれはさらに明らかです。
お礼
意味があるかないかはわかりませんがσ’ならば数字の意味がわかるのですが?
- Willyt
- ベストアンサー率25% (2858/11131)
標準偏差の求め方はご質問に書かれているとおりですが、それが何を意味するかがわからないわけですよね。それをこれから説明します。 平均値は判りますね。それは測定したデータの中心値ということでよく使われ、データは平均値の両側にばらついて存在することになります。そこでそのデータがどのくらいばらついているかを知りたくなることがあります。そのばらつきの程度をこの標準偏差が示しているのです。この値が大きいとデータは平均値からばらついた状態で存在しており、小さいとデータは平均値の周りに密集して存在しているいということを示すのです。ではどのくらいなのかというと、標準偏差のプラスマイナス3倍の間にほぼ100%のデータが入ることが保証されているのです。これでデータのばらつきが掴めることになりますね。
お礼
回答ありがとうございます。 やはりσと実データ関係のイメージが掴めません。
- trytobe
- ベストアンサー率36% (3457/9591)
なぜ、後者だと「標準偏差の値の意味が理解できる」のか、というご自身の理論がわからないと、 ご自身が「統計の数学的理論のどこに疑問を抱いているのか」がわからないので、答えようがありません。 なぜなら、ご自身の定義のほうが、統計学としてより便利で有用な系が構築できるのだ、という主張であれば、その検討価値がありますが、そこまでの深い理由ではないのであれば、統計学の入門書を最初から読んで、標準偏差を活用した検定のところまで読んだ上で、冒頭の定義であるメリットがご理解できるかと思うためです。
お礼
かいとうありがとうございます。 やはりσと実データの関係がイメージできません
いづれにしても数は変化しません。 相加平均も相乗平均も理解しているなら単に順番が違うだけです。
お礼
回答ありがとうございます。やはり数値としてのσは理解できません。 (分散までは数字としての理解はしているつもりですが)
関連するQ&A
- 標準偏差について
標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 ----- 計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 ----- 計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。
- 締切済み
- 数学・算数
- 標準偏差の成り立ち
標準偏差の意味について、質問致します。 (質問を簡潔にするため、母集団を分析の対象とします) 標準偏差を求める場合、偏差の2乗和をデータ数で割り、 その値の平方根を計算しますよね。 なぜ、偏差2乗和の平方根で求めた数値を、 データ数で割るという方法ではないのでしょうか?? (偏差2乗和)^0.5÷データ数 の方がイメージがつかみやすい気がします… 分散は、対象データとは次元(単位?)が違うので、 感覚的に分かり易いように、標準偏差が使用されると 理解しています。 単位を揃えることが目的ならば、データ数で割るという 行為はルートの外に出すべきなのではと考えてしまいます。 私は、どこで訳がわからなくなっているのでしょうか。。。 アドバイス頂ければ幸いです。
- ベストアンサー
- 科学
- 統計 標準偏差について素朴な疑問
SDについて、標準偏差は、データのばらつきを表す分散に平方根をつけた値である。分散に平方根をつけることによって、データと同じ単位で比較できるのだ。 という理解をしています。 そこで素朴な疑問です。データのばらつきをデータの単位と同じ水準でみたいのなら、わざわざ二乗して平方根つけるなんてめんどくさいことしないで、各データの平均値の差を絶対値で求めて平均値を求めればいいのでは??と思いました。 どんな弊害が出てくるのでしょう?教えてください。
- ベストアンサー
- 数学・算数
- 標準偏差と誤差
初めて質問します。 一般に標準偏差の計算は,母集団=標本集団とすると (測定値-平均値)の2乗の和をデータ数で割ったものの平方根だと思います。 (EXCELのSTDEVP関数もこの計算をしているようです。) ところで,大学のときに習った平均自乗誤差は, 母集団=標本集団の場合 (測定値-平均値)の2乗の和をデータ数の2乗で割ったものの平方根 ただし,母集団>標本集団の場合は, (測定値-平均値)の2乗の和を (データ数*データ数-1)で割ったものの平方根 以上のように習いました。 そこで質問です。 1.分母が標準偏差は1乗で,平均自乗誤差は2乗なのはなぜでしょうか? 2.母集団>標本集団の場合は,(データ数*データ数-1)になるのはなぜでしょうか? 3.EXCELには母集団=標本集団のSTDEVP関数と 母集団>標本集団のSTDEV関数がありますが,母集団>標本集団の場合の標準偏差の計算というのはどんな計算をしているのでしょうか。 よろしくお願いします。
- ベストアンサー
- 数学・算数
- 標準偏差を求めるにあたり
もうすでに質問されていることかもしれませんが・・・質問します。 標準偏差を求めるときに、Σ(測定値ー平均値)^2を、母集団で考える場合はnで割り、標本で考える場合はn-1で割って、平方根を取って算出しますよね。 標本で考える場合自由度が1下がるため、回数から1引いた数で割ればいいとテキストや考えたらなんとなくイメージすることができるのですが、数学的に考えた場合、なんで1を引くのか?どういう意味を持っているのか?理解できませんし、分かりません。1引くことがおそらく数学的に非常に重要なことなのでしょうが...気持ち悪くて気になります。 私自身、勉強不足で標準偏差自体曖昧な理解なのですが、疑問に思ったので、どなたか分かる方教えてください。
- ベストアンサー
- 数学・算数
- 標準偏差算出方法をご教授ください。
下記の数値の標準偏差を出し方を教えてください。 不安です。わからないと思います。 (1)21.8 (2)22.3 (3)21.9 (4)21.8 (5)22.1 ・与えられた数値の集合の標準偏差 1) 平均を求める 2) 平均と各数値の差を求め、それを二乗する 3) それを、データの個数で割る 4) その平方根を求める これで、 0.193 が求められます。 ・与えられた数値が、ある大きな集団からとられた数値だとして、もとの大きな集団の標準偏差を推定する 上の 3) を、「データの個数 - 1」で割る に読み替えます。 これで、 0.217 が求められます。 上記の【データ個数 -1】=4(合っていますか?)で割るとすると どの数値を割ればよいか教えてください。
- ベストアンサー
- その他(ビジネス・キャリア)
お礼
回答ありがとうございます。 分散までは数字の意味が理解できるのですが?