標準偏差と誤差の計算方法について

このQ&Aのポイント
  • 標準偏差と平均自乗誤差は、計算方法が異なるため、分母の指数も異なります。
  • 母集団>標本集団の場合、平均自乗誤差の分母は(データ数*データ数-1)となる理由について説明します。
  • EXCELのSTDEVP関数とSTDEV関数の違い、母集団>標本集団の場合の標準偏差の計算方法について説明します。
回答を見る
  • ベストアンサー

標準偏差と誤差

初めて質問します。 一般に標準偏差の計算は,母集団=標本集団とすると (測定値-平均値)の2乗の和をデータ数で割ったものの平方根だと思います。 (EXCELのSTDEVP関数もこの計算をしているようです。) ところで,大学のときに習った平均自乗誤差は, 母集団=標本集団の場合 (測定値-平均値)の2乗の和をデータ数の2乗で割ったものの平方根 ただし,母集団>標本集団の場合は, (測定値-平均値)の2乗の和を (データ数*データ数-1)で割ったものの平方根 以上のように習いました。 そこで質問です。 1.分母が標準偏差は1乗で,平均自乗誤差は2乗なのはなぜでしょうか? 2.母集団>標本集団の場合は,(データ数*データ数-1)になるのはなぜでしょうか? 3.EXCELには母集団=標本集団のSTDEVP関数と 母集団>標本集団のSTDEV関数がありますが,母集団>標本集団の場合の標準偏差の計算というのはどんな計算をしているのでしょうか。 よろしくお願いします。

  • hdai
  • お礼率36% (66/182)

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

diviationは、deviation の誤りです。ディビエーション、と日本語で発音していますので、つい。 >「標準誤差はサンプルのバラツキぐあい」標準偏差はサンプルの平均値のバラツキぐあい」とありますが,標準偏差はサンプルのバラツキ 標準誤差はサンプルの平均値のバラツキ」の誤りと理解してよろしいですか? 私は、「バラツキぐあい」と表現しましたが、バラツキとの違いが分かりません。 >誤りと理解して 同一ですか、であればyes、でしょう。テキストは、「バラツキ」と表現してあるでしょうが、その様子と言う意味を込めてバラツキぐあい、としました。  が誤りなら、バラツキぐあいとバラツキの違いを書き込んでくださればお答えできるでしよう。  なお、バラツキにしても、標準偏差からだけでは、何もわかりません。標準偏差が10と分かっても、バラツキが大きいのか小さいのか判断できないからです。  無意識にせよ、平均値を念頭においているハズデス。 >数学的にもう少し説明するとどうなるのでしょうか? 専門家、としたので、誤解されていると想うのですが、数学的な素養はありません。学生時代に、統計学の試験のときに教科書持ち込みだったのですが、どこを写せば良いかわからず、終了まで教科書をめくるだけでした。  その後、有意差検定をせざるを得なくなり、標準偏差や標準誤差をかじりました。そこで、学生時代に出来が悪かっただけ、統計学のどの部分が分かりにくいか、だけは理解しているつもりです。そういう意味の専門家です。  テレビを楽しむときに、どのチャンネルで目的の番組を見れば良いかは十分に理解していますが、そのチャンネルを見れば、何故その番組をみることができるのか、というテレビの仕組みは理解しなくても良い、というのが私の立場です。  ただ、なぜnで割るか、については、どの教科書にも書いてないのでは。  それが定義だから、と答えることは可能です。逆に考えれば、標準偏差にしても、平均値±標準偏差には、サンプルの68%が入ります。が、68%しか入らない、とも言えます。標準偏差の2倍、すなわち、標準偏差±2×標準偏差なら、95%のサンプルが入ります。その方がバラツキを表しやすい、とも考えられます。  したがって、なぜそのような数式になるのか、というよりも、その使い方を誤らないようにさえすれば良い、というのが私の姿勢です。標準誤差を経験するのは、グラフのデータを表すときに、『バラツキが小さい』と感じて、脚注を見ると標準誤差だった、ということぐらいです。  数学的な説明については、申し訳有りませんが、私の手に余ります。

hdai
質問者

お礼

 私が普段使う誤差論に関する教科書にも,まるで定義であるかのように,nで割ると書いてあります。 (他の教科書に当たっても定義であるかのような説明でした。)  本当にありがとうございました。今までの疑問が解けて,本当にすっきりしました。

その他の回答 (2)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

>分母が標準偏差は1乗で,平均自乗誤差は2乗なのはなぜでしょうか  標準偏差は、母集団から取り出した一つ一つのサンプルのバラつきを表しています。  標準誤差は、母集団から取り出したサンプルの平均値をまず求めます。この操作をすると、取り出したサンプルが、その都度異なるので、平均値もややズレます。すなわち、この平均値のばらつきを示すのが、標準誤差です。  繰り返しになりますが、標準誤差は、サンプルのバラつき具合。標準偏差は、サンプルの平均値のバラつき具合です。サンプルをサンプルの平均値にするには、データ数で割る、ということになりませんか。したがって、標準誤差を求めるには、標準偏差を、もう一度データ数で割ることになります。  私は、グラフに表すとき、平均±標準偏差を用いますが、外国の論文を読んでみると、平均±標準誤差で表す人が多いようです。そうすると、バラつきが少ないように見えます。 ご質問の意味を取り違えていたら、ご容赦を >EXCELには母集団=標本集団のSTDEVP関数と  母集団の標準偏差はSTDEVP、母集団からサンプルを選んだ場合は標本標準偏差でSTDEVを用いています。  いつも混乱するのは、標本標準偏差は、,(データ数*データ数-1)で割った不偏標準偏差を用いますが、これは、Partial Standard Diviationの英訳でしょう。ですから、EXECELでは、標本標準偏差(不偏標準偏差)には、PのついたSTDEVPを使いたくなるのです。しかし、同じデータで計算すると、STDEV<STDEVPにはならず、逆になります。ですから、前に書いたように、Pが最後に無いSTDEVが標本標準偏差です。  EXCELがこんな錯乱をおこしそうな関数にしたのかは知りません。いつも頭にきています。

hdai
質問者

補足

非常にわかりやすい説明ありがとうございました。 標準偏差と標準誤差のイメージがつかめ,頭がすっきりした気分です。(笑) 追加の質問ですがよろしいでしょうか? 1.「繰り返しになりますが・・・」以下の文ですが本文には,「標準誤差はサンプルのバラツキぐあい」標準偏差はサンプルの平均値のバラツキぐあい」とありますが,標準偏差はサンプルのバラツキ 標準誤差はサンプルの平均値のバラツキ」の誤りと理解してよろしいですか? 2.サンプルを平均値にするにはデータ数で割る だから標準偏差をデータ数で割れば,標準誤差になるという説明はイメージがつかめ,非常にわかりやすいのですが,数学的にもう少し説明するとどうなるのでしょうか?サンプルの平均値は,サンプルの総和をデータ数で割るのと同様に,標準偏差をデータ数で割るだけでなく,標準偏差の総和をデータ数で割るような気がするものですから。(馬鹿げた質問かもしれませんが・・・) 補足の説明をしていただけると幸いです。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 統計学では、母集団について考えます。ですから、全てのサンプルが使える、たとえば1年2組の生徒の身長の平均値と標準偏差については、これは全ての生徒の身長を使いますので、平均値も、標準偏差も、誰が計算しても同じ値になります。  それでは、世界の小学生の身長については、どうでしようか。サンプル数が多すぎて、どうしようもありません。そこで、世界の小学生から適切な方法(現実には、これが難しい)でサンプルを選び、その平均値と標準偏差を、母集団である世界の全ての小学生の身長の平均値と標準偏差、とします。  標本から平均値と標準偏差は、母集団の推定なのです。これは、すべてのサンプルから、どれを計算用の値として用いるかによって、大きく左右されます。そこで、その誤差を少なくするために、(データ数*データ数)で割ったものではなく、(データ数*データ数-1)で割ったものを用いて、やや広く推定値の幅をとり、推定が外れる危険性を少なくしています。  (データ数*データ数-1)部分の-1が、-1ではなく、-2でも、-3でもないのは・・・、と悩んだこともあるのですが、-1が最適だということは、ある本によれば、数学的に証明できるのだそうです。

関連するQ&A

  • 標準偏差の成り立ち

    標準偏差の意味について、質問致します。 (質問を簡潔にするため、母集団を分析の対象とします) 標準偏差を求める場合、偏差の2乗和をデータ数で割り、 その値の平方根を計算しますよね。 なぜ、偏差2乗和の平方根で求めた数値を、 データ数で割るという方法ではないのでしょうか?? (偏差2乗和)^0.5÷データ数 の方がイメージがつかみやすい気がします… 分散は、対象データとは次元(単位?)が違うので、 感覚的に分かり易いように、標準偏差が使用されると 理解しています。 単位を揃えることが目的ならば、データ数で割るという 行為はルートの外に出すべきなのではと考えてしまいます。 私は、どこで訳がわからなくなっているのでしょうか。。。 アドバイス頂ければ幸いです。

  • 標準偏差について

    標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 -----  計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 -----  計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。

  • 標準偏差を求めるにあたり

    もうすでに質問されていることかもしれませんが・・・質問します。 標準偏差を求めるときに、Σ(測定値ー平均値)^2を、母集団で考える場合はnで割り、標本で考える場合はn-1で割って、平方根を取って算出しますよね。 標本で考える場合自由度が1下がるため、回数から1引いた数で割ればいいとテキストや考えたらなんとなくイメージすることができるのですが、数学的に考えた場合、なんで1を引くのか?どういう意味を持っているのか?理解できませんし、分かりません。1引くことがおそらく数学的に非常に重要なことなのでしょうが...気持ち悪くて気になります。 私自身、勉強不足で標準偏差自体曖昧な理解なのですが、疑問に思ったので、どなたか分かる方教えてください。

  • 標準偏差の意味がわかりません

    標準偏差の意味がわかりません。 1  平均との差を求め 2 それを2乗して 3 その総和を求めて 4 データ数で割って 5 その平方根 以上が一般的な標準偏差の説明の説明のようですが、4、5が入れ換わり . . 3 その総和を求めて 4 その平方根 5 その平方根をデータ数で割る ならば標準偏差の値の意味が理解できるのですが? 数学に疎い私でも理解できるような説明をお願いします。 ネット上も探したのですがよくわかりません。

  • 標準偏差

    平均を求め、平均との差の2乗を求め、差の2乗の平均を求め、平方根をはずしましたが、これで標準偏差は求まっているのでしょうか。 平均:AVERAGE 平方根:SQRT

  • 標準誤差と標準偏差の違いは何?

    誤っているのはどれか? 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい ――――-―――――――------------------------------------- このような問題を考えています。 自分なりに答えを出すと・・・・・・ 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう →(○)正しい。  定義どおりだと思います。 小学校で習った平均値ですね。 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない →(○)正しい。 極端な例が混ざれば平均値は同じでも、バラツキがちがう 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される   →(○)正しい。 そのとおり標準偏差(SD)のSD±1は68.27%である。 SD±2はたいか95%くらいでしたっけ。 SD±3は99.9%くらいだね。 つまりバラツキの度合いに占めるパーセンテージだと。 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい →(○)正しい。 これがうさんくさい。 でも、私の持論によると・・・・・ ■SEχ(標準偏差の平均値)=σ/ √n     σは標準偏差です。 ■SDχ(標準誤差の平均値)=s/ √n      sは限られたサンプルより抽出した標準偏差の「予想値」です。                          そしてnはサンプルのサイズ(数)です。 つまり、標準偏差(SD)は国勢調査などで「全員」の数が把握できている場合であり、標準誤差(SE)は、大阪のミナミの繁華街の商店街の「全員」ということで つまり、 ■SEχ(標準偏差の平均値)=σ/ √n          →σ/ √日本の総人口 ■SDχ(標準誤差の平均値)=s/ √n          →s/ √大阪ミナミの商店街の人口 ・・・・ということで分母が小さくなりますから、 1/1000 と 1/10 では、1/10がおおきいですね。 つまり、調査の数が少ないと、誤差も大きくなるとそういうわけで、 誤差の絶対値は標準偏差よりも高くなるというわけです。 ですから一見この選択肢が誤りに見えますが、実は正しいのだと思います。 間違っていればどこがまちがっているか教えてください! 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい →(○)正しい。 そのとおり。 本物と同じだから誤差も無い

  • 標準偏差の計算がわかりません。

    標準偏差の求め方がわからなくて検索しました。 >標準偏差を求めるためには、クラス全員の得点が必要です。クラス全員の点数と平均点の差分を、自乗したものを合計し、それをクラスの人数で割ったものの平方根が標準偏差になるからです。 という記述をさがしました。でやってみようとしましたが、まず、「クラス全員の点数と平均点の差分」というところでつまづきました。 数字を書きますので、実際にどういうように計算すればいいのか、(答えでなく、計算式がしりたいです。)おしえていただけませんか。 あるテストで8人が以下の成績をとった場合 75,55,40,60,25,80,55,90, 平均点は60点。 クラス全員の点数が480なので 480-60=420 420×420=176400 176400/8=22050 22050の平方根=? ばくだいな数のなりそうですが。。。。?????

  • 標準偏差の算出について質問があります。

     野口悠紀雄著『金融工学、こんなに面白い』(文春新書)中の標準偏差の算出で質問があります。    74頁 表3-4に、     円安   円高  標準偏差 A社  1000円  300円  494.97円 とあります。  数学の教科書にあります方法で標準偏差を求めますと、A社の株価の平均は650円ですから、 {(1000-650)×(1000-650)+(300-650)×(300-650)}÷2の平方根で350円になります。エクセルの関数STDEVPで計算しても350ですし、同書79頁の表3-5(III)でも標準偏差は350になっています。  ところがエクセルの関数STDEVで計算しますと、確かに494.97になりますので、著者の間違いとは思えません。  そこでお尋ねします。 (1)上の例で、494.97になる標準偏差と350になる標準偏差は、金融工学的にどういう場合で使い分けるのでしょうか?(エクセルの説明では、前者STDEVは「標本に基づいて予測した標準偏差を返します。」、後者STDEVPは「母集団全体に基づく、ある母集団の標準偏差を返します。」とあります。正直申して、全く意味が分かりません。) (2)494.97になる標準偏差(エクセルの関数ですとSTDEV)の計算方法を教えてください。  数学にも、金融工学にも素人です。なにとぞよろしくお願いいたします。

  • 偏差値のもつ誤差

     とある本に以下のような記述がありました。(完全に正確ではないかもしれません。)  偏差値のもつ誤差=標準偏差×((1-信頼性係数)の平方根)で計算できる。偏差値は標準偏差が10だから,信頼性係数?を0.9と仮定すると,以上の式に代入することによって±3.2ぐらいの誤差をもっていることが分かる。  そこで質問です。 1.この式は正しいでしょうか? 2.私のもっている高校のころの教科書にはこの式の記述が見あたりませんが,有名な式なのでしょうか。 3.この式で得られる誤差と標準誤差(標準偏差を標本数の平方根で割ったもの)との関係はどうなるでしょうか?  要領を得ない質問になってしまいましたが,よろしくお願いいたします。

  • 標準偏差算出方法をご教授ください。

    下記の数値の標準偏差を出し方を教えてください。 不安です。わからないと思います。 (1)21.8 (2)22.3 (3)21.9 (4)21.8 (5)22.1 ・与えられた数値の集合の標準偏差  1) 平均を求める  2) 平均と各数値の差を求め、それを二乗する  3) それを、データの個数で割る  4) その平方根を求める  これで、 0.193 が求められます。 ・与えられた数値が、ある大きな集団からとられた数値だとして、もとの大きな集団の標準偏差を推定する  上の 3) を、「データの個数 - 1」で割る に読み替えます。  これで、 0.217 が求められます。 上記の【データ個数 -1】=4(合っていますか?)で割るとすると どの数値を割ればよいか教えてください。