- ベストアンサー
標準偏差について疑問が!
データの評価に標準偏差というものを使おうと思うのですが、疑問があります。 88 40 41 74 47 3 90 94 42 57 88 95 60 91 83 97 65 95 79 36 25 27 63 83 2 15 27 32 っというデータ群があります。 平均が59で、標準偏差が30です。 で、ばらつきの範囲というので μ+3σ(99%含まれる) μ+2σ(95%含まれる) μ+1σ(64%含まれる) 標準偏差(σ) μ-1σ(64%含まれる) μ-2σ(95%含まれる) μ-3σ(99%含まれる) μは平均値 という式があるので、これに上記結果を当てはめると μ+3σ 149 μ+2σ 119 μ+1σ 89 標準偏差 30 μ-1σ 29 μ-2σ -1 μ-3σ -31 っとなります。 ここで不思議なのですが、今回のサンプルデータは国語のテストの点数という事で、最低を0点、最高を100点としています。 平均に対するバラツキという意味で考えると、サンプルデータの最高点と最低点よりも上下のあるのがおかしく思えます。 っというか100点以上と、0点いかが存在するのは本当に不思議です。 私の計算が間違っているだけだと思うのですが、 どなたかこの間違いを指摘していただけないでしょうか?
- hikari_tai
- お礼率80% (192/239)
- 数学・算数
- 回答数2
- ありがとう数1
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
平均値と標準偏差の組み合わせで、間に含まれる割合が推定できるのは、分布の形がわかっている必要があります。 この場合は、正規分布をなしているというのが前提となります。 これは、既に回答にあるとおりです。 そして、それとは別に、100点を超えたり、0点を下回るところが出てくることはあります。 そもそも、この 80, 40, ... という数字が、「テストの点数」であることは、問題を準備した側の都合です。 統計計算の上では、あくまでも、「どこかのデータの集団から、任意に取り出したデータの例」でしかありません。 「上限は 100」という制約は、計算の中には出てこないわけです。 たとえば、-10 から 110 までのカードがあったとします。 その中から、50回取り出したとして、上記のようなデータになるかもしれません。 0以下や100以上のカードが1回も出ないこともあるでしょう。このとき、元のカードの中には、100以上のデータはなかったと断言はできません。 (でも、50回取り出して、0~100に全部収まっていたら、それ以外の範囲のカードがある可能性は少ないだろうとは言えます) そういうわけで、計算上は、「あり得ない数」が、範囲に含まれることもよくあることです。 それを、問題の意味から、「あり得ない」とするのは、問題を準備した、人間の責任になります。
その他の回答 (1)
- hitokotonusi
- ベストアンサー率52% (571/1086)
μ+3σ(99%含まれる) μ+2σ(95%含まれる) μ+1σ(64%含まれる) は正確には、 μ±3σ(99%含まれる) μ±2σ(95%含まれる) μ±1σ(64%含まれる) ですが、こうなるのはものとデータが正規分布をしている場合のみです。 この成績の分布はちょっと見たところ正規分布とは似ても似つかないようですね。
補足
アドバイスありがとうございます。 正規分布とはどういったものかを、 勉強しなおしたいと思います。
関連するQ&A
- 標準偏差について教えてください。
多分基本的なことなのですが、一応調べては見たのですがよくわかりません。 偏差値については、真実の平均のようなものと理解してみたのですが・・・ (突出して平均点を上下させる最高と最低を除いて出した値?) わかりやすく教えてください。よろしくお願いします。 例えば、あるテストで 平均点が70点 標準偏差が5.5だとしたら何を表しているのでしょうか?
- ベストアンサー
- 数学・算数
- 標準偏差について
標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 ----- 計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 ----- 計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。
- 締切済み
- 数学・算数
- 【数学・標準偏差σ】標準偏差のσ(シグマ)は全部の
【数学・標準偏差σ】標準偏差のσ(シグマ)は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、全部のデータから平均を出すのが難しい膨大な数のデータだから標準偏差を用いると書かれていたのに、標準偏差を導き出すのに全部のデータから標準偏差を出して、さらにサンプルから標準偏差を2度出しした方が計算処理は負荷が大きいのでは? 全てのデータから標準偏差を出すなら最初から全部のデータから平均を出したらよいのでは?
- ベストアンサー
- 数学・算数
- 標準偏差について詳しい方お願いします
お世話になります。 標準偏差は平均からのばらつき・・とききますが、「標準偏差が大きい」「小さい」という、その目安がわかりません。 たとえば、50人の集団で平均年齢30歳、標準偏差1.2だったらどうでしょうか? また、平均年齢が同じぐらいでも、標準偏差が1.0と10.0と違う2つの集団についていろんなデータを比べると、何か問題がありますか? どちらかでもいいので、わかるかたがいましたらおねがいいたします。
- ベストアンサー
- 数学・算数
- 標準偏差と平均偏差の違い
標準偏差と平均偏差は、数字としての意味は何が違うのでしょうか。(算出方法の違いなどは分かります) 換言すれば、平均偏差でもサンプルのばらつきが表現できるのに、わざわざ計算過程をややこしくして標準偏差を求めることにどのようなメリットがあるのかということです。 『数種類の検体を用いて同一行程の実験を行い、その結果の値の揺れ(ばらつき)を求めたい』 このレポートへのアプローチとして、平均偏差または標準偏差を利用するとき、両者が意味的にどのような違いをもつのか、ご教授ください。
- ベストアンサー
- 数学・算数
お礼
なるほど!とはいえあまり理解できていません。 色々調べて自分なりに勉強したいと思います。