正規分布とヒストグラムのグラフの書き方
エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。
しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。
具体的に書いていきたいと思います。
正規分布になるとほぼ確信しているデータがあります。
サンプル数は50、平均7.8、標準偏差2.9のデータです。
データ区間 頻度
0 0
1 1
2 1
3 2
4 2
5 5
6 6
7 6
8 6
9 8
10 5
11 2
12 3
13 1
14 2
15 0
というデータです。
そして、データ区間に対応する正規分布の値を
NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE)
を使用して、求めます。
そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。
(ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?)
上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが)
また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。
以上の作業で、求めていたグラフは書けました。
視覚的に予想通り正規分布のグラフに近いことが分かりました。
さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。
そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。
度数分布表は以下のようになります。
データ区間 頻度
1 1
3 3
5 7
7 12
9 14
11 7
13 4
15 2
17 0
ここから、前回同様の作業でヒストグラムは容易に描けます。
正規分布のグラフはどのように書けば良いのでしょうか?
前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。
正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。
データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。
すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。
しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。
このようにして得られてグラフに問題は無いでしょうか。
また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。
数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。
どのように考えればよいのでしょうか。
質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。
お手数をおかけしますが、よろしくお願いします。
お礼
そのとおりです。 標準偏差と平均を求めて、2σや3σの値が期待値とどうなのかってことでした。 なんとかなりそうです。 ありがとうございました。