• ベストアンサー

データが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。 おわかりになる方 教えてください。 サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。 素人でも分かるように説明したいのですが。。 定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • zinchan
  • ベストアンサー率49% (97/197)
回答No.3

>機械的に処理してみるとできました。 >でも理屈を理解できていません。  とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。 >この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。  私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。 >データの区間を分けるときのルール等ありますでしょうか。  ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、 =ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式 で区分数を求める方法があります。  また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、 =ROUNDUP(データの最低値-区間距離/2,有効桁数) 右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数) とします。  区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。   >最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。  ヒストグラム作成の処理に関しては、上記を参考にしてください。  その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

その他の回答 (2)

  • zinchan
  • ベストアンサー率49% (97/197)
回答No.2

 正規分布への適合度の検定(下記URL参照)を行うことで検定することができると思います。  母平均、母分散がわかっていれば、Kolmogorov-Smirnovの1試料検定法にて正規分布に従う分布かどうか検定する方法もあります。  下記URLを参考に、やってみてください。  

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/GoodnessOfFitness/normaldist.html
changoo
質問者

お礼

有り難うございます。機械的に処理してみると できました。でも理屈を理解できていません。この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。探してみましたが見つけられませんでした。 データの区間を分けるときのルール等ありますでしょうか。最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。 宜しくお願いします。

  • fitto
  • ベストアンサー率36% (1372/3800)
回答No.1

視覚的にはなりますが、一般的には正規確率プロットで確認します。 ↓のように、直線になれば正規分布です http://stat.eco.toyo.ac.jp/~michiko/ma09/sld039.htm

関連するQ&A

  • 正規分布の判断方法

    ばらつきのあるデータをサンプリングして入力します。ある一定量取り込んだ値が正規分布になっているか(ヒストグラムを作成し見た目で判断するのではなく。)判断したいのですが、どの様な計算で正規分布になっているかの判断方法を教えて下さい。データの平均値、標準偏差を計算する事は可能です。 宜しくお願い致します。

  • 正規分布とヒストグラムのグラフの書き方

    エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。 しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。 具体的に書いていきたいと思います。 正規分布になるとほぼ確信しているデータがあります。 サンプル数は50、平均7.8、標準偏差2.9のデータです。 データ区間 頻度 0       0 1       1 2       1 3       2 4       2 5       5 6       6 7       6 8       6 9       8 10      5 11      2 12      3 13      1 14      2 15      0 というデータです。 そして、データ区間に対応する正規分布の値を NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE) を使用して、求めます。 そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。 (ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?) 上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが) また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。 以上の作業で、求めていたグラフは書けました。 視覚的に予想通り正規分布のグラフに近いことが分かりました。 さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。 そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。 度数分布表は以下のようになります。 データ区間 頻度 1       1 3       3 5       7 7       12 9       14 11      7 13      4 15      2 17      0 ここから、前回同様の作業でヒストグラムは容易に描けます。 正規分布のグラフはどのように書けば良いのでしょうか? 前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。 正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。 データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。 すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。 しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。 このようにして得られてグラフに問題は無いでしょうか。 また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。 数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。 どのように考えればよいのでしょうか。 質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。 お手数をおかけしますが、よろしくお願いします。

  • 生物統計学の基礎_正規分布の判断

    習ったことはあるのですが、忘れてしまいました。どこかネットでそういう情報を教えてくれるところ、あるいは通信教育か何かでそういうのを教えてくれるところをご存知ないでしょうか? ANOVAやる際の前提の正規分布のテスト方法がわかりません。実際にヒストグラム書いて判断しているのでしょうか?それとも何か公式があるのでしょうか? 教えてください。

  • データの正規化について

    こんにちは. 複数のデータからヒストグラムを作成する点について質問があります. ヒストグラムを作成した場合,普通は横軸にデータ区間に含まれるデータ数が対応すると思います.しかし,データを正規化してヒストグラムを作成すれば,横軸の範囲は0~1となり,正規分布とどれだけ類似しているのかを比較できると伺いました. そこで質問なのですが,データの正規化とは具体的にどのような作業をすればよいのでしょうか. 回答よろしくおねがいします.

  • 歪度はゼロに近いのに、ヒストグラムは正規分布してない

    以下のような20個のデータ(テストの点数)があります。 57, 82, 62, 53, 70, 69, 71, 68, 67, 72, 53, 75, 83, 69, 73, 70,66, 54, 54, 59 このデータの歪度をSPSSで算出すると、-0.01とほぼゼロに近い値だったので正規分布かなと思っていました。そこでヒストグラムを書いてみたら、全然正規分布とはほど遠い分布になっていました。 どうしてでしょうか?

  • 正規分布とヒストグラフ

    現在、得られたデータをヒストグラムにして、正規分布と比べています。 得られたデータ(100個)の度数分布をヒストグラフにし、計算により、標準偏差と平均を求めました。 さらに、正規分布の式、f(x)=1/(σ*√2π)exp(-(x-μ)^2/(2σ^2))へ求めた標準偏差と平均を入れ、計算し、f(x)のグラフを描きました。 この二つのグラフを比較し、ズレがないことを視覚的に確認しようとしています。 ですが、エクセルにて比較したところ、概形は同じですが縦軸の目盛りが異なります。 正規分布は縦軸がf(x)で、ヒストグラフは縦軸が度数です。 概形は同じですが縦軸が一桁ほど違う形となっています。 具体的には、ヒストグラフの縦軸をちょうど10倍ほどすると正規分布の縦軸と同じになり、グラフがちょうどよく重なります。 ですが、合わせるためにちょうどいい数字の倍数していいとは思えませんし、軸の数字が違うものを比べるということ自体ができないと思います。 ということは比べる前に何かしらの比較するための計算を(何かをかけるとか)していないということになるのでしょうか。 そのままf(x)と度数を比べられるとは思いませんが、比べるためにはどういった計算処理をしなければいけないのでしょうか。 参考書や過去の質問も参照しましたが、なかなか理解できず質問させていただきました。 わかりづらい質問で恐縮ですが、ご教授よろしくお願いします。

  • 正規分布について

    正規分布について質問させて頂きます。 正規分布と判断するには歪度,尖度の二つのパラメータをみて,歪度は0,尖度は3に近ければ近いほど正規分布に近いのは分かります。 そこで質問なのですが,10^5のデータ数で,歪度は0,尖度が2.5~3.5くらいのときは正規分布とみなしてもいいでしょうか? またその根拠を知りたいのですが,分かる方よろしくお願いいたします。

  • 標準正規分布の使い方

    標準正規分布の使い方 「あるデータが正規分布に従うと仮定できる場合、このデータを標準化することで標準正規分布表を用いて確率を求めることができる」とのことですが、あるデータが正規分布に従うかどうか?はどのように判断するのでしょうか? よろしくお願いします。 統計

  • 正規分布への変換について

    お世話になります。 現在計測しているデータの工程能力を計算しているのですが、 データの分布が正規分布していないように見られます。(N=30個) そこで、自然対数を取ると正規分布に近づくのですが、 なんの根拠もなしに自然対数を取っても良いものか 理解できていません。 ネットで検索しても正直よく理解できず、 噛み砕いた説明がある文献やサイトをご存じないでしょうか。 ちなみに、データはそれぞれ独立したワークから測定したものです。 自分なりに勉強し、正規分布の検証として ?測定データと期待値のグラフを作成  →直線状ではなさそうだが、どの程度のばらつきが許されるのか   わからず、判断がつかない。 ?ネットからD'Agostino-Pearson正規分布検定なるものを実施  →K^2 4.0、 p 0.13 正規分布の可能性がある。   値の意味は理解できていないのですが、   正規分布の可能性としては低めということだけは推測できました。 以上、どうぞよろしくお願いいたします。

  • 正規分布しないデータの取り扱い

    正規分布しないデータの取り扱い方法には 具体的にどのような手法があるのでしょうか? ちなみにネジの戻しトルクは正規分布するのですか? かなりの数量をサンプル取りしたのですが、 2元分布してしまって…