• 締切済み

生物統計学の基礎_正規分布の判断

習ったことはあるのですが、忘れてしまいました。どこかネットでそういう情報を教えてくれるところ、あるいは通信教育か何かでそういうのを教えてくれるところをご存知ないでしょうか? ANOVAやる際の前提の正規分布のテスト方法がわかりません。実際にヒストグラム書いて判断しているのでしょうか?それとも何か公式があるのでしょうか? 教えてください。

みんなの回答

  • genomu
  • ベストアンサー率33% (5/15)
回答No.4

統計処理を行う場合、ほとんどが正規分布を前提としていると思います、私の場合、正規分布かどうかは、シャピロ&ウィクルスのW検定、K-Sとリリフォースの正規性検定を本のとおりヒストグラムを目で確認し実施しています。この本には、統計使用者には、理論を正確に理解する必要はなく、意味を理解し結論の出し方を理解すれば良いと言っています、本の題名は”パソコン3日でわかる使える統計学” ブルーバックス 新村秀一です、とてもよい本だと思っています、参考になると思います。それではがんばって下さい。

uni_uni_uni_uni
質問者

お礼

ありがとうございます。本もたくさん出ているし、ソフトもたくさんあるので迷っていました。

  • zinchan
  • ベストアンサー率49% (97/197)
回答No.3

 調べたいデータの群が1つのグループ(1群)しかない場合はそれが正規分布しているかどうかを正規分布と比較して、正規分布でない確率(可能性)を調べます。その場合は「Kolmogorov-Smirnovの1試料検定法」で、正規分布と比較することで調べることができます。  一方、2群を比較したい場合はt検定、三群以上の場合はanovaと、それぞれ正規分布を前提とする比較検定法であることから、あなたは正規分布であるかどうかを調べたいのだと思います。  確かに、上記検定法は正規分布である場合に検出力が高く、もっとも適した検定法になりますが、正規分布でない場合や、正規分布しているか仮定することができない場合は、ノンパラメトリック検定を用いて検定すればいいのです。  ご質問の正規分布しているかどうか確認する方法としては、ヒストグラムを書くか、正規の度数分布を示すグラフを作成し、適合させても問題なさそうであれば進めてかまいません。しかし、中にはデータ数が少なく、正規分布しているかどうかわからない場合もあります。しかし、それでも、そのデータ分布が通常正規分布と仮定できそうな場合、または仮定しても問題なさそうであれば、正規分布かどうかわからなくても正規分布と仮定してしまってかまいません。要は比較したい群間で分布に差があるかどうかを検定できればいいのですから。  No.2の方もおっしゃっているように、F検定をして等分散性かどうか検定して後、等分散性でないとはいえない場合にはt検定、不等分散の場合はt検定(Welch法)を用います。  ただし、不等分散の場合は変数変換してのち再度検定するか、ノンパラメトリック検定で検定した方が適切な場合が多々あります。  3群以上の場合も、Bartlettの方法で等分散性を調べて後、一元配置分散分析などの検定を用います。  さて、正規分布を仮定しない場合、もしくは正規分布とはいえない場合は、ノンパラメトリック検定で検定することになります。  二群の場合は、独立二群ならmann-whitney検定、対応二群ならwilcoxon検定で検定します。  三群以上の場合は、独立ならkruskal-wallis検定、対応ならFriedman検定となります。  私の場合、予備調査を行い、いつもグラフ化して、もっとも適合できそうな検定法を決定してから、本調査を行い、選択するようにしています。検定法は、後決めは本来ルール違反です。先に検定法を決定しておき、調査を進めるのが本筋です。  あと、検定について参考になるURLを下記に紹介しておきますので、参照ください。

参考URL:
http://aoki2.si.gunma-u.ac.jp/FlowChart/Tutorial.html
uni_uni_uni_uni
質問者

お礼

ありがとうございます。 「予備調査を行い、いつもグラフ化して、もっとも適合できそうな検定法を決定してから、本調査を行い、選択する」とありますが、私の場合「AとBが経験的に違うものだということはわかっているが数値で違いを示したい」のです。そのような場合、どのようにして最も適合している検定法を事前に決められるのでしょうか?

  • dspigeon
  • ベストアンサー率26% (50/187)
回答No.2

通常統計検定を行う時は、正規分布であるか否かという検定は行わず、先ず等分散性の検定を行い、その結果に従い、ANOVAを行うという手順を取っていました。 正規分布ではないか、バラツキが大きい場合は、検定法の選択の問題になるかと思います。

uni_uni_uni_uni
質問者

お礼

ANOVAの前提は正規分布と等分散性を行うのですよね。 すると、不等分散でも使えるt検定(Welch法)というのはANOVAではないのでしょうか?

noname#21649
noname#21649
回答No.1

>どこかネットでそういう情報を 以下のサイトのどこかに掲載有り http://aoki2.si.gunma-u.ac.jp/index.html >実際にヒストグラム書い 私の頃は正規確率紙に書いて...

uni_uni_uni_uni
質問者

お礼

サイトのご紹介どうもありがとうございます。

関連するQ&A

  • 正規分布の判断方法

    ばらつきのあるデータをサンプリングして入力します。ある一定量取り込んだ値が正規分布になっているか(ヒストグラムを作成し見た目で判断するのではなく。)判断したいのですが、どの様な計算で正規分布になっているかの判断方法を教えて下さい。データの平均値、標準偏差を計算する事は可能です。 宜しくお願い致します。

  • データが正規分布しているか判断するには???

    初歩的なことですが。。急いでいます。 おわかりになる方 教えてください。 サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。 素人でも分かるように説明したいのですが。。 定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

  • 歪度はゼロに近いのに、ヒストグラムは正規分布してない

    以下のような20個のデータ(テストの点数)があります。 57, 82, 62, 53, 70, 69, 71, 68, 67, 72, 53, 75, 83, 69, 73, 70,66, 54, 54, 59 このデータの歪度をSPSSで算出すると、-0.01とほぼゼロに近い値だったので正規分布かなと思っていました。そこでヒストグラムを書いてみたら、全然正規分布とはほど遠い分布になっていました。 どうしてでしょうか?

  • 正規分布とヒストグラムのグラフの書き方

    エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。 しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。 具体的に書いていきたいと思います。 正規分布になるとほぼ確信しているデータがあります。 サンプル数は50、平均7.8、標準偏差2.9のデータです。 データ区間 頻度 0       0 1       1 2       1 3       2 4       2 5       5 6       6 7       6 8       6 9       8 10      5 11      2 12      3 13      1 14      2 15      0 というデータです。 そして、データ区間に対応する正規分布の値を NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE) を使用して、求めます。 そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。 (ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?) 上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが) また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。 以上の作業で、求めていたグラフは書けました。 視覚的に予想通り正規分布のグラフに近いことが分かりました。 さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。 そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。 度数分布表は以下のようになります。 データ区間 頻度 1       1 3       3 5       7 7       12 9       14 11      7 13      4 15      2 17      0 ここから、前回同様の作業でヒストグラムは容易に描けます。 正規分布のグラフはどのように書けば良いのでしょうか? 前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。 正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。 データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。 すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。 しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。 このようにして得られてグラフに問題は無いでしょうか。 また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。 数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。 どのように考えればよいのでしょうか。 質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。 お手数をおかけしますが、よろしくお願いします。

  • 正規分布への変換について

    お世話になります。 現在計測しているデータの工程能力を計算しているのですが、 データの分布が正規分布していないように見られます。(N=30個) そこで、自然対数を取ると正規分布に近づくのですが、 なんの根拠もなしに自然対数を取っても良いものか 理解できていません。 ネットで検索しても正直よく理解できず、 噛み砕いた説明がある文献やサイトをご存じないでしょうか。 ちなみに、データはそれぞれ独立したワークから測定したものです。 自分なりに勉強し、正規分布の検証として ?測定データと期待値のグラフを作成  →直線状ではなさそうだが、どの程度のばらつきが許されるのか   わからず、判断がつかない。 ?ネットからD'Agostino-Pearson正規分布検定なるものを実施  →K^2 4.0、 p 0.13 正規分布の可能性がある。   値の意味は理解できていないのですが、   正規分布の可能性としては低めということだけは推測できました。 以上、どうぞよろしくお願いいたします。

  • 統計学・推定量、分布とは?

    統計学を勉強をしているのですが 最良不偏推定量というものがでてきて、前提条件やら計算の仕方などは書いてあったのですが最良不偏推定量自体は何を表しているのかわかりません。ウィキも見たのですがいまいち理解できないので簡単な説明をお願いします もう一つ、分布について正規分布からカイ二乗分布、t分布、f分布の形に変形できるということはわかりましたが実際使うときに上の4つの分布のうちにどれを使うかを判断する方法はどのような方法でしょうか? 漠然としていますが宜しくお願いします

  • 統計に関する基礎的質問

    (1)標準偏差や標準誤差をエラーバーとして示して、95%の信頼区間が推定できるようにすることが多いですが、これらは母集団が正規分布しているという前提のときのみ成り立つものなのですか?(お忙しい中ご回答頂くので、回答は「はい」あるいは「いいえ」のみで大丈夫です。ありがとうございます!) (2)「統計手法を選択する際の6チェックポイント」というのを見ていましたら、「正規分布」か否かという項目がありました。母集団が正規分布するか否かというのはどうやって分かるのでしょうか?

  • ベータ分布の正規分布近似について

    二項分布やガンマ分布の正規分布近似は成書によく記載されています。そこで二項分布の仲間であるベータ分布Be(a,b)を正規近似してみようと思いました。 Be(a,b)の平均であるa/(a+b)、分散ab/((a+b)^2*(a+b+1))をそのまま用いN(a/(a+b)、ab/((a+b)^2*(a+b+1)))としたらどうかと思いグラフで見たところ、なるほどa,bがそれぞれ8,9以上になると、モードと平均の差が殆ど無くなり左右対称の釣鐘型に見えてきます。どうやらa,bが大きくなれば正規分布に近づいていきそうだというのはうすうす分かるのですが、このやり方では感覚的に過ぎるのではないかとも思いました。何かスターリングの公式のような近似か、極限を用いて数式的証明をするべきなのでしょうか?それとも実際に色々なa,bの値のもとでグラフ曲線を描き、一々正規曲線を当てはめてみるべきなのでしょうか?それとも二項分布の逆正弦変換のように何かデータを変換させるとかいう方法があるのでしょうか、どうかお教え願います。

  • 正規分布へのfitting

    ある実験データがあり、正規分布に近い形をしています。しかし近いとはいえ、少々ズレているため分散と平均値を求め正規分布の曲線を実験データに重ねて描くと、、、なぜか大幅にずれてます。原因は、平均から大きく離れたところにデータが少ないとはいえポツポツとあり、分散が大きくなるからです(平均値はほぼ正しい値と思われます)。 分散を求める際に正規分布おかまいなく求めるため過大になるのかと思い、正規分布にfittingしようと考えました。つまり最小二乗法により実験データに近い正規分布を求め、分散を求めるのです。 この方法は意味ありますか?おそらく太古の昔から用いられてるような誰でも思い付く方法と思いますが。。。また、実際に計算する場合、エクセル等で関数は用意されてますか?それともlogを取り2次関数に展開しfittingする必要がありますか?

  • 標準正規分布について

    1)標準正規分布に従う乱数を、平均μ、分散σ^2の正規乱数に変換したい。どのようにしたらいいか。その理由も考えよ。 という問題についてですが 乱数をXとした時 Y = X・σ + μ とする。 というのはわかるのですが(ほぼ公式なので。。。) 理由についてはどう書けばいいのでしょうか? また 2)確率変数Xが(0,1)の範囲で一様分布に従う時、Y=1-Xと変換すれば、Yはまた一様分布となることを示せ。 という問題なのですが Xの密度関数から1-Xの密度関数を求めるということは以前こちらで教えていただいたのですがヘビサイド関数というのが用いられていて解法をよく理解できませんでした。 実際の解法手順等含めまして丁寧に教えていただけませんでしょうか?よろしくお願いいたします。