分散値に基づく比較と検定方法

このQ&Aのポイント
  • 統計初心者の方から、分散値に差があるかどうかを検討する方法について質問があります。
  • 分散値の等分散性を考えるためには、F検定やShapiro-Wilk検定などを使用することができます。
  • また、複数の群を比較する場合には、T検定でのボンフェローニー補正が必要ですが、分散値の検定にも同様の補正が必要かどうかは分かりません。
回答を見る
  • ベストアンサー

分散値だけの検定方法

統計の初心者です。 2群もしくはそれ以上の群の比較についての質問です。 一般的に、比べたい物が正規分布に属していると仮定した時、平均値の差をT検定を使って、差があるかどうかを検討します。 では、その2つのグループの平均値ではなく、分散値に差があるかどうかを考える事は可能なのでしょうか? すでに正規分布としていると前の文章で仮定しているので、分散値に差があるかどうかを検討するのはおかしい事なのかもしれませんが… 分散値の等分散性を考える上で、F検定やShapiro-Wilk検定なる物があると聞いたのですが、これはそれぞれの群が等分散になっているかを検討する物だと思っています。 では、お互いの分散値が同じなのか違う物なのかを検討するのは無理なのでしょうか? 例えば、2つの定規を作る機械があるとします。 1つの機械で30cm定規を作った時の、それを1つ1つきちんと計測できる測定器で計測すると、出来上がった定規にプラスマイナスで誤差が出てくると思います。 次にそのもう1つの機械で30cmの定規を作ったとします。 同じように計測すると、出来上がった定規にも誤差が出ると思います。 では、この機械は同じ性能を発揮しているのかどうかを検討する時、平均値には差が出てこないと思います。 しかし、これだとこの機械は精度的に大丈夫かどうかを考える時に、誤差つまり分散値のばらつきが同じかどうかを検討する必要があると思います。 こんな時はどうしたらよいのでしょうか? またもう1つ機械が増えて、3つの場合はどうなるのでしょうか? 作った個数が多いと、T検定をした時、ボンフェローニー補正をかけると思いますが、分散値の検定にもボンフェローニー補正をかけるのでしょうか? 長文でわかりにくい所があるかも知れませんが、統計の本やインターネットを検索していくとわからない事だらけで… 教えて下さい。よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.2

統計方法の流れを知りたいとのことなので、簡単に説明してみましょう。 例えば、群間に平均の差があるかどうか知りたい場合なら、 1.母集団の正規性を正規確率プロットやShapiro-Wilk検定等で確認。 2.1で正規分布でなかったらMann-WhitneyのU検定(2群)又はKruskal-Wallis検定(多群)等のノンパラメトリック検定を行う。   (厳密にはこれらも等分散であることが必要) 3.1で正規分布であったら、F検定(2群)又はBartlett検定(多群)等で等分散を確認。 4.3で等分散でなかったらWelchのt検定を行う。   分散分析もWelchの方法のような方法があります。 5.3で等分散であったら、t検定(2群)又は分散分析(多群)を行う。 という流れになるでしょう。 なお、等分散の検定をせずにいきなりWelchのt検定をした方が良いという人もいます。 > F検定、バートレット検定はT検定、分散分析を行う前段階と書いてあったのですが、私の解釈だと逆になっている感じがあるのですが、私の解釈が間違っているのでしょうか? 上の流れでも書いたとおり、t検定、分散分析は正規分布かつ等分散である必要があるため、F検定、バートレット検定で等分散を確認します。 > まず、仮定しているのが正規分布と言う所ですが、正規分布かどうかはお答えから、「Shapiro-Wilk検定」を用いて、今回の機械の製品(定規の長さ)が正規分布になっているかを検討する事ですね。 > ここで、p<0.05となったら、この製品は正規分布に従っているとできるのですか? いえ、p値が有意水準より小さいなら「正規分布ではない」といえます。 > 私が知りたい所として、製品定規の長さ平均値の違いよりも、機械が同じ製品を作っていると言う事ですから、分散値の分布状態が同じであるか、つまり等分散になっているかをですから、F検定をして、2群間の統計値がp<0.05ならば、この製品は同じような分散値をもっているでよろしいでしょうか? > すわなち2つの機械は同じような精度を有していると考えてよろしいでしょうか? p値の解釈が逆になっています。 (もっとも、p >= 0.05だったからといって等分散とは言えないのですが) 平均の差については知る必要がないなら、上の流れで書いたようにt検定等をする必要はありません。 F検定等までで十分です。 > 今書いていて、気がついたのですが、誤差の検定に関してもF検定、多群間の比較ならバートレット検定でいいのですか? 誤差の検定とは何を意味していますか? 誤差というと、母数と標本から得られた推定値との差を意味すると思うのですが…

sumaabe
質問者

補足

丁寧にご回答いただきありがとうございました。 P値の解釈が間違っていたのですか… 「Shapiro-Wilk検定」で正規性を確認したのですが、この場合、 「得られた定規の長さは正規分布に従っていない」と言う帰無仮説において、p<0.05で仮説が棄却されて、正規分布に従っていると判断しました。 F検定の場合も同じです。 「等分散性がない」と言う仮説のもとで、有意水準以下だと仮説が棄却されて、等分散であると思っていました。 逆だったのですね? 流れを書いていただいたので、理解できたのですが、正規分布に従っていないとした場合の2番ですが、もし2番で正規分布でないとした場合、平均値を考えるのはわかったのですが、分散値の違いを考える事は不可能なのでしょうか? 前に教えていただいた、URLの中に正規分布でなく、多群間の比較ならルーベン検定をと書いてありました。では2群間ならどうなりますか? また、私の中で「誤差とは」 平均値を考えて、与えられた「平均値」から「個々の得られた定規」の「差」を言う物だと思っていましたが、私が考えていた物はなんと表現したらよいのでしょうか? とりとめのない質問になっているかも知れません。 統計の初心者という事に免じて、教えていただければと思います。 よろしくお願いいたします。

その他の回答 (2)

noname#227064
noname#227064
回答No.3

p値についてもう少し説明してみましょう。 検定では「母集団AとBの○○は違う」という対立仮説と「同じ」という帰無仮説を立てます。 ここで帰無仮説が正しいとした場合において、p値は得られた検定統計量(t値やF値等)より極端な統計量が得られる確率を意味します。 p値が有意水準より小さい値であったら、帰無仮説において滅多におきないことがおきたので、帰無仮説が間違いだったのだろうと結論付けるのが検定です。 > 前に教えていただいた、URLの中に正規分布でなく、多群間の比較ならルーベン検定をと書いてありました。では2群間ならどうなりますか? 2群でもルーベン検定を使用して構いません。 誤差については、最初のご質問で > 誤差つまり分散値のばらつきが同じかどうかを と書かれていたので誤差と分散を同じと考えているのかと思ったためNo.2で確認させてもらいました。 No.2の補足の認識でも大丈夫です。

sumaabe
質問者

お礼

私の質問におつきあいいただき、本当にありがとうございました。 色々、統計の本を買って読んでみた物の、すっきり頭の中で整理できなく、性格からどうしても、流れを作らないと理解できない所がありました。 今回の分散を取り上げて、細かい所まで教えていただき本当に感謝しております。 また、わからない所がありますので、スレッドを変えて質問させていただきたいと思っているので、よろしければ、またよろしくお願いいたします。

noname#227064
noname#227064
回答No.1

> では、その2つのグループの平均値ではなく、分散値に差があるかどうかを考える事は可能なのでしょうか? > すでに正規分布としていると前の文章で仮定しているので、分散値に差があるかどうかを検討するのはおかしい事なのかもしれませんが… 仮定しているのは正規分布というだけで、パラメータ(平均や分散)が同じといっているわけではないですよね? だから、これに対する回答は「可能です」となります。 > 分散値の等分散性を考える上で、F検定やShapiro-Wilk検定なる物があると聞いたのですが、これはそれぞれの群が等分散になっているかを検討する物だと思っています。 > では、お互いの分散値が同じなのか違う物なのかを検討するのは無理なのでしょうか? 「お互いの分散値が同じなのか違う物なのか」とは等分散か否かということとどう違うのでしょうか? あと、Shapiro-Wilk検定は等分散の検定に使うものではなく、正規性の検定に使います。 > こんな時はどうしたらよいのでしょうか? > またもう1つ機械が増えて、3つの場合はどうなるのでしょうか? 正規母集団としてよいなら、2群の場合はF検定、それ以上の群ならバートレット検定を使用します。 (バートレット検定:http://ja.wikipedia.org/wiki/%E3%83%90%E3%83%BC%E3%83%88%E3%83%AC%E3%83%83%E3%83%88%E6%A4%9C%E5%AE%9A) > 作った個数が多いと、T検定をした時、ボンフェローニー補正をかけると思いますが、分散値の検定にもボンフェローニー補正をかけるのでしょうか? 「つくった個数」ではなくて「機械」の間違いですね。 全ての群の分散は同じかどうかだけを知りたいなら、ボンフェローニ補正は必要ありませんが、分散の対比較を行う場合は必要になるかもしれません。

sumaabe
質問者

補足

早速のお返事ありがとうございます。 流れと共に私の考えを今回の機械を用いて説明させて下さい。 まず、仮定しているのが正規分布と言う所ですが、正規分布かどうかはお答えから、「Shapiro-Wilk検定」を用いて、今回の機械の製品(定規の長さ)が正規分布になっているかを検討する事ですね。 ここで、p<0.05となったら、この製品は正規分布に従っているとできるのですか? 次に、正規分布とわかればその時点で、長さの平均値に関してT検定を用いる事になりますよね。 また、分散値に関しては2群間の分散値が同じかどうか、つまり等分散かどうかをF検定になるという事でよろしいでしょうか? 私が知りたい所として、製品定規の長さ平均値の違いよりも、機械が同じ製品を作っていると言う事ですから、分散値の分布状態が同じであるか、つまり等分散になっているかをですから、F検定をして、2群間の統計値がp<0.05ならば、この製品は同じような分散値をもっているでよろしいでしょうか? すわなち2つの機械は同じような精度を有していると考えてよろしいでしょうか? 今書いていて、気がついたのですが、誤差の検定に関してもF検定、多群間の比較ならバートレット検定でいいのですか? F検定、バートレット検定はT検定、分散分析を行う前段階と書いてあったのですが、私の解釈だと逆になっている感じがあるのですが、私の解釈が間違っているのでしょうか? ボンフェローニー補正は機械の個数が多くなった時に採用されるんですね。 色々、補足なのに沢山書かせていただきました。 個人的には、統計方法の流れを考えたいと必死なのですが、今回のように分散値の検定、誤差検定(?)を考える上での考え方がわかっていません。 アドバイス、もしくはご教授よろしくお願いいたします。

関連するQ&A

  • 平均値の差が大きい場合のF検定

    F検定(等分散検定)は2群の平均値の差があまり大きくない場合に適用される方法なのでしょうか。それとも、2群の平均値が大きく異なる(例えば数倍の)場合でも何らかの基準化(補正)なしで適用可能なのでしょうか。ある郡の分散(標準偏差)が大きいのは元の観測値が大きいからで、それらを小さい郡と比較しても意味がない(検定をするまでもなく分散に差が出て当然)、ということにならないのでしょうか。

  • t検定にしか出来ないこと

    t検定と分散分析についてお聞きしたいことがございます。 t検定は2群の平均値の差の平均の時に用いますが、 分散分析でも2群の平均値の差を出すことが出来ます。 これではt検定を用いる意味が無くなってしまうと思いますが、 t検定にしか出来ないことと言うのは何かございますか? よろしくお願いします。

  • 分散の検定

    昨年末のアクチュアリー試験での問題です。 分散の片側検定において,真の分散が帰無仮説において仮定された分散の3倍になったとき,帰無仮説が確率95%以上で棄却されるようにするには標本数が[ ]個あればよい.ただし,平均は未知とし,有意水準は0.05とする. という問題です。分布に何の仮定もないし、標本数の大きさを問うのだから正規分布近似も適当だとは思えません。とするとχ^2-testではできないように思います。こういう問題の場合、どのように解くものなのでしょうか?

  • t検定 U検定 メディアン検定

    サンプルサイズ300の集団に心理系の4尺度の質問を行い、まず属性により尺度得点に差があるかをみたいのですが、下位尺度と自作の質問で全部で17あります。属性は2群が4種類と3群がひとつの5つあります。 この全てについて、性別で2群に分けた後、別の属性で分類し比較したいのですが属性によっては、8と140とかかなりサンプルサイズにばらつきがあります ある属性では、正規分布は1尺度だけでこれにはt検定。正規分布でない尺度にU検定をし、等分散でないものにはメディアン検定など使うのでしょうか SPSSを使っています 記述するときには膨大な量になります。正規分布している場合にはt検定で平均値とSD、p、そうでなければU検定で中央値とp、等分散でなければメディアン検定で中央値とpを書くのでしょうか 初心者です

  • t検定と分散分析

    同じような質問もありますが、どうもしっくりこないt検定と分散分析の違いについて質問させて頂きます。 たとえば、ラジコンカーの2つのモータA,Bに違いがあるか調べたいとして、 データとして、同じコース1周にかかる時間を計測する。 AおよびBのそれぞれのモータ搭載時に3回づつ計測した場合、 t検定と分散分析で、 「AとBのモータに差がある/あるとは言えない」の結果はどちらでも同じだと思いますが、 では差がある場合どの程度(1周当たり何秒)の差があるかは、 t検定でしか推定できない。のでしょうか?

  • 何故、分散分析と適合度は常に片側検定なのか?

    何故、分散分析と適合度は常に片側検定なのか? 教えて下さい、学生時代は何の疑問もなく検定してました…orz 以下、思いつく理屈です。 分散分析 平均値の差が大きく分散に影響するので、各要因間の平均値が仮に等しいとすれば、各要因間は等分散である。つまり、F検定を用いる事が出来る。 F=群間の分散/群内の分散 各郡間で異なるが、各郡内において同一である値を加算した場合、各郡内の平均値が変化する。しかし、各郡内の分散は各値と平均値が共に一定量増加するため、変化しない。変化するのは各群間の分散であり、各群間に加算した値の差異による増加しかしない。 ∴本質的に両側検定であるが、右側しか意味はないので片側検定のみ行う。 適合性分析 χ^2=Σ(実測値-理論値)^2/理論値において実測値=理論値(完全適合)の場合、χ^2=0で帰無仮説(適合性がある)は受容されるが、仮に両側検定であるなら棄却域に入る矛盾のため、右側検定のみ行う。 という認識は如何でしょうか?ご指導願います。

  • t検定の記述の仕方を教えてください。

    例えば、対応のあるt検定の結果 差の平均 -0.242424 差の分散 0.439394 t値 2.1009 t検定の際の自由度 32 危険率 4.36E-02 検定結果: * 0.01 < P < 0.05 と出てきました。 論文では、どのように書けばいいでしょうか? 教えてください。 また、対応のないt検定     サンプル 平均値  標準誤差  標準偏差 第一群 33 0.909091 5.08E-02   0.28748 第二群 45 1 0   0 危険率= 0.395991E-01 結果: * 0.01 < P < 0.05 とでました。 その場合の表記方法も教えてください

  • t検定について

    統計を勉強中の者です。今、A群20人とB群25人の平均の差の検定でt検定を行うとします。 t検定は、母集団が正規分布するときに使うが、標本が十分大きければ正規分布でなくともOKと本にかいてありました。 20人と25人では大丈夫でしょうか?よろしくおねがいいたします。

  • 分散の有意差について

    客先より分散の有意差検定を求められています。 ある金型を修正した際に修正前後で成形品の寸法値に 有意差があるかどうかを検証して欲しいといわれています。 有意差検定はこれまでも実施しておりましたが、客先より 私が実施しているのは平均値の有意差のみであり、今後は 分散の有意差も確認して下さいと言われています。 これまで私が実施していたのはExcelの分析ツールでF検定、T検定を 実施しておりました。 客先に分散の有意差の求め方を聞いてみましたが、客先では計算ソフトを 使用しており、実際には求め方等は分かっていないようでした。 分散の有意差の求め方なのですが、調べていく中で これまで実施してきたF検定こそが分散の有意差検定なのか? と思わせる文献等をいくつか確認しました。 但しはっきりそのように記載されていないのでよく分かりません。 F検定での結果が 等分散→分散の有意差無し 不等分散→分散の有意差有り という認識で正しいのでしょうか? もしくは全く別の求め方があるのでしょうか? またT検定が平均値の有意差検定という認識で 宜しいのでしょうか? 統計学は正直、詳しくありませんのでお手数ですが 分かりやすく解析して頂きたくお願い申し上げます。 また分散の有意差で別の求め方がある場合Excelで求められる方法を 教えて頂ければ大変助かります。 以上、どなたかお力を貸して頂きたく宜しくお願い致します。

  • 有意差検定の種類について

    群データA 49.21、標準偏差 2.10、分散 1.03 、n=10 群データB 58.37、標準偏差 4.49、分散 13.13、n=9 というデータがあります。 このデータ群を比べて、AとBに有意差があり異なるものなのか、 AとBに有意差がなく同じものなのかを調べたいのですが、どの有意差検定を行ったらよいかわかりません。 t検定を行おうと思ったのですが、その前提であるF検定に合格せず等分散でないと証明されてしまいました。 できればエクセルで計算できるように関数も表示していただけるとありがたいです。