• 締切済み

ノンパラメトリックな統計解析について質問です。

マンホイットニのU検定等で比較したい群間の標本数が大きく違う場合、有意差が出やすくなるなどの問題は生じるでしょうか? 順位和で統計量を出すと聞いて疑問に思ってます。 例えば、A群、B群の標本数がそれぞれ10と100のように大きく違う場合何か問題は生じるでしょうか? 統計の本を見てみたのですが、記号が多くて理解しがたいです。 統計を理解する気持ちは持っています。 迷える子羊にご教授よろしくお願いします。

みんなの回答

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

続きです。  肝心なことを描き忘れました。  検定の目的は、「有意差を主張すること」。有意差がでるように、検定法を選択するのは、当然です。有意差が見つけられないのは、方法の選択がマズイ、すなわち、ドジなだけです。なぜなら、全数を対象にしていないサボり、と断定することもできます。  検定で、いちばん簡単なのは、符合検定。なのに、しないのは、情報量が少ないので、有意差を見つけにくいから。前提条件を満たしていれば、有意差が出やすい方法を選択するのは、当然です。その方法を選択するのは、統計にかんする研究者の力量次第でしょう。  私が多変量解析なんぞの賢い人が得意の検定をしないのは、何もそんなことをしなくても、有意差をだせるから。牛乳か必要なら、コンビニで十分、わざわざベンツに乗って遠くのショッピングセンターへ行く人を尊敬しません。  さて、A法では有意差が無く、B法では有意差有り。結論は、お分かりだと想いますが。

herotoshi15
質問者

お礼

大変参考になりました。 gooのルールもよく知らずに追加で質問してすいません。 以後気をつけます。 卒論作成中で色々勉強になります。親切かつ丁寧な説明ありがとうございます。 このまま最後まで書きあがりそうです。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

続きです。  この掲示板では、別の質問は、別にするべきとされている・・・  私は、初心者ですから、多重比較を見ると『賢いひとだなあ』と。本音は、『大胆だなあ、いきなりエレペストに登って』と感じます。そんな賢い検定を使わないでよいように計画し困ったことはありません、のレベルですから、そのつもりで以下を読んで下さい。  統計は、記述統計学と推測統計学に分けられます。  記述統計学は、母集団の全数を対象にするので、検定の必要がありません。5人ずつの身長の比較なら、平均値を求めれば、1mmでも差があれば、「差がある」と結論できます。誰が計算しても、結果が変わらないからです。お分かりでしょうが、「全数のデータがあれば、必ず差がある」ということです。  5人ずつ身長測定するハズが、一人休んで4人になった場合は、平均値は推測するしかありません。推測で結論を出すのに必要なものが推測統計学の検定です。5人目がどのような人かは、サンプルは研究者によって異なりますから、5人目を推測して結論をだします。そのときに、差がある、と結論した時に、差があるという結論が誤っている確率(第一種の過誤)が、有意差なのです。  全数で計算すれば必ず差があるのに、それが出来ない場合の苦し紛れに(?)確率で、有意差として表現するのが検定の目的です。検定が優れている、という風潮がありますが、苦し紛れの検定で誤魔化しても、と感じています。  ですから、どの検定でも、データ数を増やすほど、有意差をだしやすいのです。また、「差が無い」と言う表現が誤りなのは、全数測定すれば必ず差があるからです。  データ数については、データ数を増やすのが一番、次に群のデータ数を平均化(違わないように)すると、有意差は出しやすい。  逆に、群の例数が5以下だと、有意差有りでも、信頼性が低い、なんぞは経験します。また、検定では、両群に差が無い、という仮説から出発しますが、人の場合は差が無いように群分けするのが困難なので、誤った結論も多々あります。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

検定は、 1) 検定の目的は、有意差をだすこと。有意差を見つけられなければ、何の価値もない。 2) 有意差は、どの方法でも良い。 3) ただし、前提条件(t検定時の正規分布など)を満たしておれば、です。  前提条件については、一番の問題は、サンプリング。キチンとした計画のランダムサンプリング以外は、偏っている場合が多い。特に、人については、ランダムサンプリングというのは現実には不可能なので、要注意。 >A群、B群の標本数がそれぞれ10と100のように大きく違う場合何か問題は生じるでしょうか? U検定には、前提条件はありません。一群のデーター数が、現実には5以上ないと、有意差は見つけにくい。この場合は、10と100ですから、何ら問題はありません。  同数であるのは、初心者の私が知る限り、t検定の対応のある場合のみ。ただ、検定のデーター数については、100のデータを同程度の労力で集められるなら、群分けを10と90でするより、50と50の同数でする方が、有意差を出しやすい、というのはあります。  データ数が多いほど、有意差は見つけやすいので、有意差が見つけられなかったときはデータ数を増やすというのは、一つの方法です。さらに、全数のデータを得れば(欠落がなければ)、誰が計算しても結果は同じになるので、検定は不要です。

herotoshi15
質問者

お礼

回答ありがとうございます。 さらに質問になってしまうのですが、比較対象の群を3群以上に拡張して、クラスカルワーリス検定(パラメトリックの一元配置分散分析)、多重比較検定のスティール・ドワス検定(パラメトリックのターキー・クレメール)となる場合も同じように考えて良いものでしょうか? 今現在、私の統計解析で疑問に思っていることは比較する群、たとえばA群、B群の数が異なる場合、検定統計量の計算結果が異なってしまうことです。検定統計量を有意差が出るものを恣意的に選んでもいいものなのでしょうか?

関連するQ&A