• ベストアンサー

どちらが一番が高くなるのでしょうか?サンプル数が違う場合

たとえば・・・ (1)サンプル数が5個  平均値が0.5 標準偏差が0.2 (2)サンプル数が50個  平均値が0.4 標準偏差が0.2 (3)サンプル数が100個 平均値が0.3 標準偏差が0.3 というデータがあったとして・・・ 信頼性を考えてどれが一番高くになるのでしょうか? よろしくお願いします。 また、計算式なども合わせて教えてほしいです。 (エクセルシートなどあればすごくありがたいです。)

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.2

> 信頼性を考えてどれが一番高くになるのでしょうか? 何の信頼性ですか? 察するに「1標本の母平均値の検定・区間推定」の場合において、適切なサンプルサイズはいくつくらいであるか?という質問に思えるのですが、、、 サンプルサイズは小さすぎれば本当は有意であるのに有意でないという結果が得られてしまうかもしれない。逆に大きすぎれば本当は有意ではないのに有意であるという結果が得られてしまうかもしれない。したがって、適切なサンプルサイズを求めるためには[検出力]とか[パワーアナリシス]というキーワードを検索して調べる必要がありますね。 単純にp値が高くなりやすい(有意になりやすい)というのなら、(3)です((2)も(3)も似たり寄ったりですが)。100回検定を行ったら100回「有意である」という結果になりますからね。かなり劣って(1)ですね。100回行ったら内、2回くらいは有意にならない。 こういうのはコンピュータで100回検定してみればその様子が分かります。Rweb(http://bayes.math.montana.edu/Rweb/Rweb.general.html)で以下のコードを走らせて見ると分かりますよ。単にコピペして[Submit]ボタンを押すだけです。 これは指定した平均と標準偏差に従う正規分布から、指定したサンプルサイズ分だけ抽出して、それを母平均の検定する。これを100回繰り返して、その度にp値を記録しておいてプロットするというもの。最後には100回分のp値の平均が出される。 myprog <- function(n, MEAN, SD){ p <- c() for(i in 1:100){ dat <- rnorm(n, mean=MEAN, sd=SD) result <- t.test(dat) p[i] <- result$p.value } plot(p, ylim=c(0,0.10), type="l", lwd=2, col="blue") abline(h=0.05, lty=3) mean(p) } myprog(5, 0.5, 0.2) #サンプルサイズ5、平均0.5、標準偏差0.2 myprog(50, 0.4, 0.2) #サンプルサイズ50、平均0.4、標準偏差0.2 myprog(100, 0.3, 0.3) #サンプルサイズ100、平均値0.3、標準偏差0.3

ynabeno
質問者

お礼

すごく参考になりました! 検出力、パワーアナリシスとか言葉がよくわかりませんが 調べるきっかけになりました。 時間のある週末に調べたいと思います。 ありがとうございます。

ynabeno
質問者

補足

少し調べてみました。教えて頂いたURLでも確認してみました。 私が書いた質問が私が知りたい内容と少しずれている気がして きました。 (聞きたい内容は変わってないのですが質問を変えています。) (1)の箱から5回札を引くと,引いた札の平均値が0.5 標準偏差が0.2 (2)の箱から50回札を引くと,引いた札の平均値が0.4 標準偏差が0.2 (3)の箱から100回札を引くと,引いた札の平均値が0.3 標準偏差が0.3 ※ひいた札は元に戻さない&箱には無限個の札が入っていると仮定 ※箱の中の真の平均値、標準偏差は不明 ※必要であれば、引いたそれぞれの札の値もわかる(他の統計量も計算可能) 次に(1)(2)(3)の箱からできるだけ大きい値の書いた札を引く 確率が高い(期待値が高い)のはどの箱か? が知りたいです。 可能であれば数値解析ではなく(多少の誤差も許容)  例えば 引いた札数+平均×標準偏差 に比例する など方程式?計算式?などないものでしょうか? 実際にやりたいことが、1000通りくらいの箱があり、それらを期待値順に並べたいと思っています。 統計解析について知識がないため、無茶なことor非常に簡単なことがわかっていません。よろしくお願いします。

その他の回答 (1)

回答No.1

確立の常識で母数の多いほうが信頼性が高くなります。 しかし、分布図を書く事をお勧めします、信頼性を見極めやすくなります。 2極化した場合は偏差値自体が意味を成さなくなります。 この偏差値はあくまでも正規分布が原則で活用されています。 簡単な確立統計の本を読んでみてください。

ynabeno
質問者

お礼

回答ありがとうございます。 サンプル数が多い方が信頼性が高いのはわかっているんですが、 サンプル数が確保できない場合にじゃあどっちが優位?かを調べたいと思い質問させていただきました。 上の回答の方の回答を参考にもう少し調べたいと思います。 ちなみに実際にデータが正規分布するかはわかっていませんが、正規分布と仮定して計算しようと思っています。2極化するまで考えると発散しそうなので^^

関連するQ&A

専門家に質問してみよう