• ベストアンサー

どちらが一番が高くなるのでしょうか?サンプル数が違う場合

たとえば・・・ (1)サンプル数が5個  平均値が0.5 標準偏差が0.2 (2)サンプル数が50個  平均値が0.4 標準偏差が0.2 (3)サンプル数が100個 平均値が0.3 標準偏差が0.3 というデータがあったとして・・・ 信頼性を考えてどれが一番高くになるのでしょうか? よろしくお願いします。 また、計算式なども合わせて教えてほしいです。 (エクセルシートなどあればすごくありがたいです。)

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.2

> 信頼性を考えてどれが一番高くになるのでしょうか? 何の信頼性ですか? 察するに「1標本の母平均値の検定・区間推定」の場合において、適切なサンプルサイズはいくつくらいであるか?という質問に思えるのですが、、、 サンプルサイズは小さすぎれば本当は有意であるのに有意でないという結果が得られてしまうかもしれない。逆に大きすぎれば本当は有意ではないのに有意であるという結果が得られてしまうかもしれない。したがって、適切なサンプルサイズを求めるためには[検出力]とか[パワーアナリシス]というキーワードを検索して調べる必要がありますね。 単純にp値が高くなりやすい(有意になりやすい)というのなら、(3)です((2)も(3)も似たり寄ったりですが)。100回検定を行ったら100回「有意である」という結果になりますからね。かなり劣って(1)ですね。100回行ったら内、2回くらいは有意にならない。 こういうのはコンピュータで100回検定してみればその様子が分かります。Rweb(http://bayes.math.montana.edu/Rweb/Rweb.general.html)で以下のコードを走らせて見ると分かりますよ。単にコピペして[Submit]ボタンを押すだけです。 これは指定した平均と標準偏差に従う正規分布から、指定したサンプルサイズ分だけ抽出して、それを母平均の検定する。これを100回繰り返して、その度にp値を記録しておいてプロットするというもの。最後には100回分のp値の平均が出される。 myprog <- function(n, MEAN, SD){ p <- c() for(i in 1:100){ dat <- rnorm(n, mean=MEAN, sd=SD) result <- t.test(dat) p[i] <- result$p.value } plot(p, ylim=c(0,0.10), type="l", lwd=2, col="blue") abline(h=0.05, lty=3) mean(p) } myprog(5, 0.5, 0.2) #サンプルサイズ5、平均0.5、標準偏差0.2 myprog(50, 0.4, 0.2) #サンプルサイズ50、平均0.4、標準偏差0.2 myprog(100, 0.3, 0.3) #サンプルサイズ100、平均値0.3、標準偏差0.3

ynabeno
質問者

お礼

すごく参考になりました! 検出力、パワーアナリシスとか言葉がよくわかりませんが 調べるきっかけになりました。 時間のある週末に調べたいと思います。 ありがとうございます。

ynabeno
質問者

補足

少し調べてみました。教えて頂いたURLでも確認してみました。 私が書いた質問が私が知りたい内容と少しずれている気がして きました。 (聞きたい内容は変わってないのですが質問を変えています。) (1)の箱から5回札を引くと,引いた札の平均値が0.5 標準偏差が0.2 (2)の箱から50回札を引くと,引いた札の平均値が0.4 標準偏差が0.2 (3)の箱から100回札を引くと,引いた札の平均値が0.3 標準偏差が0.3 ※ひいた札は元に戻さない&箱には無限個の札が入っていると仮定 ※箱の中の真の平均値、標準偏差は不明 ※必要であれば、引いたそれぞれの札の値もわかる(他の統計量も計算可能) 次に(1)(2)(3)の箱からできるだけ大きい値の書いた札を引く 確率が高い(期待値が高い)のはどの箱か? が知りたいです。 可能であれば数値解析ではなく(多少の誤差も許容)  例えば 引いた札数+平均×標準偏差 に比例する など方程式?計算式?などないものでしょうか? 実際にやりたいことが、1000通りくらいの箱があり、それらを期待値順に並べたいと思っています。 統計解析について知識がないため、無茶なことor非常に簡単なことがわかっていません。よろしくお願いします。

その他の回答 (1)

回答No.1

確立の常識で母数の多いほうが信頼性が高くなります。 しかし、分布図を書く事をお勧めします、信頼性を見極めやすくなります。 2極化した場合は偏差値自体が意味を成さなくなります。 この偏差値はあくまでも正規分布が原則で活用されています。 簡単な確立統計の本を読んでみてください。

ynabeno
質問者

お礼

回答ありがとうございます。 サンプル数が多い方が信頼性が高いのはわかっているんですが、 サンプル数が確保できない場合にじゃあどっちが優位?かを調べたいと思い質問させていただきました。 上の回答の方の回答を参考にもう少し調べたいと思います。 ちなみに実際にデータが正規分布するかはわかっていませんが、正規分布と仮定して計算しようと思っています。2極化するまで考えると発散しそうなので^^

関連するQ&A

  • 統計的に必要なサンプル数

    ある素材からサンプルを採取し、成分(1種類)を分析して、分析値の標準偏差(3シグマ)を求めようとしています。 素材から採取できるサンプル数は、現実的に、最大で15点程度です。 成分量の3シグマを算出する場合、統計的に意味のあるサンプル数を求める考え方はあるのでしょうか。 数式的には、2サンプルから標準偏差の値は得られますが、2~3サンプル程度で、果たして意味のある標準偏差といえるのか、また、多ければ良いとしても、具体的に幾つなら良いのか、見当がつきません。 よろしくお願いします。

  • 【数学・標準偏差σ】標準偏差のσ(シグマ)は全部の

    【数学・標準偏差σ】標準偏差のσ(シグマ)は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、全部のデータから平均を出すのが難しい膨大な数のデータだから標準偏差を用いると書かれていたのに、標準偏差を導き出すのに全部のデータから標準偏差を出して、さらにサンプルから標準偏差を2度出しした方が計算処理は負荷が大きいのでは? 全てのデータから標準偏差を出すなら最初から全部のデータから平均を出したらよいのでは?

  • t検定を手計算にて行う具体的な方法をお願いします

    元データなしにての算出になります ex. A)サンプル数300 平均22.5 標準偏差4.00 B)サンプル数1400 平均23.0 標準偏差5.90 他にも元データなしでのt検定をしたいと思っていますので、具体的な計算経過がわかるとありがたのですが… よろしくお願いします。

  • 数の平均がある値からどれだけ乖離しているか

    数の集団{50、68、72、98、23、64}があります。 エクセルであれば、  平均点-->average() 標準偏差-->stdev() で求められます。 点数から平均点を引き、その結果を標準偏差で割って10倍したものが偏差になります。平均点を偏差値=50にするのが一般的に使用されていますので、偏差に50を足すと偏差値がでます。 説明し難いのですが、上の数の集団の平均が、ある値「60」からどれだけ乖離しているのか計算するにはするにはどうしたら良いのでしょうか? (「60」を偏差値=50として考えると) 標準偏差や偏差値を使おうとするのが間違いでしょうか? 教えてください。

  • 標準偏差と平均偏差の計算方法

    標準偏差と平均偏差について質問させてください。 平均偏差を求める際は  (a) |サンプルA-平均値|/サンプル数 + |サンプルB-平均値|/サンプル数... という計算式になると思います。 では何故、標準偏差は  (b) (サンプルA-平均値)^2^(1/2)/サンプル数 + (サンプルB-平均値)^2^(1/2)/サンプル数... とせず  (c) {(サンプルA-平均値)^2/サンプル数 + (サンプルB-平均値)^2/サンプル数...}^(1/2) となるのでしょうか。 よく「微分ができないから、平均偏差を使わず、標準偏差を使う」というお話を伺いますが (b)の方法でも同様に微分ができないのでしょうか。 稚拙な質問で申し訳ありませんが、お時間のある際にでもどなたかお答えいただければ幸いです。

  • 信頼できる標本抽出に必要な数の決め方(統計)

    はじめまして。 実験で適切なサンプル測定数を決めたいのですが 統計的なことに弱く困っています。 どなたか教えてください。 例えば 5 6 8 8 9 10 6 7 といった母集団(n=8,平均=7.375,標準偏差=1.69) があった時に、 この母集団から信頼度α%の平均値を得るのに必要な 最低のサンプル数はどうやったら知れるのでしょうか。 どなたかご回答お願い致します。

  • t分布とχ2分布は合わせて考えていいのか?

    正規分布に従うであろう母集団から ある20個のサンプルより取ったデータの平均値と標準偏差を求め、 その平均と標準偏差より 信頼区間95%で、t分布より平均は、9.5~10.5と求められ、 信頼区間95%で、χ2分布より、偏差は、1.2-1.8と求められたとします。 この場合、母集団のデータは、下記より 最小値=平均の最小値 - 偏差の最大値 :9.5-1.8=7.7 最大値=平均の最大値 - 偏差の最大値 :10.5+1.8=12.3 7.7 ~ 12.3 の間に95%信頼区間で入ると、考えてよいのでしょうか? ダメな場合は、そもそも20個のサンプルより母集団が正規分布になるとすると、その最大値最小値は、95%信頼区間で、どのような値になると考えればよろしいのか、どなたかご存知でしたら御教授ください。 どのような文献に載っていそうかなどの情報でも構いません。

  • 抜き取り検査の判定方法

    弊社製品で生産直後の全数検査データが、サンプル数 600、最小値 160、最大値 780、平均値 543、標準偏差 85.5、ひずみ -0.634、とがり 1.96。 製品使用時の全数検査データが、サンプル数 547、最小値 620、最大値 1050、平均値 867、標準偏差 65.7、ひずみ 0.019、とがり -0.187 という検査結果が判明しています。バラツキが大きい中で、それぞれの生産直後と製品使用時の抜き取り検査において、試料点数をどれくらい採取して測定すれば、どの程度の確立で、差があると判定できるかが知りたいのですが、計算方法などを教えてください。当方は 上記の計算が理解する程度のスキルしかありません。とりあえずは、99%の信頼限界程度で良いのですが、よろしくお願いします。

  • 統計学的に信頼できるサンプル数って?

    統計の「と」の字も理解していない者ですが、 よく「統計学的に信頼できるサンプル数」っていいますよね。 あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか? また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか? たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか? わかりやすく教えていただけると幸いです。

  • ある部品の試験サンプル数の決定方法について

    よくICの信頼性試験データなどで、 熱衝撃試験 サンプル数N=52、異常判定0 高温動作試験 N=30 異常判定0 のような試験データがありますが、このサンプル数の根拠ってなんでしょうか? ある母数(製造ロット)に対して何かしらの計算で決定されるものなのか? 試験規格MILやJISでN=○以上、と決められているものなのか? このサンプル数決定の方法を教えてもらえますでしょうか? カスタムでICを起こしたときに上記のような信頼性試験を実施するにあたり、何個以上のサンプルを用いることがベターなのか判らないため、相談させてもらいました。