• ベストアンサー

母集団の平均が求まらないときの必要なサンプルサイズの求め方を教えてください

こんにちは、医療学生です。統計を実際に研究で使うときになって自分がかなり統計について知識不足と気付きました。もしかしたら理解不足のためにおかしなことを言っているかもしれませんので、その際は是非ご指摘ください。 学校でサンプルサイズは各グループ25以上でないとT検定を行うことは適切ではないと習いました。しかし、20以上ならちょっと検出力が下がりますが行っても良いでしょうと言われました。 参考に似たデザインの論文を拝見した所サンプルサイズが20より少ないのに一元配置分散分析をしているものが多くありました。 サンプルサイズって、、、いったい。。そんな蔑ろにしていいものなのですか?? このような悩みを見なかったことにしておけなくなってきてとても困ってます。。 私は2×6(2グループで、経時的に6回測定)で、正規性と等分散性があれば2元配置分散分析をしようと考えています。 各群のデータをすでに12のラットで取ったので各群のある程度の分散と標準誤差が分かっています。これからあとどれだけのサンプルが必要なのでしょうか?? 私がどんなことを伝えたらいいのか分からないまま書いたので不備がたくさんあると思います。非常に分かりにくいと思いますが、何卒よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

検定の基本は、 1) どの検定法を用いるかは、研究者の勝手である 2) ただし、条件を満たす必要がある。例えば、t-検定では、集団が正規分布または、t-分布をしていること。 3) 有意差がでないと、研究論文にはならない  実験動物(野良猫は駄目)の場合は、正規分布をしていると想定できるので、対照と実験群で、t-検定をするのが一番楽です。私の場合は、データのバラつきガ小さいこともあって、各群3匹、計6匹で論文を通しています。  有定差が出なかった場合は、例数を増やすと、なんとかなる場合も少なくありません。例数を増やせば、有意差はでやすくなるのですが、各群10匹以上使って、無理矢理出しても無意味と考えているので、私はやりません。  ヒトを対象の場合は、バラつきが大きくなるので、1群100人、なんぞも少なくありません。食物繊維が大腸がんの予防になるか、なんぞは10万人規模でやるそうです。 >私は2×6(2グループで、経時的に6回測定)で 1群何例か知りませんが、3例以上あればOKです。各時間でt-検定をする。  どの時間でも有意差がでなければ、多重比較をやるようです。  私は、多重比較なんぞは、面倒なのでやりません。論文を作製するには、もちろん有意差は必要なのにです。が、本音は、そこまで無理して有意差を出しても、現実的に意味があるとは思えず、『そんなに論文が欲しいか』というのが感想です。

student390
質問者

お礼

御指南ありがとうございます。 私の場合も集団が正規分布または、t-分布をしていることが想定されるため3例以上であれば良い。ばらつきが大きくなるにつれて優位差を出すためにはサンプルサイズを大きくする必要があるということですね。 >本音は、そこまで無理して有意差を出しても、現実的に意味があるとは思えず、『そんなに論文が欲しいか』というのが感想です。 本音までおっしゃっていただきとてもありがとうございます。 私は今回の論文ができないと卒業できないので、今回はとっても論文が欲しいです。(すいません。。) 端的でわかりやすい説明ありがとうございました。

その他の回答 (1)

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

必要なサンプルサイズを求める方法については朝倉書店から出ている「サンプルサイズの決め方」が非常に参考になります。 ただ,理論的には正しくても実際にそれを行うことができるかどうかは別な話です(母集団を全数調査をすれば理論上は誤差がでなくても,調査ミス,調査時期のズレ,あるいは集計と分析のミスなどによって誤差が出てしまうのと同じこと)。 例えば新薬のテストを行う際にサンプルサイズが最低でも20は必要だと見積もっても,正直,マウスを使うということは"お金の問題"というのがありますよね。これもサンプルサイズの大きさが各実験によって異なる理由の1つではあるでしょう。

student390
質問者

お礼

御指南ありがとうございます。 >ただ,理論的には正しくても実際にそれを行うことができるかどうかは別な話です そうなんですね。 とても現実的ですね。 一度、「サンプルサイズの決め方」を拝読させていただきます。 ありがとうございました。

関連するQ&A

  • サンプルサイズの大きく違うF検定

    サンプルサイズの大きく違う二つのグループの分散の差をF検定で調べたいと思っています。 グループ1は31サンプル、グループ2は1704サンプルです。 F検定はサンプルサイズに依存しないようですが、こんなにサンプルサイズが違っても問題ないのでしょうか? 両方のグループとも正規分布すると考えて問題ありません。 統計素人なので、わかりやすい説明をお願いします。

  • 【SPSS】等分散性の検定

    SPSS(バージョン14.0)を使って勉強しています。 わからないことだらけです。 そこで誰かに教えていただきたいのですが…。 4水準(グループA、B、C、D)で一元配置の分散分析を実行したところ、 「等分散性の検定」で ・Levene 統計量 3.205 ・有意確率 0.023 と結果が出ました。 有意確率が0.05より小さいので等分散とはみなせないと参考書に書いてあるのですが、それでは、グループA、B、C、Dのどのグループ間で分布が違っているのかは、どうやって確かめればよいのでしょうか? 初心者ですので質問自体が的外れなのかもしれませんが、よろしくお願いします。

  • エクセルでANOVA

    3群比較の場合、ANOVAを使用することは理解できます。 エクセルの分散分析(一元配置)で、p<0.05となった後に各群間でのp値が知りたいとします。そこで、AB、BC、AC群の間で更にtTESTを行うというのは間違ってるんでしょうか? ちゃんとした統計ソフトはANOVAのみで、各群間のp値も算出されるのですか? 宜しく御願いします。

  • 等分散性が仮定されない分散分析、およびカイ二乗検定

    (誤って「生物学」カテゴリーで質問してしまったため再投稿します) SPSSを利用しています。 クラスター分析により4つのグループに分けた後、 30の質問項目について、1間配置分散分析でグループ間の平均値の比較を行おうとしています。各グループのサンプル数は、42、75、62、36です。 (1)グループごとのサンプル数はどの位あればよいのでしょうか? 上記サンプル数では問題がありますか? (2)ルビーンの等分散性の検定をしたところ、.05以下になる項目が7つほど見つかりました。 となると、普通はこれは分散分析ではなくノンパラ検定にすべきなのですよね? 他の方の質問で、Games-Howellなら分散分析のままで大丈夫とあったのですが本当でしょうか。 (3)もし(2)でGames-Howellで大丈夫とすると、その後の多重比較は、 ・等分散が仮定された項目は分散分析で有意であればTurkey-HSDで多重比較し、 ・等分散が仮定されなかった項目は分散分析で有意であればGames-Howellで多重比較する ということになるのですか? この場合、質問項目により多重比較の方法が分かれてしまいます。 それとも、全項目についてGames-Howellの方を見るのでしょうか? (4)あと、これは(1)~(3)と独立の問題かもしれませんが、 一部の質問にはNAデータがあるので、 全ての項目についてサンプル数が同じではありません。 これは分析上問題がありますか? 以上の4つについていずれでもよいので お分かりの方どうぞ教えてください。よろしくお願いします。

  • 二要因の分散分析について質問です!!!

    二要因の分散分析について質問です!!! 二要因の分散分析をSPSSでやっていたら、Leveneの等質性の検定という等分散を仮定する検定で 有意になってしまいました。⇒帰無仮説が棄却されない で、t検定だと等分散を仮定しない場合の値が書いてあったり、 一元配置分散分析ではWelchの検定というのがあります。 二要因の分散分析でなんとかこの状況を打開する手はないでしょうか? できればパラメトリック検定で行いたいと考えております。

  • 一元配置分散分析でよろしいのでしょうか?

    よろしくお願いいたします。 A町から抽出した被験者の年齢 ; 33,43,43,21,76,43 ・・・。 B町から抽出した被験者の年齢 ; 23,34,55,43,47,98,86,53・・・。 C町から抽出した被験者の年齢 : 45,42,57,35,65,48,37,27・・。 D町から抽出した被験者の年齢 ; ・・・。 E町から抽出した被験者の年齢 ;  ・・・・。 各群において平均年齢に差が無いことを示すのは、 一元配置分散分析でよろしいのでしょうか。ネットで一元配置分散 分析の使用例を調べてみたのですが、平均年齢に用いている ケースがなかったので質問させていただきました。 どうぞ、よろしくお願いいたします。

  • 統計分析の方法と意味

    下記(1),(2)は5日ごとにA区とB区の値を示したもので、 A区とB区の間に有意差があるのかを調べたいのです。 時間的経過があるので単純に一元配置の分散分析では、おかしいと思い、単回帰分析を行ったところ、理解できない結果が出てきました。結果の意味が十分出来ていないのか、そもそもこのような分析に単回帰分析を用いること自体が間違っているのでしょうか。間違っているなら、正しい分析を教えてください。分析はエクセルで行っています(エクセル統計も入っています)。 統計について全く知識がありませんので、専門用語をあまり使わず、教えてください。 (1)A区 50.4,44.1,34.1,15.8   B区 67.5,46.8,39.5,16.6  一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は正しい気がする。 (2)A区 12.6,4.2,1.9,1.4   B区 12.0,5.9,2.0,1.0 一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は変な気がする(有意差がないのが正しいのでは)

  • エクセルと他の統計ソフトとの結果が大きく違うのですが。

    エクセルで行った一元配置の分散分析の結果が、他の統計ソフト具体的にはSTATISTICAで算出した結果と大きく違いどちらを信じていいものか分りません。アドバイスを下さい。お願いします。

  • 統計的にサンプルサイズを決める方法について疑問

    統計的にサンプルサイズを決める方法について、疑問があるので教えてください。 以下、例として提示します。 各種数字は計算がしやすいような数値でとってあります。 68,000 個の製品を出荷直前に検査するとして、 許容誤差10%で 信頼水準レベル90%の場合、 必要なサンプルサイズは 68個 のようです。 (自分で計算したわけではなく、ツールで計算されたものですが) 出荷は68日間あり、1日に1,000個を出荷していくとします。 許容誤差10%で信頼水準レベル90%の場合、サンプルサイズは68個なので、この場合は、【日割りで計算して】、毎日1,000個の中から、1個のサンプルを取ればよい。 つまり、【日割りで計算すると】、1/1,000 (千分の一)の確率でサンプルを取れば良い、ということになると思います。 ここからが疑問です。 全体数68,000 個を日割りにするのではなく、毎日1,000個出荷する前に個別にサンプルサイズを求めた場合、許容誤差10%で信頼水準レベル90% ならば、統計上は必要なサンプルサイズは 64 個となってしまうようです。 68,000個を68日間の日割りで計算した場合はサンプルは1000個に1個だが、1日1日で個別にサンプルサイズを導きだした場合は1000個に64個となってしまいます。 異なる結果になってしまうのですが、どちらの考え方が正しいのでしょうか?

  • 人数の違う集団の比較

    人数の違う4つの集団(地域)に「はい」「いいえ」で答えられる質問をした際、回答に地域差があるかを検定したいです。 カイ二乗検定なのか、一元配置分散分析なのか…と悩んでいます。 初心者の質問で申し訳ありませんが、教えてください。