• ベストアンサー

統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、 よく「統計学的に信頼できるサンプル数」っていいますよね。 あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか? また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか? たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか? わかりやすく教えていただけると幸いです。

  • babi
  • お礼率90% (215/237)

質問者が選んだベストアンサー

  • ベストアンサー
  • zinchan
  • ベストアンサー率49% (97/197)
回答No.5

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・  調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。  何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。  最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。  また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。  具体的に例示してみましょう。  ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。  ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。  一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。 > どのような評価基準をもって客観的に信頼できると判断・・・  例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。  一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。  そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。  あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。  ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

babi
質問者

お礼

非常に丁寧に解説してくださり、ありがとうございます。 許容範囲や妥当性を差し支えないと認めるのは、語弊があるかもしれませんが絶対的な判断基準があるのではなくて最終的には人間の判断によるものなのですね。 ただし、長年の経験や研究で精度が上がっているため指標的なものであっても十分信頼に値するということですね。 具体的に例を挙げていただいたため、とてもわかりやすかったです。 ご回答ありがとうございました。

その他の回答 (5)

noname#21649
noname#21649
回答No.6

>ウス分布であることがわかっていれば、低い危険率(?)で、かつ相当少ないサンプル数でよいのですね。 「良い悪い」ということは判断できません。 既に回答にあるように >それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。 の世界ですから。 「ガウス分布であるとわかっている」という言葉には.「測定誤差以外の誤差を含まない」という意味を含めています。また.検定能の関係で.このあたり以上のサンプル数を増やしても検定精度があまりあがりません。手間ばかりかかってしまうので.やめてしまうのです。ですから.5%検定しかできないのです。 精度が必要な場合には.もっとサンプル数を増やしたりしますが.「面倒でできない」のです。 面倒な例としては. 農業関係は.1年1作しかできない。気候の因子を入れると.10サンプル取るには10年かかる。 手術を伴う患者の場合には.手術室が使える日が週1回なので.どんなに無理しても年40患者しか切れない。しかも研究対象となる病名の患者ばかりとは限らないので無理しても年5-10サンプルしか得られない。 この点から言えは.理工系は必要ならばいくらでもサンプルを作れるので楽に精度を上げられます。

babi
質問者

お礼

お礼が遅れてしまい、申し訳ございません。 詳しく教えていただき、ありがとうございました。 例の比較がとてもわかりやすく助かりました。 今後も別のことで質問させていただくかもしれませんが、よろしくお願いいたします。

noname#21649
noname#21649
回答No.4

>・客観的:統計学的な定義の範疇にあるもの 定義がありませんから.答えようがありません。 目的に応じて. 20回に1回間違う場合(危険率5%) 100回に1回間違う場合(危険率1%) 等で使い分けますから。 危険率5%でガウス分布であることがわかっている場合には.10個程度です。しかし.「ガウス分布であるか」がわからなくて.「ガウス分布であるか」の検定(適合度の検定)をするとなると.最低でも100個必要になります。 との程度の危険率を選択するかは業界によって異なりますので.統計学での一般論はありません。 >・専門家:統計学者 となると.日本で統計を研究しているところが結構少ないのです(疫学関係学会で数学関係者に査読してもらってから投稿するようにという警告の報告が出ているので.数学系学位を持たない学者は統計学者ではないとします)。この少ないサンプルの中から100人もの人を選んでしまうと.学閥が同じ人を選んでしまうことになります。すると.統計の前提条件として「サンプルが独立であること」の条件が崩れてしまいますので.統計的に意味がない命題であることになります。 統計処理では最初に「間違い」を除き.議論します。ですから.統計的に処理するとなると.「1名の方が間違いをしている」可能性は考えません。 計算自体は単純で.「誰がやっても同じ結果になる」ことが.統計では要求されていますので.同じ条件で「1名が異なる結果を出す」ことは考えられません。 すると.考えられる内容は. 危険率の基準が異なる 用いた方法が異なる 場合です。このあたりの内容を見て処理しますから.「独立である」事が満足した場合では.方法の正当性を議論するか.危険率の正当性を議論するか.ということになります。 なお.検査員100人を使った官能検査のような抜き取り検査の場合には.JIS z 9001から9015あたりを見てください。2者択一ですから.(分布名忘却)分布でしょりします。私は計量型の統計処理しかしませんので.計数型は覚えていませんから答えられません。

babi
質問者

お礼

>との程度の危険率を選択するかは業界によって異なりますので. >統計学での一般論はありません。 なるほど、そうでしたか。 ということは、やはりケースに応じて設定する必要があるということでしょうか。 私がこのような疑問を持ったのは「トリビアの泉」で「日本人の女性は○○と思っている」とか「日本中の床屋で一日に切った髪の毛をつなげたら○○Kmになる」といった感じの設問で統計学に明るい△△大学の□□教授(忘れました^^;)が「この調査ですと2,000人に聞けば十分信頼できます」と言ったことに対してでしたが、どうやら私ごときが生意気に質問してよさそうなことではなかったようです。 >危険率5%でガウス分布であることがわかっている場合には.10個程度です。 ガウス分布であることがわかっていれば、低い危険率(?)で、かつ相当少ないサンプル数でよいのですね。 いろいろと勉強になりました。 ありがとうございました。

回答No.3

MIL規格を調べて見てください。 米軍の規格ですが、必要なサンプル数について記述があったと思います。

babi
質問者

お礼

MIL規格の「必要なサンプル数」についてWeb上では見つけることができなかったのですが、軍事規格で規定されているということは相当信頼に値するものと捉えてよさそうですね。 ありがとうございました。

noname#21649
noname#21649
回答No.2

客観的に 専門家が の意味が理解できません。これらの言葉は業界によって意味が変わるのですが.過去の回答経歴を眺めた雰囲気では.どのような分野に関係している方か読み取れませんでした。

babi
質問者

補足

大変失礼いたしました。 ・客観的:統計学的な定義の範疇にあるもの ・専門家:統計学者 といった感じです。 特に具体的な分野は想定しておりませんが、個々の統計調査で最低限必要とされるサンプル数がありますよね。(支持率調査や視聴率調査など) その数はケースによって様々だと思うのですが、それぞれ統計学的に見て客観的に信頼できるサンプル数というのは規定として存在するのか、またどのようにし て算定するのか。そしてどのような評価基準をもってその母数を統計学的に見て信頼できるとするのかを知りたくなって質問させていただきました。 現実問題で必要に駆られているわけではないので、お暇がありましたらご教授いただけると幸いです。

  • 0shiete
  • ベストアンサー率30% (148/492)
回答No.1

たとえば、以下の参考URLはどうでしょうか?

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc027/01934.html
babi
質問者

お礼

ありがとうございます! まさに私が知りたいことが書かれているようなのですが、いかんせん難しくて・・・。(^^; しかし、「目的達成のために必要なデータ量」の検討方法があることがわかってよかったです。 ご回答ありがとうございました。

関連するQ&A

  • 部品の試験サンプル数の求め方について

    合計1000個の部品の信頼性評価をするにあたって、その試験サンプル数を科学的・統計的に求め、試験したいと考えています。どのように考え、どのような手順で試験サンプル数を求めたら良いでしょうか? 当方、統計学の知識・素養がないため、どなたか教えていただければ、有り難いです。また、参考となる書籍等についても教えていただけばと思います。 以上、よろしくお願いいたします。

  • 統計学 市場の必要サンプル数の算出方法教えて下さい

    10万6,015人の母集団から987人の有効アンケートをもらいました。 この987人のうち25%は、商品を使ってみたいという結果になりました。 987人のサンプル数は、必要サンプル数を満たしているかを 統計学をもとに調べています。 仕事で、信頼度95%?!として、調べることになっているのですが、 WEBで調べても、文型の私には理解が難しくて、 どなたか教えていただけませんでしょうか。 本当に困っています。 すみませんが、どうぞ宜しくお願いします。

  • 統計学のサンプル数2000の根拠は?

    みなさんこんにちは. 既出でしたら申し訳ないですが,トリビアの泉等で何か統計を調べる際に,統計の専門家が出てきて「2000人も調査すればデータの信頼性は十分だ」などと言っていますよね. その根拠となる数式なり方法論なりがあるのかな?と思って調べてみたらどうやら↓のページに掲載されている数式のようなのですが,このページを作られている方もその数式の妥当性に疑問を感じておられるらしく,読んでいて余計わからなくなってしまいました. 世論調査におけるサンプリング数の決定 http://www.wound-treatment.jp/next/wound225.htm どなたか統計学にお詳しい方,簡潔に教えていただけませんでしょうか?(あまりに専門的な議論は理解不能ですのでお手柔らかに‥)よろしくお願いします.

  • 統計学でよくわからないポイントがあります。。

    統計学のp値の説明で以下のような記載があり何度読んでも調べてみても理解できませんでした。 「帰無仮説 H0 μ≧1000 対立仮説 H1 μ<1000 このとき実際μ=1000のとき標本数が30とすると、標本平均が999以下となる確率が26%であったとします。 この26%のことをp値と呼び、H0の信頼性評価の一種である。26%という信頼性評価はその評価に関わらずH0が真であるおおよその確率である。」 ここで26%は999以下となる確率であるのになぜH0の真である確率となるのか理解できません。 H0は1000以上なので逆に偽である確率となるのではないのでしょうか? もしわかりましたら教えて頂けたら幸いです。。

  • アンケート調査に必要なサンプル数

    現在、2000世帯、7000人の町のアンケート調査を予定していますが、サンプル数をどの程度確保したらよく分かりません。 統計学には疎いのですが、標本サイズと誤差の関係を示す、e=1.96√p(1-p)/n p母集団比率、n標本サイズ、信頼係数95% という式をホームページから見つけました。 これによると、誤差を4%以内にするためには600サンプル必要とありますが、2000世帯に600サンプルでは感覚的に過大に思います。 何か別の考え方があればご教示願います。

  • 統計学的に有意かどうかを判断するためのサンプル数

    インターネット上に出している広告の有意性を見るためのテストをしているのですが、統計学的に有意かどうかを判断するためのサンプル数としてどれを見るべきなのか分かりません。「サンプル数400あれば、危険率5%で有意」みたいに使われてたと思うのですが、以下のようなケースでは、どう判断したらよいのでしょうか? ■行ったテストの内容  ABテスト:インターネット上に出した広告の効果があるかどうかを見るために、その広告を表示した「A群」と、その広告は表示せず代わりに関係のない広告を表示した「B群」を作り、比較検討してみた。(B群はあくまでも比較のためなので全体の5%程度表示されるようにした。ちょっと足りませんが。) ■実施結果(まだ途中の段階なのですが…現在のところ)  □A群:   ・広告表示回数: 8,434,601   ・購入数: 321   ・購入率: 0.00381% (=321÷8,434,601)  □B群   ・広告表示回数: 368,696   ・購入数: 13   ・購入率: 0.00353% (=13÷368,696) ■質問内容  ・上記のようなケースで、A群に出した広告は、果たしてどの程度「効果があった」   と言えるのでしょうか?現状、購入率の違いは、約8%(0.00381% vs. 0.00353%)   となると思うのですが、この数値は統計学的にどの程度有意と言えるのでしょうか?  ・ここでのサンプル数というのは、表示回数の8,803,297(=8,434,601+368,696)   でしょうか?それとも、購入回数の334(=321+13)でしょうか?  ・統計学でいうところの「危険率」や「信頼区間」は、いくつだということになる   のでしょうか?  

  • 信頼できる標本抽出に必要な数の決め方(統計)

    はじめまして。 実験で適切なサンプル測定数を決めたいのですが 統計的なことに弱く困っています。 どなたか教えてください。 例えば 5 6 8 8 9 10 6 7 といった母集団(n=8,平均=7.375,標準偏差=1.69) があった時に、 この母集団から信頼度α%の平均値を得るのに必要な 最低のサンプル数はどうやったら知れるのでしょうか。 どなたかご回答お願い致します。

  • 統計学についての質問です。

    統計学に興味を持ち、簡単な統計の本を見ながら独学で勉強しています。 現在、「標本平均の差の信頼区間」ちょっと躓いております。 標本平均の差の信頼区間の式の中に、 (標本平均Aー標本平均B) が含まれていますが、 (標本平均Bー標本平均A)ではダメなんでしょうか? 入れ替えた場合、当然符号が変わり、信頼区間の符号も変わってしまうのはわかるんですが、なぜAーBなんでしょうか? 何に注目して、引かれる数と引く数を決めればいいのでしょうか? 以上、回答いただきければ幸いです。

  • すみません、統計学でp値の意味がよくわかりません

    統計学のp値の説明で以下のような記載があり何度読んでも調べてみても理解できませんでした。(説明不足であったため追加しました。) 「・帰無仮説 H0 μ≧1000  ・対立仮説 H1 μ<1000 このとき実際μ=1000のとき標本数が30とすると、標本平均が999以下となる確率はいくらだろうか。この疑問への答えはH0の信頼性評価と考えられる。これに注意すべき点は2つある。 ・この問いはH0にとって都合が悪いかさらに都合の悪い証拠の得られる確率を求めている。その理由は連続分布の場合確率は範囲のもった値にしか計算できないためである。ここではH0に都合の悪い標本平均の範囲として999以下をとりあげる ・仮定されている条件はH0ではμ≧1000と述べているにもかかわらずμ=1000である。μ=1000と仮定する理由はH0に最も有利になるように疑いをかけるからである この疑問への答えが26%であったとする。標本数が30で実際にμ=1000であったときに標本平均が999以下となる可能性26%であるということだ。 この26%のことをp値と呼び、H0の信頼性評価の一種である。26%という信頼性評価はその評価に関わらずH0が真であるおおよその確率である。逆にその証拠を踏まえると粗粗74%の信頼性でH0が偽だといえるその意味するところはH0を棄却した場合におおむね74%の確率で正しくおおむね26%の確率で過ちを犯すことである」 ここで26%は999以下となる確率であるのになぜH0の真である確率となるのか理解できません。 H0は1000以上なので逆に偽である確率となるのではないのでしょうか? もしわかりましたら教えて頂けたら幸いです。よろしくお願いいたします。(長くなって申し訳ございません) (なお使用した参考書はビジネス統計学上 P320です)

  • 検定のサンプル数について

    こんにちは。 最近レポートをまとめる際に統計学を使うようになった者です。 とても基礎的な質問だと思いますが、検定のサンプル数はどれくらいあれば有意差など調べる際に有効なのでしょうか?サンプル数によって使う計算式が違うというのを耳にしたのですが、実際はどうなのでしょうか? サンプル数が50~100ぐらいで有意差など十分な結果が出せるのであればいいのですが・・・ 教えて下さい。