• ベストアンサー

[統計]「●●な人は△△ですか?」 必要な標本数は?

俺は統計は素人です。 よく人間関係カテゴリで見かける気がする 「背の低い人はダメですか?」 とかその他諸々。 自分はあまり回答を読みに行かないのだが、自分の経験から話す人が多く、実験やらソースやらを示している人は少ないんじゃないかと考えた。 もちろん、「人によって異なる」とか「誤差が出る」のだろうけど、「日本国民の90%以上の人についてはYESである」と明言するためにはアンケートで何人ぐらいの標本を採ればいいのだろう? 教えてgooのアンケートで回答する回答者にも偏りがあるだろうが、ここでは無視したいなぁ・・・ ======== うまく質問内容が伝わっているだろうか?

noname#20377
noname#20377

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.3

 母集団である対象人口Nが小さい場合はイロイロ細かいことが出て来て難しくなりますんで、ここではNがすごく大きいとします。で、ある質問に「YES」と答える人がNp人(0≦p≦1)いるとします。  すると、このN人の中からランダムにM人を選んで同じ質問をしたとき、「YES」と答える人の数が丁度r人になる確率は二項分布 B(M,p,r) = combin(M,r) (p^r) ((1-p)^(M-r)) になります。平均は m= Mp, 分散は σ^2 = Mp(1-p) です。  さて、Mが大きいとき、B(M,p,r)は平均m,分散σ^2の正規分布で近似できます。従って、r/Mがm/M-ε~m/M+εの範囲に入る確率を例えば95%以上にしたければ、εM≒2σになるようにσを決めれば良い。一般にεM≒kσ(kは信頼度係数)とすると、 (εM)^2≒(k^2)Mp(1-p) だから、 M≒((k/ε)^2)p(1-p) となります。p=1/2のときにMは最大になって、 Mmax ≒ ((k/ε)^2)/4  ここでさらにk=2(95%の信頼度)に固定してみると、 Mmax(k=2) ≒ (1/ε)^2 ですから、例えばMmax(k=2)=1500とすると逆に、ε≒1/√1500≒1/40=2.5ポイントと分かります。つまり、「±2.5ポイント程度の誤差を許して、95%の信頼度なら1500人ぐらい」というコトです。(±2.5ポイントっていうのは、例えば、「YESと答える人が40~45%です」という時の幅である5の半分です。)  ところでご質問ではp=0.9ですから、 M≒0.09((k/ε)^2) k=2(95%の信頼度)にすると、誤差範囲±2.5ポイントなら600人ぐらい、±0.5ポイントなら14000人ぐらいってこってすね。もちろん、pがあらかじめ予想できていない場合には、最悪のケース、つまりp=0.5で調査対象人数Mを決めるしかありません。

noname#20377
質問者

お礼

#締め切ろうかなーと思っていたところでした。 ご回答有り難うございます なるほど、非常にわかりやすい解説をありがとうございます。14000人の調査を行わないとそれだけの精度が出ないんですね・・・ ±2.5%だと600人という少なさになるんですね! 意外です。教えてgooの回答数が確か400台だったから このくらいあれば参考になるのかもしれませんね。 重ねて、No.1,No.2さん含めありがとうございました。 #ちなみに別に会社の人間じゃないが、goo researchに関することでも述べて「オチ」を付けようかとか考えていた不謹慎な人間です(^^;;

その他の回答 (2)

  • age_momo
  • ベストアンサー率52% (327/622)
回答No.2

http://www.wound-treatment.jp/next/wound225.htm このあたりでどうでしょう。

  • yambejp
  • ベストアンサー率51% (3827/7415)
回答No.1

統計学的には1500人くらいだそうです。 もちろん、どこまで正確に無作為抽出ができるかにも よるでしょう。 googleアタリで「統計学 サンプリング」などで サーチするとヒットします

関連するQ&A

  • 標本の集め方について

    アンケートを実施しようとしているのですが標本対象の年齢が限定されている(50代後半~60代)ため、どのように標本を集めればよいのか苦労しています。 アンケート票の作成や分析は自分でするので標本だけ提供してくれるようなサイトや調査会社などはないでしょうか? また、このアンケートは年齢が重要なので回答者の年齢を確認できるような方法を探しています。 個人負担できる程度でなるべく低費用で済む方法を教えて頂ければと思います。

  • アンケート調査に必要なサンプル数

    現在、2000世帯、7000人の町のアンケート調査を予定していますが、サンプル数をどの程度確保したらよく分かりません。 統計学には疎いのですが、標本サイズと誤差の関係を示す、e=1.96√p(1-p)/n p母集団比率、n標本サイズ、信頼係数95% という式をホームページから見つけました。 これによると、誤差を4%以内にするためには600サンプル必要とありますが、2000世帯に600サンプルでは感覚的に過大に思います。 何か別の考え方があればご教示願います。

  • サンプル数をどれぐらい集めれば、正しいのでしょうか

    例えば、10万部のチラシを作成したとします。 そのチラシに、ハガキなり、WEBで「アンケートにお答え下さい」と告知し、 性別、年齢、住所などを聞きます。 その10万通のチラシが、廃棄されることなく、人の手に渡ったとなった場合、 何通のアンケートが回収(回答)できれば、 「そのアンケート内容が、チラシを受け取った人の属性である」 と言って差し支えないのでしょうか(統計学として)。 10万通のチラシについて、男女比が6:4で、30歳代が60%で、 など、社内資料として、まとめたいと思っています。 単純に、返答のあった数で、男女比などを出すことができますが、 もちろん10万通の回答があればいいのですが、 500通で、統計学的に誤差プラス・マイナス2%とか、 統計学として、信憑性のある数値としてまとめることができるのかを 知りたいと思います。 あるいは、上記のようなことが分かるサイトのURLを ご教示いただければと思います。 ご回答、よろしくお願いいたします。

  • 実験値の統計処理-T分布-について

    今、実験値の統計処理を行っています。 同じ試料について一定量をサンプリングし、測定値を理論式に当てはめ、誤差伝播を考えた形x±Δxで実験値を算出しています。何度も測定を行ったので、平均値や分散などを計算したいんですが、処理の方法に困っています。 標本の平均値や分散などの不確かさは、それぞれに誤差伝播式 f:=f(x_i) ⇒ Δf = ( Σ(∂f/∂x_i)^2 Δx_i^2 )^(1/2) を当てはめて計算して良いですか? あと、t分布で母平均を推定したいんですが、標本の平均や分散に不確かさが含まれている場合、どのように計算すれば良いのでしょうか・・・?? 何卒ご教授宜しくお願いします。

  • アンケートの標本数

    初めて質問します。 統計学の知識が全くありませんので、もしかすると的外れな質問かも知れませんが、どうかご容赦ください。 会社で、顧客満足度についてのアンケートを実施することになりました。 「どれだけの人に質問をしたら良いか」について調べるため参考書を読んだところ以下のような記述がありました。 ・信頼率「a」…0.95 ・目標精度「e」…0.05 ・信頼率「k」…1.96 ・母比率「P」…0.5  …と設定する時、 『無限母集団』の場合は、「385人」以上の人に聞くと良い。 お店に来る人全てを母集団とするので、このお客様たちを「無限母集団」と考えて算出しました。 普通ならこの計算でよい(と思う)のですが、問題はウチのお客様には さまざまな国籍の方がいらっしゃって、国籍ごとに購買動向が大きく異なることです。 そこで国籍ごとの顧客満足を測りたいのですが、例えば4つの国籍が母集団に含まれている場合、 それぞれの国籍において385人ずつ=1,540人以上の標本が必要となるのでしょうか? ちなみに、それぞれの国籍の方の年間の来店数は大きいほうから順に 700千人、200千人、100千人、70千人というような具合です。 まとまりのない質問で申し訳ないです。 初めての試みで社内に詳しい者がおりませんので、統計に詳しい方々の 知識をお借りできればと思った次第です。 よろしくお願いします。

  • この実験研究に必要な標本人数を教えてください。

    統計の素人です。よろしくご指導くださいませ。 このたび実験研究を行うことになりました。 あるひとつの状態を「正しい」と仮定した上で、被検者さんに「正しい」を行って頂き、その前後の『筋硬度値』を比較します。 被検者さんは、38人の仲間の中から無作為抽出するのですが、その結果を全国の同じ業界の多くの方に「効果がありますよ」と学会で発表できるようにもっていきたいと思っています。(夢は大きく。。。) そこで質問ですが、この場合、何人の標本をとって、どのような検定にかけることが必要でしょうか? 例えば、2つの集団を作って、「正しい」を行った群と行わなかった群の平均を比べるのであれば、t検定というものにかけることが必要で、それなりの人数を割り出すのかな、と考えたのですが、私達のように、同じ人で「正しい」の前後を比べる場合はどうでしょうか? テレビでよく行われているような、何かを食べて血液サラサラ…のような場合でも、3人の時もあるし何十人の時もありますね。。考えれば考えるほどわからなくなってしまって…。 どうか、統計に詳しい皆様、お知恵をお貸しください。よろしくお願いします。

  • 国勢調査など、政府統計の信頼性について

    2005年の国勢調査の公表を検証したところ、下のような矛盾が出ました。 1) 国勢調査の抽出速報は、確定値や推計人口と比べて、人口が5%ほど20-34歳で少なく、65歳以上で多くなる。 具体的には2005年の国勢調査で確定値の出ている13県で 20-34歳: (確) 4,217,085人  (抽) 3,970,900人  (誤差) -5.84% 65歳以上: (確) 5,266,270人  (抽) 5,536,400人  (誤差) 5.13% 全国で抽出速報と推計人口(日本人)と比べると、20-34歳で誤差 -5.6%、65歳以上で誤差+4.8%と、抽出速報が若者が少なく高齢者が多くなります。数学板で質問したところ、このような誤差が起こる確率は数学的にはゼロだそうです。 抽出による標本誤差ではありえないそうです。http://oshiete1.goo.ne.jp/kotaeru.php3?q=2337762 抽出速報での無作為抽出のミスだとは考えられないし、2000年の国勢調査でも、抽出速報で同じような年齢による偏りがあるそうです。 2) 国勢調査の調査票未回収率に比べ、結果の不詳率が低すぎる こちらのグラフを見ていただくと、http://plaza.rakuten.co.jp/kokuseihanako/ 5歳階級別の配偶関係の不詳率が、34歳までで0.1%以下と非常に低く、35歳以上で不詳率が大きくなります。 国勢調査票の未回収が4.4%で、とくに若者の国勢調査の非協力が問題となったという報道とは矛盾しています。住基登録で確認しているにしても、不詳率は低すぎるし、35歳以上から不詳率が高くなる説明が出来ません。 統計局の国勢調査のサイトを見ても、調査結果を補正したという記述は全くありません。 調査結果に何らかの補正を加えるなら、その旨を記述しないと「捏造」になるそうです。 みなさまはどう考えられますか? 「統計値をいじって、少子高齢化で国民を脅して、消費税の値上げをスムースにしよう」など、国の行う統計が操作されている可能性があると思われますか?

  • アンケートの集計分析の基礎(無回答の扱い、標本数など)

    統計はズブの素人です。施設利用者の満足度アンケート調査をしました。集計分析について下記2点後教授お願い申し上げます。 【1】空欄・無回答の扱い?    例えば、「あなたは○○に満足しましたか?」という設問の解答は<5:とても満足>~<1:とても不満>までの5段階での回答となっております。    このとき、集計及びグラフ作成において、度数による棒グラフ(1は10件、2は30件、、、、)と、%による円グラフの表現がわかりやすいと考えております。    その場合に、無回答の項目も入れるのでしょうか?     それてもアンケートにおいて、無回答の取り扱いは、設問の種類(単一回答か、複数科回答か、自由記載か)や内容(「利用が初めてか?」など無回答が理論的にあり得ない場合と、満足度の5段階評価のケースのように無回答が「5段階の評価では回答できない(-1だ!)」というようなことが推測できる場合、などにより対応を考えるべきなのでしょうか?  【2】標本数について   施設は医療施設です。母集団は1年間の利用者数を考えるべきでしょうか? それとも一ヶ月あたりの利用者数(ほとんどの利用者が1ヶ月に一度は施設を利用すると推測できる)を想定するべきでしょうか?  その母集団の数値(はじき出すことが可能です)を基に、信頼度とか誤差とかといった数値も出すものでしょうか? これら含めて、アンケート報告書に記載すべき基礎的なことと及び常識・慣例的なことを教えて下しさい。アンケートの結果報告書は、主に施設の管理者に対するレベル(公表が必要と判断されれば、利用者にも公開する)とお考え下さい。  どうかよろしくお願い申し上げます。   

  • アンケートに必要な回答数について

    統計に関する質問です。 ある特定の属性に対してアンケートを取る場合、どの程度の回答数を集めればそのデータに有用性があるといえるのでしょうか? 例えばですが、キャッシングに関する市場のニーズを調査するために、教えてgooで「キャッシング」と入力して出てきた質問内容を、いくつかのカテゴリに分類していくという作業を検索順に300行ったとします。 この場合、300の質問内容から分かる傾向というのは、どの程度正確なデータと言えるのでしょうか? 今回の例ですと「教えてgooを使ってキャッシングというキーワードで検索した人」、という属性がさらに付随するので、キャッシング市場の中でも特定の傾向を持つデータととらえるのが正確かもしれませんが、個人の主観としては全体の傾向とそこまでずれてはいない気がするのですが。。 統計的な側面から見ると、かなりデタラメな解釈でしょうか? 専門家の方や統計に詳しい方のご意見をいただけると参考になります。

  • 統計学の基礎?

    前提 日本人の身長の真の平均値を知るためには、日本人全員の身長を測定しなければならないが、それはおそらく不可能である。 そこで、一部の人(標本)の身長を測定し、その結果から推測したい。 標本(n)の身長もばらつき(標本分散:v)を持つし、日本人全体(母集団:N)の身長もばらつき(母分散:σ^2)を持つが、これらと真実の値(母平均:μ)や標本平均(m)との関係はどうなっているだろうか? ただし、各人の測定結果(身長)はX1,X2,X3・・・XNとあらわす。 問 1)日本人の平均身長= 2)日本人の平均身長の標準偏差= 3)標本の平均身長= 4)標本の平均身長= 5)標本の平均身長の分散から推定される日本人の平均身長の標準偏差= 6)標準誤差はσ/√nで与えられるが、これを標本分散を用いて表すと次のようになる。  標準誤差= 7)標準誤差を用いると、真実の平均値(母平均)があるであろう範囲(信頼区間)を特定の有意水準で求めることができる。有意水準5%のときの範囲(95%信頼区間)を表す式を示せ。 8)160、165,170,175,180というデータの平均の95%信頼区間を求めよ また、145,165,170,175,195というデータの平均の95%信頼区間と比較せよ。 以上の問です。 7と8以外は、数値を聞いているわけではなく、求める式を問うていることはなんとなくわかるのですが、ちょっとパソコンを利用して調べて回ったところ、どれが必要な情報かさえわからないレベルで、頭が痛くなってしまいました。 よろしければ問いの回答、その回答に至る考え方の流れなどを、簡単なものでも構わないのでご教授願えないでしょうか?