• 締切済み

サンプル数の決定

こんばんは、皆さん。 ある製品を買ったユーザに対してアンケートを取ることを考えています。 アンケートが例えば5段階で次のようになっているとします。 ・たいへん使いやすい ・使いやすい ・普通 ・使いにくい ・とても使いにくい これを母集団(製品を購入した人)の姿を反映している結果を得たい場合、 何人からの有効回答が得られなければならないのでしょうか? 当然、完全に妥当であるかどうかは確率論になると思いますので、 条件として信頼度が95%以上であるという場合、どのように考えたら よいのでしょうか?

noname#17299
noname#17299

みんなの回答

  • solla
  • ベストアンサー率59% (45/76)
回答No.3

> これを母集団(製品を購入した人)の姿を反映している結果を得たい場合、 > 何人からの有効回答が得られなければならないのでしょうか? サンプルが母集団を反映したものになっているかどうかはサンプル数とは関係なく、サンプルの抽出が正しくランダム化(無作為化)されているかどうかで決まります。ランダム化が適切に行われていない、偏ったサンプルになっていればどんなに数が多くても誤った結果しか出てきません。偏った多数のサンプルよりも適切にランダム化された少数のサンプルの方が良いこともあります。 極端な例ですが、日本人全体について調べるために1万人にアンケートを実施したとします。1万人といえば“超”大規模調査です。しかしこのアンケートの対象の90%が20歳代の男性だったとしたら、この“超”大規模調査から日本人全体について何か言えるでしょうか? サンプルの抽出が適切な方法で無作為に行われ、母集団を適切に反映している事を保障した上で、次の段階として必要な推定の精度を確保するためにサンプル数はどの位かを考える事になります。 ↓こちらの質問に対する私の回答も参考になるかと思います。 http://okwave.jp/kotaeru.php3?q=1552827

noname#17299
質問者

補足

ご回答ありがとうございます。同じ質問があったんですね。 ひととおり検索しましたが発見できませんでした。 リンク先の質問の人が記載したリンクも読みましたが、何が何だかわかりませんでした。 サンプルの抽出が正しくなければ意味がないのはもちろんわかります。 サンプルがランダムに抽出されていて、製品を購入した人が1万人いると仮定して、5段階評価のアンケートを取った時、これだけの回答がもらえれば、アンケートの結果を1万人の意見として捉えることができるのでしょうか? また、N/( ( (E/k)^2 * ( (N-1) / P(100-P) ) +1 )の式がどのように導かれたのか、この式はどういう統計を取るときに有効なのかを具体的に説明していただけるとありがたいのですが…。 よろしくお願いします。

noname#25799
noname#25799
回答No.2

おはようございます。面白そうなので考えてみました。素人なので全然はずしている可能性ありです。(信頼度95%以上!?) まず、確率の計算ですから、帰無仮説を設定するのが普通かと思います。また、問題を簡略化して、たいへん使いやすいを100点、とても使いにくいを0点として、25点刻みにして得点化して、平均点を求めることにしてみました。ここでは、 帰無仮説:「平均点は50点より小さい。」と設定してみました。 製品ですから、これが棄却されて欲しいところです。 こういう場合、権出力検定(Power Analysis)という手法がとれるんではないかと思います。詳しくは例えば参考URLを読んでみてください。(日本語のよさそうなURLが見つけられませんでした。) この中に単純減少グラフがありますが、これが回答に近いんではないかと思っています。(でも、信頼度は90%ですから95%にするとサンプル数の上乗せが必要です。)ここでは、150万人の母体を設定していて、横軸が、実際の比率で母集団での本当の平均点が75点なら0.75、60点なら0.60に相当すると考えいいかと思います。この表を見ていえることは、その製品が素晴らしく75点平均が十分見込めるのなら20人くらいの統計で、これは50点よりいい製品と言えること。逆に55点くらい平均しか見込めないのなら、同じことをいうのに800人以上のサンプリングが必要になるということです。つまり、商品がどれだけ優れているかによりサンプル数が変わってくるようです。 最初の帰無仮説も満足できるものでないかもしれません。気持ち的には例えば75点以上に設定したいですよね。とすると、当然結果は変わってきます。 残念ながら紹介できませんが、検出力検定のできるソフトを見繕って、いろいろ試してみるのがいい気と思います。

参考URL:
http://www.statsoft.com/textbook/stpowan.html#index
回答No.1

まず、ユーザーすべてにアンケートをとった場合、比率が1:1:1:1:1に分かれるとします。しかし、ユーザー500人のうち、100人にアンケートをしたら、極端な話、100:0:0:0:0になる可能性がありますよね。それは、アンケートした100人がたまたま一つの選択支に集中した場合で、他の400人の答えは反映されてないからですよね。でもその確率は1/7.8x10^69で、ほぼ起こりえませんよね、でも99:1:0:0:0なら起こりうる確率はさっきより当然あがります。で、一番可能性として高いのは20:20:20:20:20と1:1:1:1:1にきれいに分かれる場合ですよね?そこで、比率の±5%の誤差に収まっていれば正確な結果といえるなら、例えば19:21:20:19:21などもOKですよね?このOKになる場合が全体の95%を上回っていれば95%以上の信頼度といえるのではないでしょうか。 期待値を求める時など、それぞれの場合の確率を求めますよね?そこでOKの範囲の確率の和が95/100以上になった時、信頼度95%といえるのではないでしょうか。

関連するQ&A

  • 統計学的なサンプル数の妥当性について

    ある回路の故障検査を行っています。 母集団は70,000本で、これは回路の全配線数です。 このうちの1%(700本)に対して、強制的にエラーを 付加した結果、外部から観測できたのは、630本でした。 このときの1%は、完全にランダムに選ばれたものと します。 これから、故障を発見できる確率は、    (630/700)*100 = 90% と計算できます。 このとき、この90%という確率の信頼性は、どのように 計算できるのでしょうか? ちなみに、視聴率の計算では、標本誤差が    ±2√(世帯視聴率*(100-世帯視聴率)/標本数) となると書かれていましたが、この式は今回のような 場合にも当てはめる事ができるのでしょうか? また、できるのなら、この式についての詳しい解説を よろしくお願いします。

  • 統計学 市場の必要サンプル数の算出方法教えて下さい

    10万6,015人の母集団から987人の有効アンケートをもらいました。 この987人のうち25%は、商品を使ってみたいという結果になりました。 987人のサンプル数は、必要サンプル数を満たしているかを 統計学をもとに調べています。 仕事で、信頼度95%?!として、調べることになっているのですが、 WEBで調べても、文型の私には理解が難しくて、 どなたか教えていただけませんでしょうか。 本当に困っています。 すみませんが、どうぞ宜しくお願いします。

  • アンケートのサンプルサイズについて

    統計素人です。ご教授いただければ幸いです。 商品の満足度について調査するためにアンケートを行う予定です。 回答は5段階(★5、★4、★3、★2、★1)。 商品の満足度を9段階(★5、★4.5、・・・、★1)の代表値で 表したいと思います。 回答の★印を等間隔の順序尺度として扱い、アンケート全体の中央値を 商品の代表値としようと思います。 この時、商品の満足度を精度x%以内で推定するためには 何件以上のアンケート結果が必要でしょうか?信頼度は95%とします。 この場合(順序尺度)の精度x%というのはどういった考え方をすればよいのでしょうか? (もし、間違ったことを言っていたらつっこんでください。)

  • アンケート調査でのサンプル均等割付

    アンケート調査でのサンプル割付について質問です。年齢で均等割付を行った場合、どのような点についてデータを解釈すれば良いのでしょうか? 例えば、↓この調査では年代が均等割付です。新製品の認知率26%と見出しに謳っていますが、母集団を反映しているわけではありません。この場合、単に調査対象300人の意見に過ぎず、“それで?”という、私個人としては、経験の少なさから、あまり発展性のない見方しかできません。 http://c-news.jp/c-web/ShowArticle.do?did=01&aid=00011693 サンプルの代表性についての話はよく聞きますが、このように均等割付のアンケートも実際にとり行われているところを見ると、何かしらの意味があるようにも感じます。どのように意味合いを見つけ出せばよいのでしょうか? アドバイス、ご意見のほど、よろしくお願いします。

  • 正規分布による分析

    すみません、質問が複数あるので長文になります。 また当方、統計学については素人のため初歩的すぎる質問であったら失礼します。 前提:卒研でアンケート調査を行い結果を統計で分析することになりました。アンケート内容は「ある事項につき賛成~反対までを無段階で聞く」とうもので、その結果を正規分布にかけて5段階にわけ、各段階の割合を求める。というものです。 1:アンケート調査を行い結果を分析するにあたりそのアンケート結果が正規分布なのか検定する手段として、尖度、歪度は学んだのですが、この二つの検定方法はそれ以外の検定方法(カイ二乗検定など)に比べ信頼性に足るのでしょうか? 2:アンケート結果が正規分布にのっとらない場合、片端に偏ったり、中心が最少で両端に偏ったりした場合に、正規分布による分析をした時は信頼に足る結果は出ないという事になるのでしょうか? 3:上記のようなアンケート調査の場合に、正規分布にのっとらない場合に用いられる分布などがあれば教えていただきたいです。 以上、長文失礼しました。m(_ _)m

  • サンプル数の妥当性を統計で求めるには?

    初めまして。統計や確率には全くの素人ですので、間違った内容の質問になっているかも知れませんがよろしくお願いします。 ある製品の故障率を求めよという指示がありました。 ただしその製品はある試験で1000時間まで試験を行なった実績はあるのですが、1000時間で故障はありませんでした。 試験サンプル数は3台です。 これに対して、4台で試験したと仮定し、4台目が1001時間で故障したと仮定してワイブル分析を行いなさいという指示です。(通常この製品の試験はサンプル数3台で試験しているのですが、サンプル数3台による試験結果の妥当性を、過去の試験実績データ---と言っても故障実績の無い試験実績データですが---から立証せよというものです。) 質問1:以上につき、できるだけ具体的に分かりやすくご教授いただけますでしょうか? そもそもここまでの過程でつまずいていますが、これを求めるにあたっては故障率を想定する必要があるということも聞きました。 しかし対象の製品は部品ではなく、色々な電子部品が数百点以上実装されたいわゆる箱物です。 実際は一つ一つの部品の故障率を求め、総合して「箱物」としての故障率を求める必要があるのでしょうが、今回故障率に関してはそこまでしなくとも良いと。。。 質問2:家電製品なのですが、そのものずばりでなくとも結構ですので、一般的なテレビの故障率は○○、エアコンの故障率は○○という参考文献などありますでしょうか?又は、家電製品全般という括りでも結構です。 以上、非常に初歩的な質問ですし間違った認識で書いている部分も多々あるかとは思いますが、よろしくお願いいたします。

  • サンプル数が大きく異なる分散分析について

     大学の統計の講義で勉強しています。分散分析で少し疑問があったので質問させてください。  練習用のデータでは、幸福度に関する調査で、量的変数として1~10の段階評価の幸福度があり、質的変数は幾つかあったのですが、自分はその中から、年齢(20代/50代)と喫煙の有無の2種類を選びました。  このデータから2要因の被験者間分散分析を行い、喫煙の有無(有/無)と被験者の年齢段階(20代/50代)と、その組み合わせの効果によって幸福度の平均値に差がでるかということを調査してみようと考えました。  しかし調べてみると、20代の喫煙有り/無しが(12/95)。50代では (15/90)とサンプル数が大きく異なっています。  このようなケースで分散分析を行った結果は、信頼できるものといえるのでしょうか?また、言えない場合はどのように調整すればいいのでしょうか。データ数を揃えるために、多い方のデータから無作為抽出を行って必要な分だけデータを取り出してしまったりしていいんでしょうか?  よろしくお願いします。

  • アンケートの集計分析の基礎(無回答の扱い、標本数など)

    統計はズブの素人です。施設利用者の満足度アンケート調査をしました。集計分析について下記2点後教授お願い申し上げます。 【1】空欄・無回答の扱い?    例えば、「あなたは○○に満足しましたか?」という設問の解答は<5:とても満足>~<1:とても不満>までの5段階での回答となっております。    このとき、集計及びグラフ作成において、度数による棒グラフ(1は10件、2は30件、、、、)と、%による円グラフの表現がわかりやすいと考えております。    その場合に、無回答の項目も入れるのでしょうか?     それてもアンケートにおいて、無回答の取り扱いは、設問の種類(単一回答か、複数科回答か、自由記載か)や内容(「利用が初めてか?」など無回答が理論的にあり得ない場合と、満足度の5段階評価のケースのように無回答が「5段階の評価では回答できない(-1だ!)」というようなことが推測できる場合、などにより対応を考えるべきなのでしょうか?  【2】標本数について   施設は医療施設です。母集団は1年間の利用者数を考えるべきでしょうか? それとも一ヶ月あたりの利用者数(ほとんどの利用者が1ヶ月に一度は施設を利用すると推測できる)を想定するべきでしょうか?  その母集団の数値(はじき出すことが可能です)を基に、信頼度とか誤差とかといった数値も出すものでしょうか? これら含めて、アンケート報告書に記載すべき基礎的なことと及び常識・慣例的なことを教えて下しさい。アンケートの結果報告書は、主に施設の管理者に対するレベル(公表が必要と判断されれば、利用者にも公開する)とお考え下さい。  どうかよろしくお願い申し上げます。   

  • 統計: クロンバックのα これは?

    アンケートなどの質問紙を作成する場合、5段階尺度とかで自分でオリジナルで質問項目を作成した場合、その妥当性・信頼性を検討しなければならないのですか??? そしてそれは、クロンバックのα という係数で判断するものなのですか? もしそうなら、係数がどれくらいの値があれば妥当だと判断していいのでしょうか? あと、プレテストで一度試してクロンバックαが高かったからその質問を本番でするものなのでしょうか?

  • 満足度調査についての疑問

    統計に関する質問です。 私自身はまったくの素人で恐縮ですが、よろしくご教授下さい。 ある製品の満足度アンケートがあるとします。アンケートに参加するしないは任意です。 製品Aは1000人が購入し、うち100人がアンケートに回答、”満足”と回答した人は60人、 製品Bは2000人が購入し、うち500人がアンケートに回答、”満足”と回答したのは150人、 と結果が出たとします。 Aは好意的な印象を持つひとばかりがアンケートに回答したかもしれませんし、 Bは満足度の低い人が多く回答したかも知れません。 また、Bの方が回答者数が多い分、実際を反映しているような気もします。 この結果を”BよりAのほうが満足したひとの割合が高い”と言いきるのは妥当でしょうか。 あるいは統計学的手法で、この結果を是正する計算手法はあるのでしょうか。 宜しくお願いいたします。