• ベストアンサー

統計学 再質問。

a-kumaの回答

  • ベストアンサー
  • a-kuma
  • ベストアンサー率50% (1122/2211)
回答No.1

どれだけ「実数に近くなる」かは、あなたの判断次第です。 この回答では、例を挙げて説明します。 このようなアンケートは、それぞれの項目について Yes/No がある として、サンプル数nでの Yes の比率が、どれだけ確からしいか を考えることになります。 統計学では、「母比率の信頼区間を推定する」と言います。 標本比率 p' の確率分布は、標本数 n が十分大きければ、正規分布 N(p, p(1-p)/n) に従う、という性質を利用します。 ざっくり式を書くと、 | (p'-p) / √p(1-p)/n | ≦ u(α) です。u(α) は、信頼係数γにたいして、α=1-γとしたときの 正規分布の確率です。 p(1-p) を p'(1-p')とおいて、整理すると p'-u(α)√p'(1-p')/n ≦ p ≦ p'+u(α)√p'(1-p')/n 今、目的とするのは、十分なアンケート数を知りたいということ ですから、信頼区間が一番大きくなる(つまり、誤差が大きくなる) 比率 50% が与えられたときのことを考えましょう。 また、信頼係数を95%としましょう。 「実数に近い」というのを、信頼区間が ±0.01 の間に収まる と定義します。 信頼区間の幅は、2×u(α)√p'(1-p')/nですから、これが ±0.01になるような n を算出します。 u(α)√p'(1-p')/n < 0.01 u(0.05) = 1.96 … 正規分布表から求めます n > (1.96 × √0.5 (1 - 0.5) ÷ 0.01 ) ^ 2    = 9604 なので、10000 もサンプルを取れば、大丈夫です。 ただし、アンケートですから、25も項目があれば無記入も あるだろうし、十分な数というふうに考えれば、さらに 多く取ります。 多いと思うでしょう? でも、統計学上は、母集団の大きさにかかわらず、 標本比率がある分布になると定めています。 また、アンケートの項目数は、この際(無記入を考慮しな ければ)関係ありません。設問がひとつだろうが、100個だ ろうが、それぞれの項目の Yes/No の比率が、母集団を 良く表しているかどうか、の問題なので。 # 久しぶりに統計学の教科書を引っ張り出しました (^^; # 多分、あっているはず

sitada
質問者

お礼

有難うございました。

関連するQ&A

  • 統計学

    ある一定のアンケートを取る場合、統計学上何パーセントのサンプルを集めると、良いのでしょうかおねがいします。

  • 統計学における無作為抽出に関する質問です.

    統計学における無作為抽出に関する質問です. 有限母集団から全ての個体を抽出すること,すなわち全数調査は,無作為抽出の一種と見なして良いのでしょうか?私は,良いと考えます. 無作為抽出が満たすべき条件は,全ての個体に抽出される機会を均等に与え,母集団の性質を標本にできるだけ反映させることだと思います.全数調査は,この条件を満たしています.標本が母集団そのものになりますから,標本は「できるだけ」どころか「完全に」母集団の性質を反映しています. 例えば,「日本中から無作為に1000人を抽出した」と言った表現があります.これが無作為抽出であるならば,1億人の有限母集団から2000人を選んでも,100万人を選んでも,9999万9999人を選んでも,無作為抽出のはずです.抽出される人数がある値を超えた途端,無作為抽出でなくなるとは思えません.仮にそういう値があるなら,私にはたいへん興味深いことです.無作為抽出になるかならないかの,境の値はいくつでしょう? 9999万9999までは無作為抽出だが(実行されるか否かは別として),1億になった途端,無作為抽出でなくなるのでしょうか?この場合,9999万9999と1億の間には,質的な違いがあります.つまり,前者の場合は,ある個体が抽出される確率は,完全に1ではないのに対し,後者の場合は,全ての個体が確実に,100%の確率で抽出される,という違いです.もし全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 統計学です。お願いします。

    統計学の質問ですがお願いします。 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値と分散を求め証明過程を説明せよ。 7、X_の2シグマ区間をもとめよ わかる範囲でいいのでおねがいします。

  • 統計です・

    統計学の質問ですがお願いします。 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値と分散を求め証明過程を説明せよ。 7、X_の2シグマ区間をもとめよ

  • 統計学について教えてください

    初めまして、今私は授業で統計学を勉強しているのですが、その中でわからない問題がありましたので質問させてもらいます。 問題 ある国の数学のテスト結果から無作為に10人を抽出して、点数を記録したデータは以下である。 64 55 49 67 88 70 71 45 31 68 1)もし母集団の分散がサンプルからの推定値と等しいとわかるとすれば、全国平均点数の50%信頼区間を求めなさい 2)母集団の分散について何もわからないとすれば、全国平均点数の50%信頼区間を求めなさい の2問がわかりません。 自分なりに教科書を読んだりしているのですが、なかなか理解できなくて・・・ 申し訳ありませんが、この問題が解ける方はぜひ解答と解説をお願いします! よろしくお願いします(>_<)

  • アンケート調査の信頼度について

    こちらのカテゴリーでいいのか分かりませんが… アンケート調査をする場合、母体の数に対する抽出数によって信頼度(%)というのがあると思うのですが、それらが分かるサイトなどがあれば教えてください。 例えば、母体数1万人に対して、30%(3千人)を無作為抽出。 内70%(2100人)から回答が得られた場合、そのアンケートの結果は どれくらいの信頼度なのでしょうか? 数学・統計はまったくの不得手ですので、分かりやすいとありがたいです。

  • 統計的には(あるいは確率的には)

    現在、4000種の物質それぞれにJANコード(物質固有の13桁の番号です)を打ちこんでおります。 そこで教えていただきたいのですが、無作為にいくつの物質を抽出して正しいJANコードが打ち込まれているとことを確認した場合に、ほぼ全て4000種の物質に正しく打ち込まれていると統計的に考えられるのでしょうか。全く数学的センスが有りませんので、簡単な説明で結構ですので、ご教示よろしくお願いいたします。

  • 統計 心理学

    日本人全体の平均身長を推定しようとして、無作為に収集したサンプルサイズ10000人のデータの平均値は、168.5、分散は36であった。 母集団分布に正規分布を仮定した場合、『日本人の平均は本当は170である可能性はないのか?』という問いに対して統計学的な観点から述べなさい というのが分かりません… どうまとめたらいいですか?

  • 統計学的に信頼のあ有効率は、全体の何%あればよいか

    こんにちは。 表題の件ですが、自分が知りたいのは 例えば、100人に「ゲームのマリオが好きかどうか」のアンケートを取り その中の有る一定の割合(例えば30%とか)でサンプルデータとして無作為に抜き出して その結果を全体の結果として結論付けたい場合 一定の信用度がある状態というのは、抜き出す割合が何%程度あれば 満たせるのでしょうか。 上記の例ですと、例えばデータの信頼度を80%とするには 抜き出すデータを30%が必要、など。 もちろん、アンケートの対象者によって ゲームについての質問の場合、 ・小学生男子に聞いたケース ・お年寄りも含めて聞いたケース では、意味も信頼度も変わってくるでしょうが、 「一般的に」という意味で構いませんので、 全体の何割があると信頼がおけるのか、というのを知りたいと思います。 もしお教えいただけるのであれば できればその事例の根拠や事例など、併せて教えてもらえると助かります。 よろしくお願いいたします。