• 締切済み

統計に関する質問:サンプル調査の有効性の確認

以下のような内容の質問をうけたのですが、統計そのものがよくわかりません。 どなたか教えてください。 今、ある県の住民を属性別(性別、年齢層、学歴別)にサンプル抽出し、職業(10分類)や購入した製品の種類(6分類)や満足度(5段階)を調査したデータがあります。 1000人を抽出し、そのうち半数から回答がありました。 以下のようなデータがあるとき、2番目の男性群の人数(補正後)はどの程度正しいか(信頼性があるか)というものです。それぞれのセルで回答者数が少ないので、最低どの程度の回答者数が必要なのでしょうか。 お願いします。 性別  年齢層 学歴 職業  製品  満足度  人数(補正後) 回答数 ------------------------------------------------------------------- 女   21-40 高卒 会社員 製品A 非常に満足    5.32   5 男   41-60 大卒 会社員 製品C やや不満     10.10   8 : : : : : : : : : :

みんなの回答

回答No.3

さきほどの説明で一部訂正です。 標本1000人(n = 1000)中10人がA購入だとすると,その標本確率は0.1。 と書きましたが,確率は,0.01です。 式自体は同じです。

回答No.2

絶対数というのは,母集団における数という意味ですか? 最初の回答でも述べたように,直接的に問題となるのは,そのAが占める比率なのです。 もちろん,比率が推定できれば,数も推定できるわけですが。。。。 お礼に述べられた疑問と質問内での疑問は,内容がやや異なるようです。 お礼の中の,「A」を購入したかどうかという問題は,二者択一の二項分布の問題です。 したがって標本が大きければ,正規分布で近似でき,それによって信頼区間も推定できます。 標本1000人(n = 1000)中10人がA購入だとすると,その標本確率は0.1。 この値を母集団中の推定比率として利用します。 サンプルn 人中,Aを購入した(確率p)か,しなかった(確率1-p)かは,平均p分散SQRT[p(1-p)/n]の二項分布に従います(SQRTは平方根)。 それを正規近似して,例えば,95%信頼区間なら,標準正規分布の両側5%点 z(0.05) = 1.96を用いて区間推定します。 すると, 1.96 * SQRT[p(1-p)/n] = 1.96 * SQRT[0.1 * 0.9/ 1000]     = 0.019.... したがって,信頼区間は,0.1±0.019 となります。 上式から分かるとおり,母集団が大きくなると,質問者のいう「実数」は関係しなくなるのです。 母集団が1万人でも100万人でも,直接的な問題は標本サイズnと,そこでの比率だということが分かります。 この計算は,世論調査(支持する,しない)とか視聴率調査(ある番組を見た,見ない)などで普通に用いられるものです。 厳密に言うと,標本は非復元抽出(元にもどさない抽出)ですから,母集団が小さいと,上の式は修正が必要です。例えば,下記のサイトを参考にしてください。 http://www.npo-scop.jp/web/column/img/column001.pdf ただし,注意したいのは,これは最初の質問内容に対する回答ではないという点です。 Aを購入したかどうかの信頼性は判定できますが,それは男女や年齢関係なく,すべてひっくるめた統計であり, 女   21-40 高卒 会社員 製品A 非常に満足    5.32   5 男   41-60 大卒 会社員 製品C やや不満     10.10   8 にある,5人とか8人とかの信頼性の検定はできないからです。 もちろん,このような細分された標本データも,その出現確率を計算すれば良いのですが,それは二項分布ではなく多項分布になります。 細分項目が多いほど,複雑な式(分布)になり,項目全体での出現比率の信頼性は,例えば5%水準を設定し,シミュレーションをやってみないとわかりません。 ですから,例えば生態系の調査でも,1種だけに注目し,それが集団中に何%いるかを調べるだけなら,二項分布で信頼度を検定できます。 ところが,A種10%,B種8%,C種5%,....と出てきたとき,この10,8,5....という組み合わせがどの程度信頼できるか,という問題はシミュレーションが必要なのです。 このようなわけで,冒頭,お礼に述べられた疑問と質問内での疑問は,内容がやや異なる,と述べました。

回答No.1

私は生物集団を研究していますので,似たような問題に行き当たることがあります。 もしかすると,質問事項は,ある生物集団中の各種の個体数割合を求める問題に似ているかもしれません。 顕微鏡での研究対象となる微化石の調査では,通常,200個体抽出すると,種の個体数比が安定してくると言われます。しかし,これまで実際にそれで十分かどうか検証されてきませんでした。 最近,鈴木紀毅・木田真太郎(2004)による実証的研究が発表され,600~700個体抽出すると,集団中の種の組成(どの種が何%いるか)が安定してくることが示されました。 http://www.terrapub.co.jp/onlineproceedings/nom/pdf_sp/13/nom_sp_13221.pdf 質問の場合も,この結果が適用できそうな感じです。 上記論文の内容は,専門外だと分かりにくいかもしれませんが,図1のグラフから直感的に必要標本数が分かると思います。

Mr_minoru
質問者

お礼

どうもありがとうございます。 まだよくわからないのですが、ある県で「製品A」を購入した人の絶対数をサンプル調査から推定したい場合、サンプル調査で「製品Aを購入した」と回答した人が計10人で、属性分布に従って人口(絶対数)を推定したら400人(補正済み)となる場合、この400人の推定値はどの程度正しいのか、または信頼度はどの程度なのか、判断できるのでしょうか。

関連するQ&A

  • 母集団のばらつきをサンプルから推測【統計学】

    客先に納入している、ある製品の寸法のバラつきを聞かれ、n=10個でデータ測定して提出したら、「サンプル数が少ない!もっと信頼性のあるデータをくれ!」と怒られてしまいました。 で、統計学に基づいて抽出サンプル数を決めたいのですが、いろいろなサイトやここの過去質問を見て回っても、難しくてさっぱりわかりません。 ちなみに10個計ったときのデータは以下の通りです。 図面寸法:3.5mm±0.1mm 実測寸法:3.56mm~3.58mm 上記データより、母集団も大体はこの寸法前後に収まると予測できるのですが、95%の精度で寸法のバラつきを予測する場合、サンプル数をいくつ取ったらいいのかわかりません。 だれかご教授願います! ちなみに母集団の数は数十万個です。 しかも、サンプル数を決定した根拠を説明するために、資料も用意しなければならないので、どこかいいサイトがあったら教えてください!

  • 統計について

    統計に関する質問です。 音響特徴量 (データ数:10 以下A群と呼ぶ) 脳波 (データ数:5 以下B群と呼ぶ) 感情価測定尺度(データ数:6 以下C群と呼ぶ) 一時的気分尺度(データ数:6 以下D群と呼ぶ) 質問1 A群とそれぞれの他群(B群、C群、D群)の関連性を分析し、音響特徴量が持つ感情価・心理的影響を調査したいと考えています。データ数が異なるグループ間での関連性を分析する適切な方法は何でしょうか? 質問2 B群、C群、D群と被験者の背景情報(年齢、性別など データ数:6)との関連性も分析したいのですが、分析が複雑化する可能性があることから、省略した方が良いでしょうか? 質問3 A群のデータの組み合わせが持つ相互作用についても調査したいと思います。この目的に適した分析手法を教えてください。 何卒よろしくお願いいたします。

  • 購買に関する統計分析

    統計初心者です。 商品の購買者の特徴を分析したいと思っています。 手元に、サンプルの属性(性別、年収、職業等)と、それぞれのサンプルが購入した品目(複数、かつ品名ではなく、既に類型化済み)のデータがあるとします。このデータから、次の目的で分析を行いたいと思います。 ・購入品目別に購買層を類型化し、どういった層にどういった商品が気に入られているのか、を把握する。 クラスター分析で良いのでしょうか。 宜しくお願い致します。

  • 計量経済分析の質問(説明変数の欠損によるサンプル数

    Stataを使った計量分析をしています。 ある基本となるデータシートAに、追加的に別のシート(B, C, D, ...)をjoinbyコードを使って接合しながら分析をしています。 サンプル数を仮に1,000とします。 基本となるデータシートAには、世帯ID、個人ID、性別の3種類の情報が入っているとします。 世帯ID  個人ID  性別 1     1     1      (1人目) 1     2     2     (2人目) 1     3     1      (3人目) 2     1     1     (4人目) ・ ・ 250     4     1      (1,000人目) これとデータBをjoin byコードを使って接合するとします。データBには、世帯IDと個人ID、年齢、最終学歴年数が入っているとします。世帯IDと個人IDを使ってjoinするとします。(join by hhid personid データ名) ただし、年齢には欠損値があって、仮に250人の年齢は欠損しているとします。教育は1,000人分あるとします。 世帯ID  個人ID  性別  年齢  教育 1     1     1     45     10     (1人目) 1     2     2     #     7     (2人目) 1     3     1     12     5     (3人目) 2     1     1     39     8     (4人目) ・ ・ 250     4     1     #     6     (1,000人目) つまり、世帯1個人2さんのように欠損している(#マーク)人が250人と考えます。 もしここで教育年数を、年齢と性別で説明する回帰モデルを考えたとします。 Y=a+b(年齢)+c(性別)+u そうすると、説明変数の「性別」と被説明変数の「教育」は1,000人フルにあるのに対し、説明変数の「年齢」は750人しかいないために、この回帰分析はn=750になり、250人分のデータが使えずに死んでしまい、データを非効率に使っていることになります。 もし、「年齢」が欠損が250人いたとしても、それ以外の情報はそろっているとしたら、不完全ながらもその250人を回帰分析に使い、サンプルnを1,000人のままにしたいと考えます。 このような場合、年齢についてはどのような処理をしたらいいでしょうか?

  • サンプル調査について教えてください。当方、素人ですのでよろしくお願いし

    サンプル調査について教えてください。当方、素人ですのでよろしくお願いします。 10万個ある設備の容量を一つ一つデータ管理しているのですが、その一部でデータの誤りが発見されました(2個発見された)。10万個の管理されているデータがはたして本当に信頼できるものなのか、サンプル調査して確認したいと考えています。どの程度信頼できるのかを数字で言いたいのですが、どのように考えればいいのでしょうか?ちなみに、状況は以下の通りです。 設備数は10万個 基本的にデータはあっていると考えられます(最悪でも2000個に1個程度は誤りがあるかもという程度です) 無作為に400個の設備をサンプル調査した結果は全てデータは適正でした(調査した数に意味はありません) 以上です。至急回答頂けると大変助かります。よろしくお願いいたします。

  • 統計でカットオフ値を求める際の質問です

    統計のド素人なもので教えて下さい。 歯医者に通院している患者さんの身長や体重、年齢、歯の痛さの尺度の値など(合計15項目ぐらい)のデータを使って、虫歯の予後に関わる因子のカットオフ値、感度、特異度を求めたいと思います。 症例数が22人しかいませんが、この少人数のデータでこういった解析を行う意味はあるのでしょうか? もし症例数が足りないということであれば、最低何症例あれば可能なのでしょうか? よろしくお願いします。

  • 統計の要因について質問です。

    統計の要因について質問です。 被験者に対し、ある質問(1)と(2)を自由回答で行いました。 この質問を、カテゴリ分けし、 (1)に関してはA回答、B回答 (2)に関してはa回答、b回答、c回答と分類しました。 このとき、 (1)(1)に関してどの回答が多いのかを見るために1×2(A回答、B回答)のカイ二乗検定 (2)(1)に関してA回答群、B回答群と群分けを行い、 この2つの群について(2)の回答者数を比較するために2(A回答群、B回答群)×3(a回答、b回答、c回答)のカイ二乗検定 を行おうと思っています。 この場合、(1)(2)に関し、どれが「要因」なのかが分かりません。 (1)に関しては、1×3の1の部分(全体の人数)が要因で1要因、 (2)に関しては、2×3の2の部分(群の人数)が要因で1要因なのではないかと思うのですが、 はたして回答を自分でカテゴリ分けしたものを独立変数として要因扱いしていいものなのか悩んでいます。 要因は数を変化させる原因になるものと理解していますが、 このような場合に要因として扱っていいものなのかが分かりません。 御回答、どうぞ宜しくお願いいたします。

  • こんな統計データ、どこかにないでしょうか?

    <カテ違いだったら、すみません。> 土日が休み、という人がひと頃に比べて 減ってきているような気がします。 SOHOの人が増えると、土日に関係なく 働いたり、休んだりしてることと思います。 ちゃんとした統計があるなら、見てみたいのです。 現在の日本の全労働者に対して、何曜日を休業日としているか 日曜日から土曜日までで分類された統計って どこかにないでしょうか? または、職業と人数と休日の関係について、 公が出している○○白書とかにあたるとすれば、 どんなデータをあたればよいか ヒントを下さい。 よろしくお願いします。

  • 国勢調査など、政府統計の信頼性について

    2005年の国勢調査の公表を検証したところ、下のような矛盾が出ました。 1) 国勢調査の抽出速報は、確定値や推計人口と比べて、人口が5%ほど20-34歳で少なく、65歳以上で多くなる。 具体的には2005年の国勢調査で確定値の出ている13県で 20-34歳: (確) 4,217,085人  (抽) 3,970,900人  (誤差) -5.84% 65歳以上: (確) 5,266,270人  (抽) 5,536,400人  (誤差) 5.13% 全国で抽出速報と推計人口(日本人)と比べると、20-34歳で誤差 -5.6%、65歳以上で誤差+4.8%と、抽出速報が若者が少なく高齢者が多くなります。数学板で質問したところ、このような誤差が起こる確率は数学的にはゼロだそうです。 抽出による標本誤差ではありえないそうです。http://oshiete1.goo.ne.jp/kotaeru.php3?q=2337762 抽出速報での無作為抽出のミスだとは考えられないし、2000年の国勢調査でも、抽出速報で同じような年齢による偏りがあるそうです。 2) 国勢調査の調査票未回収率に比べ、結果の不詳率が低すぎる こちらのグラフを見ていただくと、http://plaza.rakuten.co.jp/kokuseihanako/ 5歳階級別の配偶関係の不詳率が、34歳までで0.1%以下と非常に低く、35歳以上で不詳率が大きくなります。 国勢調査票の未回収が4.4%で、とくに若者の国勢調査の非協力が問題となったという報道とは矛盾しています。住基登録で確認しているにしても、不詳率は低すぎるし、35歳以上から不詳率が高くなる説明が出来ません。 統計局の国勢調査のサイトを見ても、調査結果を補正したという記述は全くありません。 調査結果に何らかの補正を加えるなら、その旨を記述しないと「捏造」になるそうです。 みなさまはどう考えられますか? 「統計値をいじって、少子高齢化で国民を脅して、消費税の値上げをスムースにしよう」など、国の行う統計が操作されている可能性があると思われますか?

  • 統計分析の満足度について

    看護研究で職員の満足度分析をしています。 満足度は、 (1)給与に関して(1)勤務時間に対して、(2)年齢に対して、(3)役割に対しての満足度、 (2)職業的地位に関して(1)経験年数に対して、(2)自分の希望に対しての満足度、 (3)医師と看護との関係に関して(1)意思伝達に対して、(2)緊急時の対応に対して、(3)カンファレンスに対して、(4)患者様への説明に対して の満足度、 (4)看護業務に関して(1)専門性に対して、(2)夜勤に対して、(3)超過勤務に対しての満足度、 などのように各大項目を更に細かく分けて、「大いに満足+3点~どちらでもない0点~大いに不満-3点」の7段階評価を、病院内の看護師すべての132人にアンケートにして答えてもらいました。 個々の小項目では、、「大いに満足6点~どちらでもない3点~大いに不満0点」で満足、どちらでもない、不満の3つに分類できると思います。 しかし、大項目である”給与に関して”、(1)勤務時間に対して、(2)年齢に対して、(3)役割に対しての満足度点数を足して、プラスになれば満足、0になればどちらでもない、マイナスになれば不満と判断して統計的に良いのかどうかが判断できずに困っています。 同じように、全部の大項目の満足度点数を足して、プラスになれば満足、0になればどちらでもない、マイナスになれば不満と判断しても統計的に良いのかどうかがわかりません。 どうしても、各大項目を総合した全体的な満足度の人数を、満足、どちらでもない、不満であらわしたいのですが、上の2点で悩んでいます。 どうか教えていただけないでしょうか?よろしくお願いします。