統計学における無作為抽出と全数調査の関係性について

このQ&Aのポイント
  • 統計学において、無作為抽出とは母集団から均等に個体を選ぶことを指します。
  • 全数調査は、母集団の全ての個体を抽出することであり、無作為抽出の一種と考えられます。
  • 無作為抽出は、個体の抽出確率が均等であることを意味し、全数調査はこの条件を満たしています。
回答を見る
  • ベストアンサー

統計学における無作為抽出に関する質問です.

統計学における無作為抽出に関する質問です. 有限母集団から全ての個体を抽出すること,すなわち全数調査は,無作為抽出の一種と見なして良いのでしょうか?私は,良いと考えます. 無作為抽出が満たすべき条件は,全ての個体に抽出される機会を均等に与え,母集団の性質を標本にできるだけ反映させることだと思います.全数調査は,この条件を満たしています.標本が母集団そのものになりますから,標本は「できるだけ」どころか「完全に」母集団の性質を反映しています. 例えば,「日本中から無作為に1000人を抽出した」と言った表現があります.これが無作為抽出であるならば,1億人の有限母集団から2000人を選んでも,100万人を選んでも,9999万9999人を選んでも,無作為抽出のはずです.抽出される人数がある値を超えた途端,無作為抽出でなくなるとは思えません.仮にそういう値があるなら,私にはたいへん興味深いことです.無作為抽出になるかならないかの,境の値はいくつでしょう? 9999万9999までは無作為抽出だが(実行されるか否かは別として),1億になった途端,無作為抽出でなくなるのでしょうか?この場合,9999万9999と1億の間には,質的な違いがあります.つまり,前者の場合は,ある個体が抽出される確率は,完全に1ではないのに対し,後者の場合は,全ての個体が確実に,100%の確率で抽出される,という違いです.もし全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • adinat
  • ベストアンサー率64% (269/414)
回答No.4

全数調査が無作為なのか否かという問題にマジメに取り組むと、数学の問題ではなくなってしまうので、ここでは違う角度からこの問題を考えてみることにします。 おそらくですが、質問の意図は、ランダムでないものに無作為という言葉を使ってよいのか、ということなのだと思います。この回答は私はyesだと思います。質問者様が例に挙げているように、9999万9999個の無作為抽出があったとして、1億個の無作為抽出もあって然るべきと私も思います。 で、例えばの話ですが、2本のアタリくじと8本のハズレくじ合わせて10本のくじがあり、10人の人が順にこのくじを引いていくとします。最初の9人の引いたくじのアタリくじの合計は?という問いと、最初の10人の引いたくじのアタリくじの合計は?という問いを考えてみます。最初の答えは1か2、後者の答えは2ですね。そして後者はランダム性を失い、いつでも2という答えが出ます。後者はランダムでないので、確率変数ではないとみなされるかも知れませんが、これを確率変数ではないと除外する人はないでしょう。何となれば、i番目がアタリのとき1、はずれのとき0を取る確率変数X_iを用いて、X_1+X_2+…+X_{10}とかける分けですから、たまたま定数となった分散0の確率変数とみればよいわけです。それにそもそも、X_1からX_{10}の結合分布はノンランダムではありません。標本和が一定なだけであって、つまり誰がアタリくじを引いたか、ということはランダムなはずです。 抽出の問題も同じです。サンプルが引かれる順番は、たとえば母集団1億個からの全数抽出(この言葉がゆるされるなら)には1億!(階乗)という膨大な可能性があるわけです。実現された抽出がそのうちの一通りな分けだから、これは一つのランダムなサンプリングとみなしてもよさそうでしょう(解釈の問題でもあるから、私がそう思うだけですけれどね)。得られた標本の平均とか分散とか、これらは全数調査の場合はサンプル抽出の順序にはよりません。しかし、たとえば次のような特殊な平均を考えてみたらどうでしょう?母集団サイズをNとし、1番目に得られた値をN倍、2番目をN-1倍、…、最後を1倍して、N(N-1)/2で割ります。これだってひとつの標本統計量であって、母集団平均の不偏推定量です。しかも明らかに、全数調査してもノンランダムになりませんね。いわゆる単純平均や単純標本和だけを見るならば、全数調査というのはランダムサンプリングとしての意味を失いますが、標本をどのようにみるかということまで考えれば、全数調査といえど、サンプリング(=抽出)という意味は依然として残ると考えられます。 まあこの辺り、どう理解するかは難しいところなのですけれど、確率1で起こる事象を、「確率1で起きるランダムなイベント」ということそのものは、数学的には正しいと理解する方が自然だ、ということでしょうね。日常用語と結びつけるといろいろヤヤコシイですけれども。それはランダムじゃないよ、という意見もあるでしょう。正三角形みて、二等辺三角形と言ったら、それは間違いだ!と言われるのと似ているような気もします。要は定義ありきの話で、定義をどうするか、という議論になるとそれはもはや数学の範疇ではありません。でもまあ個人的には、より普遍的に、よりシンプルに、定義はそうあるべきだと思いますけれどね。

baaakkkiii
質問者

お礼

御回答ありがとうございました. おっしゃる通り,まさに定義の問題だと思います.そして,私は,全数抽出を無作為抽出と定義することは,さほど無理があるとは思えないし,そのほうがいろんなことが簡潔になって都合が良いと思っています.三角形の事例は大変興味深く,面白いと思います.ありがとうございました.

その他の回答 (5)

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.6

宗教論争だねえ。 全数抽出が抽出であるべきか否か、 観念論には全く興味がないが… 抽出でないとしてしまうと、 多段抽出が無作為かどうかとか 議論が大変やりにくい。 定義は簡潔に!が数学の原則。 「0を足す」と言って 「足してないじゃん」と言われたら、 その相手との数学の話題は諦める。

baaakkkiii
質問者

お礼

御回答ありがとうございました. 私も,定義は簡潔であるべきだと思います.そのほうが,面倒くさくないからです.

baaakkkiii
質問者

補足

「0を足す」の事例はたいへん興味深く,面白い話題です.ありがとうございます.

  • masa2211
  • ベストアンサー率43% (178/411)
回答No.5

>全数調査は無作為抽出の一種と見なしての一種と見なして良いのでしょうか みなすと、用語の意味が混乱してしまうので、それはありえません。 理由。 調査方法は、まずは全数調査と標本調査に分類されます。 そして、標本の作り方として、無作為抽出とか系統抽出とか分類します。 全数調査を無作為抽出の一種とみなしてよいなら、全数調査を系統抽出の一種と みなしてもよいわけであり、何故全数調査と標本調査と分類したのか、わけがわからなくなります。 ですから、全数調査と標本調査は、あくまで別物。全数調査と無作為抽出を横並びで比較すること自体が反則。 >無作為抽出になるかならないかの,境の値はいくつでしょう? 無作為抽出でなく標本抽出の意味にとります。 個人の感覚ですが、全数の10~20%。 最大限に大きくみても50%。 それ以上は回収率が低い全数調査として扱う。 そうなる理由。 全数調査のほうが正確なのでそうしたいのは山々なのは自明とします。ただし、時間と費用が膨大なので、 必要精度が得られるであろうデータ数で普通はやめておきます。これが標本調査であり、 1億人の有限母集団から選ぶときに1000人ということはあっても、5000万人はあり得ません。 5000万人調査するなら、いっそのこと全数行います。高々、2倍の費用と時間しか使いません。 >1億人の有限母集団から9999万9999人を選んでも,無作為抽出のはず 理学上はそうかもしれませんが、工学上はそうではありません。 抽出というのは、全数のうち抽出する部分がわずかであるからこそ抽出する意味(工学上の意味)を持つため。 また、9999万9999人選ぼうが1億人選ぼうが、回収率100%でない場合、その2つの違いなどありません。 ※抽出は、あくまで抽出であり、アンケートを配った人数のこと。  返答の量は、回答率であらわされ、抽出率では表現されません。 ※※国勢調査のように国家がやるものはとにかく、民間がやったとしたら、回収率は、   よほど条件がよくても70% 下手すれば10%以下。   しかも、回答しないのはランダムという保障なし。ある一定の傾向があることを否定できない。 ※※※国勢調査の場合でも、回収率100%のはずないし、配り忘れ(=抽出漏れ)ゼロということはないでしょう。   (調査期間中の引越しや海外赴任を全部追跡し、かつ期間内回収できるとは思えない。市民税を2重払いした経験ありますもん。) このあたり、統計学は理学でなないです。工学です。だからこそ、 >1億人で、一人でも欠けたら、それは抽出 という意見には、ものすごく抵抗があります。 kgu-2さんNo.3 >「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定 そうじゃないでしょう。「抽出する理由」というのは、全数検査ではダメな理由でないとなりません。 母集団の推定は、全数検査でも標本推定でも可能なので、抽出が必須の理由になっていません。 よって、抽出が必須の理由とは、 理由の1 商品を全部検査したら1個も売ることができなくなるので、全数検査はありえない。 理由の2 検査数が多いと金と時間がかかるので、必要精度が得られるならそれ以上手間をかけたくない。 自明すぎて説明不要だから省いているだけと思うけど。

baaakkkiii
質問者

お礼

御回答ありがとうございました. 理屈と現実,どちらの立場に立つかで主張は異なりますよね.そこを明確にしておかないと,混乱を招くことが分かりました.ご丁寧な解説をありがとうございました.

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

 統計には、記述統計学と推計統計学があります。 記述統計学では、全数を用いますので、平均にせよ、分散にせよ、誰が計算しても同じ数値になります。100人と50人の2つの集団に差があるか、なら、全員を調査して、平均値に0.1でも差があれば「差はあり」です。『たった0.1くらいの差は』と考えるのは、現実的・社会的な価値観であって、統計学の守備範囲外です。  しかし、全数を用いられない場合、日本人全員とかは数が多すぎるので、この場合は、抽出して計算することになります。それは、あくまでも、母集団の数値を推定するのです。  全数利用できるのなら、抽出する必要はありません。計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。  現実には、1億人全員の調査は不可能です。1億人で、一人でも欠けたら、それは抽出です。その一人によって、母集団の推定が違ってくる可能性(あくまでも)を否定できないからです。全数抽出が「抽出」に当たるのかどうかの判断は、私にはどうでもいいのですが、数学的には、全数を抽出した、と表現した方が一貫性があると思います。  統計学の教科書では、「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定、です。全数調査が勝るのは自明であって、抽出は代替に過ぎません。 >全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか? 全数なら、無作為も何も、誰がやっても同じになるので、無作為抽出にならないハズはないので、あり得ない話です。想像できないので、どのような事態を想定されているのか教えてください。  調査は、全数なら誰がやっても同じ結果になるが、全数でないなら、抽出のやり方によって結果が違ってくる、だから苦労しているのでしょう。

baaakkkiii
質問者

お礼

御回答ありがとうございました. >数学的には、全数を抽出した、と表現した方が一貫性があると思います。 おっしゃる通りだと思います.アドバイスをありがとうございます. >計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。 これも時々聞かれることがあります.「集団Aと集団Bを,それぞれ全数抽出しました.たったxxだけど,値はAのほうが大きかったです.これは,差があるといって良いのですか?」.これに対する答えは,御教授いただいた通りだと思います.たいへん分かりやすいです.ありがとうございました.

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.2

言葉の意味としては、全数抽出も 無作為抽出の内でしょう。 そのほうが、定義の記述も、 証明上の運用も、遥かに簡潔になります。 しかし、そもそも何のために「抽出」を しようと思ったのか、その目的を 思い出してみましょう。 全数抽出は、無作為抽出でないのではなく、 無作為抽出の内ではあるが 統計処理上の有用性が低い のだと言えるでしょう。 境界がハッキリしないのは、この「低い」が 定義困難な主観的評価だからです。

baaakkkiii
質問者

お礼

御回答ありがとうございました. 御指摘いただいた通り,定義の問題だと思います.そして,おっしゃる通り,定義は簡潔なほうが,便利だと思います. 実際上は,巨大な母集団に対し,全数抽出を行おうという気は,もちろん毛頭ありません.

  • ShowMeHow
  • ベストアンサー率28% (1424/5027)
回答No.1

詳しく知らない私が言うのもなんですが、 統計をすべて理論的に構成しなくてはいけないとなると、言葉「抽出」の定義をどうするかによって変わってくるでしょう。「1以上全数以下」としているか「全数未満」としているかによって変わってくるでしょう。(どうなっているかは知らない) 統計を現実的手法として考える場合は、まったく意味はないので、決めてあるかどうかも知らない。(決めることに価値を見出せない。) でも境が有るとすれば、全数かそうでないかというところしか考えられないと思います。 (>と=には数学上はっきりとした違いがあります。)

baaakkkiii
質問者

お礼

おっしゃる通り,定義の問題だと思います.私は,全数抽出を無作為抽出とするほうが,簡潔で便利だと思います. 御回答ありがとうございました.

関連するQ&A

  • 統計学の問題です

    母集団1(平均50、分散4000)から50標本、母集団2(平均40、分散2000)から100標本を無作為に抽出して得られる2つの標本平均値(母集団1-母集団2)の差が負の値をとる確率はどの程度か? と いう問題を教えてください よろしくお願いします!

  • 統計学(無作為標本)

    平均80、標準偏差10の母集団から大きさ64の無作為標本をとるとき、標本平均が82を超える確率を求めよ。 久しぶりに行き詰ってしましました。誰か教えてください。

  • 統計学の標本についてです

    下記の問いが分からずに困っています。 手計算でも良いですが、可能ならばExcelでの求め方も教えて頂けると幸いです。 1.平均100、分散1000の正規分布に従う母集団から10個の無作為標本を抽出する。 (1)標本平均の分布は? (2)標本平均値が110を越える確立はいくつか? 2.母比率が0.3である場合、その母集団からの100個の無作為標本に基づく標本比率が0.4を上回る確立はどの程度か? (1)標本比率の分布は? (2)その分布で0.4以上の値を得る確立は? よろしくお願いいたしします。

  • 統計学

    統計学についての質問です。 平均u(ミュウ)、分散σ^2(シグマの2乗)の正規母集団から大きさ4の無作為標本の平均(標本平均)をX(Xバーのこと)とするとき、  確率P(|X(Xバー)-u|<σ)の値を求めよ。 まったく分からないので誰か助けてください・・・。

  • 層化比例無作為抽出時の検定などの方法

    とある書籍にて以下のことを学習しました。 ・層化比例無作為抽出法を用いて標本抽出をおこなった場合、標準誤差の算出には標本全体の分散ではなく、各層内分散の加重平均値を用いる。 ・よって、単純無作為抽出時に比較して標本誤差を低く抑えることができる(ことが多い)。 ここで質問なのですが・・・、 ・層化比例無作為抽出をおこなう場合、すべてのな区間推定や検定,果ては分析仮定で標準誤差を用いるすべての多変量解析において、一般的な統計ソフトを用いることは『正しくない』のでしょうか(大抵の統計ソフトは単純無作為抽出を仮定していると考えています)? ・『正しくない』とすれば、皆さんはどのように対処されてらっさるのでしょうか?ご自身でスクリプトを書いたりされているのでしょうか?それとも、「分析結果にさほど影響を与えるものでもないから統計ソフトで済ましている」といった感じなのでしょうか? 以上、どなたかおわかりの方がいらっしゃいましたら、ご教授いただけませんでしょうか? 宜しくお願いいたします。

  • 統計学です。お願いします。

    統計学の質問ですがお願いします。 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値と分散を求め証明過程を説明せよ。 7、X_の2シグマ区間をもとめよ わかる範囲でいいのでおねがいします。

  • 統計です・

    統計学の質問ですがお願いします。 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値と分散を求め証明過程を説明せよ。 7、X_の2シグマ区間をもとめよ

  • 統計学のついて2つ質問が…

    自分で解けずに困っています。教えていただけないでしょうか? 1.標準偏差σ=40の無限母集団から大きさ400の標本を無作為抽出し、その標本平均を求めたら、x=54.1であった。これにより H0:μ=60 (帰無仮説)、H1:μ<60 (対立仮説)を有意水準を5%として検定しなさい。 2.下記のデータについて、x上のyの単純正規線形回帰模型を仮定し、   (1)β、α、rの2乗、σ、σβの値を計算せよ。   (2)βのt値を求め、βが統計的に有意な値かどうかを判定せよ。 2はExcelの「回帰分析」を使っても解けるらしいのですが今までExcelがないので分かりません。一応、インストールはされてます。 文章が分かりにくいかもしれないですが教えていただけないでしょうか?よろしくお願いします。 くだらない質問で申し訳ありません…

  • 社会統計について質問です。

    友人に社会統計学について、質問を受けました。 私は心理学科なので、心理統計しか分からず、困っています。 どなたか助けてください。 以下のような問題です。 体重に関して正規分布N(μ,σ二乗)に従う母集団から、無作為抽出によって以下の16の標本を得た。 62,50,60,48,62,59,36,64,64,62,87,63,75,27,65,76 (1)標本平均、不偏標本分散、不偏標本標準偏差を求めよ。 (2)母平均の最尤推定値(最尤推定量の実現値)を求めよ。 (3)母分散は既知とする。このとき標本平均の標本分布はどのような分布に従うか。「確立変数~確率分布」という形式で答えよ。 (4)母分散は未知であるとする。このとき、母平均の95%信頼区間を求めよ。 (5)母平均は未知であるとする。帰無仮説をHo:μ=52としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1% 水準右片側検定をそれぞれ実施せよ。 (7)さらに、体重に関して正規分布する別の母集団から、無作為抽出して以下の16の標本を得た。2つの母集団の母分散は未知であるが、母分散は同じであると仮定して良い。「2つの母平均は等しい」を帰無仮説として、母平均の差に関する5%水準両側検定を実施せよ。(ヒント:t0.025(30)=2.042) 65,60,57,76,79,72,57,75,54,75,42,77,38,48,71,78 よろしくお願いします。

  • 統計学 E(xバー―5)^2=1/4

    E(xバー―5)^2  が 1/4 になると書いてあったのですが何故こうなるのですか? μ=5、 σ^2=4、 の正規母集団より大きさn=16の無作為標本を抽出とありました。