• ベストアンサー

無作為抽出(重複は除く)を行うには

3歳から5歳までの中で無作為に50人、6歳から8歳までの中で同じように50人、合わせて100人抽出したいのです。ただ、同じ世帯で2人以上重なってはいけません。どうすればよいでしょうか。個人に対しての番号、世帯に対しての番号はそれぞれあるものとします。

質問者が選んだベストアンサー

  • ベストアンサー
  • mt2008
  • ベストアンサー率52% (885/1701)
回答No.2

余りにも漠然としすぎているので、私がExcelでやるとしたらという前提で答えます。 3~8歳のデータを1つの表にします。 B列に世帯番号、C列に個人番号、D列に年齢 が入っていて、各1行目は列のタイトルが入っているとします。 データをばらばらに並べたいので、A1に「RAND」とタイトルを入れ、A2以下に =RAND() と入れてやり、A:D列を[データ]-「並べ替え]で、「最優先されるキー」:RANDで並べ替えます。これで並びがランダムになりました。 次に重複を除いた世帯番号を作ります。仮にH列に抽出するとします。 [データ]-[フィルタ]-[フィルタオプションの設定]で、抽出先:指定した範囲、リスト範囲:B列、検索条件範囲:B列、抽出範囲:H1、「重複するレコードは無視する」にチェック。 これで、H列に重複の無いランダムな並びの世帯番号が出来ます。 次に、世帯の重複が無い個人番号と年齢のデータを作ります。 I2に=VLOOKUP(H2,B:C,2,FALSE) と入れ、下までコピー J2に=VLOOKUP(H2,B:D,3,FALSE) と入れ、下までコピー I1,J1には「個人番号」「年齢」とタイトルをつけます。 最後にH:J列でオートフィルタを掛け、「年齢」のオプションで5以下を表示させ、上から50名分をコピーして別シートに貼り付け(3~5歳のリスト)。同様に6以上を表示させ上から50名分を別シートに貼り付け(6~8歳のリスト)ます。 こんなところでしょうか。 各世帯から一人だけを選んだことでどちらかの集団が50名を割る場合などは考慮していません。

jyouhoukan
質問者

お礼

どうもありがとうございました。いろいろと忙しく返事が遅くなりまして申し訳ありませんでした。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (2)

  • higekuman
  • ベストアンサー率19% (195/979)
回答No.3

ご自分で何かを試してみて、うまくいかなかったから質問しているんですよね? 何をどう試して、どこがどううまくいかなくて困っているのかを提示したほうが、jyouhoukan様にとっても解りやすい適切な回答を得られると思いますよ。

jyouhoukan
質問者

お礼

どうもありがとうございました。いろいろと忙しく返事が遅くなりまして申し訳ありませんでした。

全文を見る
すると、全ての回答が全文表示されます。
  • n-jun
  • ベストアンサー率33% (959/2873)
回答No.1

3歳から5歳までを50人選びます。(世帯番号も記録します) 6歳から8歳までを選ぶ際に、世帯番号が重なっていないかチェックをしていき、 重なっていたら別の人を選びます。 そして50人選んだら終りです。 情報からですとこのような回答しかできませんでした。

jyouhoukan
質問者

お礼

どうもありがとうございました。いろいろと忙しく返事が遅くなりまして申し訳ありませんでした。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 統計学における無作為抽出に関する質問です.

    統計学における無作為抽出に関する質問です. 有限母集団から全ての個体を抽出すること,すなわち全数調査は,無作為抽出の一種と見なして良いのでしょうか?私は,良いと考えます. 無作為抽出が満たすべき条件は,全ての個体に抽出される機会を均等に与え,母集団の性質を標本にできるだけ反映させることだと思います.全数調査は,この条件を満たしています.標本が母集団そのものになりますから,標本は「できるだけ」どころか「完全に」母集団の性質を反映しています. 例えば,「日本中から無作為に1000人を抽出した」と言った表現があります.これが無作為抽出であるならば,1億人の有限母集団から2000人を選んでも,100万人を選んでも,9999万9999人を選んでも,無作為抽出のはずです.抽出される人数がある値を超えた途端,無作為抽出でなくなるとは思えません.仮にそういう値があるなら,私にはたいへん興味深いことです.無作為抽出になるかならないかの,境の値はいくつでしょう? 9999万9999までは無作為抽出だが(実行されるか否かは別として),1億になった途端,無作為抽出でなくなるのでしょうか?この場合,9999万9999と1億の間には,質的な違いがあります.つまり,前者の場合は,ある個体が抽出される確率は,完全に1ではないのに対し,後者の場合は,全ての個体が確実に,100%の確率で抽出される,という違いです.もし全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?

  • access 無作為抽出をしたい

    数百件あるレコードから無作為で10数件のレコードを抽出するようなことできますか? ・重複データははきださない。 ・できればやるたびに違う結果がでる。 ・たとえば果物から10件、野菜から12件…ということができればなお嬉しいです。 できなければ果物や野菜だけはきだしてから、個別に抽出しますが…。

  • 層化無作為抽出法とは

     層化無作為抽出法とはなにか?具体的な方法について教えて下さい。

  • 【エクセル】無作為抽出

    アンケート調査のために無作為抽出をします。 A列に氏名 B列に住所 が 1万件 ほど入力されています。 そこから300件を抽出したいと思います。 それを 別ブック・別シート もしくは 同シートのC列・D列 にそれぞれ抽出した氏名や住所を表示させるにはどのように したらいいのでしょうか。 なるべくマクロ等は使用したくないのですがご教示くだされば 幸いです。どうぞよろしくお願いいたします。 *追伸  =RAND() を使用してオートフィルする方法は理解しています。  A列(氏名)だけを抽出する方法はわかるのですが、それに付随  するB列(住所)を同時に抜き出す方法がないのか困っています。  

  • 層化比例無作為抽出時の検定などの方法

    とある書籍にて以下のことを学習しました。 ・層化比例無作為抽出法を用いて標本抽出をおこなった場合、標準誤差の算出には標本全体の分散ではなく、各層内分散の加重平均値を用いる。 ・よって、単純無作為抽出時に比較して標本誤差を低く抑えることができる(ことが多い)。 ここで質問なのですが・・・、 ・層化比例無作為抽出をおこなう場合、すべてのな区間推定や検定,果ては分析仮定で標準誤差を用いるすべての多変量解析において、一般的な統計ソフトを用いることは『正しくない』のでしょうか(大抵の統計ソフトは単純無作為抽出を仮定していると考えています)? ・『正しくない』とすれば、皆さんはどのように対処されてらっさるのでしょうか?ご自身でスクリプトを書いたりされているのでしょうか?それとも、「分析結果にさほど影響を与えるものでもないから統計ソフトで済ましている」といった感じなのでしょうか? 以上、どなたかおわかりの方がいらっしゃいましたら、ご教授いただけませんでしょうか? 宜しくお願いいたします。

  • 300人の登録者から無作為に人数を抽出したい。

    500名が記載された名簿から、男25人、女25人を無作為に抽出したいんですが、なにせエクセルやマクロが初心者でして…。 どのような方法で処理させたらいいのか、詳しく教えていただきたいのですが。。。 シート1に元データがあります。 A列に個人コード、B列に氏名、C列に性別、D列に年齢の表です。 似たような質問が見つけることができなくて、質問を投稿させていただきました。 よろしくお願いします。

  • 確率 無作為抽出

    【問題】 毎年国民(1億人)から無作為に1000人選んで100万円贈呈するとして、10年連続で自分の親族(100人)の中から受賞者が出る確率 余事象で考えよう思ってるのですが、 考えがすすみません。 どのような解答になるか教えください。

  • 無作為抽出で平均年齢30歳になる確率

    無作為抽出で平均年齢30歳になる確率 先程質問を投稿したのですが、題名がおかしなものになったので再度同じものを投稿します。お許しください。 小沢さんを強制起訴する旨、検察審査会の議決が出されました。 この検察審査会の11名、平均年齢が30.9歳だそうです。若いのにびっくりしました。選出が本当に無作為に行われたのか、疑問に思います。 そこで質問は、20歳以上の日本人(実際は東京都民なのでしょうが)の年齢構成を前提に、無作為に11名を選んだ時、その平均年齢が30歳以下になる確率はどの程度あるだろうか、という事です。 日本人の年齢についての統計は以下にあります。どうかよろしくお願いします。 http://www.stat.go.jp/data/nihon/02.htm http://www.stat.go.jp/data/nihon/zuhyou/02syo/n0200400.xls

  • Access2000 重複している番号を抽出するには?

    Access2000を使用しています。 数値型のフィールドに入力された番号の中から、重複している番号だけを抽出するクエリを作りたいのですが、どのようにして作ればいいでしょうか? よろしくお願いいたします。

  • Excelで無作為復元抽出する方法

    Excelで無作為復元抽出する方法について質問です。 https://note.chiebukuro.yahoo.co.jp/detail/n115818 を参考にしました。  A県の生徒1000 人が受けたテストの結果は以下の通りだった。問題は10問あり、配点は各々10点である。    得点  度数   相対度数    得点*度数    0 点 : 15 人   15/1000    0*15 =   0      10 点 : 48 人   48/1000   10*48 =  480   μ= 51.58    20 点 : 61 人   61/1000   20*61 = 1220   σ^2 = 473    30 点 : 84 人   84/1000   30*84 = 2520   σ≒ 21.993    40 点 :157 人  157/1000   40*157 = 6280    50 点 :216 人  216/1000   50*216 = 10800    60 点 :154 人  154/1000   60*154 = 9240    70 点 :107 人  107/1000   70*107 = 7490    80 点 : 85 人   85/1000   80*85 = 6800    90 点 : 55 人   55/1000   90*55 = 4950   100 点 : 18 人   18/1000   100*18 = 1800  以上の 1000 個の得点データに対し (1)I列(I12:I1011)にデータを入力。 (2)J12に =RAND() と入力し、それを(J13:J1011) にコピー。 (3)K12に   =INDEX($I$12:$I$1011,RANK(J12,$J$12:$J$1011,0)) …… (#) と入力して、K13 以降の k 列に抽出したい数だけコピー。  (#)については次のように解釈しています。   =RANK(J12,$J$12:$J$1011,0) は J12 が J12:J1011の中で何番目に大きいかを返す。たとえば 35 番目に大きかったとすると   =INDEX($I$12:$I$1011,35,0)) によって I12:I1011の35番目のセル I(11+35) = I46 のデータを返す。  J12:J1011 には乱数が入っているので Rank が返す値が重複することはない。  で、質問はこれで本当に無作為に復元抽出することになるのでしょうかということです(笑)。というのも母集団の μ= 51.58 に対し 1000個のデータから 20 個のデータを取り出すことを20回繰り返し、その平均値をとったら53以上になることが多いです。データを入れ替えても大して変わりません。  (I12:I1011)のデータが上記の度数分布表を満たしていることは確認しています。

専門家に質問してみよう