• ベストアンサー

データ集団から抽出した値の総和が条件にあてはまるか

こんにちは 数学超初心者です。 ある数値のデータ集団Aがあり その集団Aから任意の数(N個)抽出した際に、 その総和が数値Bを超える確率を表す場合、どのような計算をすれば良いのでしょうか? 教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

[1] まず、お求めの確率を正確に計算する方法を説明します。 [1-1]データ集団AがM個のデータで出来ているとします。その中からN個を選ぶ全ての組み合わせを調べます。  「M個の中からN個を選ぶ」というのは、まずAのデータを(どんな順番でもいいけれど)決まった列に並べておきます。そして、この列の中から一つ選びます。次に列中でそれより後にあるものを一つ選ぶ、さらにそれより後にあるものを一つ選ぶ、…、という風にしてN個を選ぶんです。組み合わせの数は C = M×(M-1)×…×(M-N+1) / ( N×(N-1)×…×1 ) 通り。  たとえば(5, 1, 2, 1, 3)という列からN=2個を選ぶと、M=5, N=2だからC=(5×4)/(2×1)=10通りあって、 (5,1), (5,2), (5,1), (5,3), (1,2), (1,1), (1,3), (2,1), (2,3), (1,3) です。 [1-2] 次に、それぞれについて総和を計算し、そのコタエを小さい順に並べた表を作ります。Aの中に同じ数値を持つデータが複数ある場合には、幾つかの場合においてコタエが同じになることもありますが、それらも重複して並べます。なので、C個のコタエが並んだ表になります。  上記の例なら総和のコタエはそれぞれ 6, 7, 6, 8, 3, 2, 4, 3, 5, 4 なので、コタエを小さい順に並べると 2, 3, 3, 4, 4, 5, 6, 6, 7, 8 という表ができます。 [1-3] 数値Bを決めたとき、表を順に見て、数値Bより大きくなるのは表の何番目のコタエであるかを調べます。それがm番目であるとしましょう。すると、(C-m+1)/Cが求める確率です。上記の例で、たとえばB=5であれば、m=7。なので求める確率は (10-7+1)/10 = 4/10。  以上が、正確な確率を計算する方法です。 [2]  たとえばAに100個のデータがあってN=3であれば、 C=100×99×98/(3×2×1) = 161700通り。これでも既になかなか大変ですが、Nがもうちょっと大きくなると、Cはとんでもなく大きくなり、コンピュータでも手に負えなくなります。そういう場合、正確な確率の計算は諦めて、近似値で我慢するのが現実的です。  そのやり方はというと、まず(上記[1-1]と同じく)あらかめデータを決まった列に並べておく。そして、この列の中から([1-1]のようにN個を選ぶ全ての組み合わせを作る代わりに)乱数を使ってランダムにN個を選ぶ、ということをうんと沢山繰り返すんです。(「うんと沢山」とは言っても、Cに比べればずっと少なくて済ませる訳です。)[1-2]以降は上記と全く同じです。  ここで、「ランダムにN個を選ぶ」というのは、列の中からランダムに1個選ぶということをN回繰り返すだけ。既に選んだやつより列の後ろにあるのを選ぶ、ということをやる必要はありません。ただし、同じもの(データが同じ数値であるかどうかは関係なくて、列の何番目かという事が同じであるもの)をN個中に2度以上選んでしまった場合は「取り出し失敗」として、捨てます。こうして、N個のデータを選び出す。これが「ランダムにN個を選ぶ」ってことです。 [3] 一方、もしAのデータが何か単純な規則に従っているなら、お求めの確率の近似値を比較的簡単に計算できる場合があります。そのやりかたは、Aが従っている規則に応じてそれぞれ工夫しなくてはなりません。

okwave67232
質問者

お礼

回答ありがとうございます。 何度も読み直してよく理解したいと思います。

関連するQ&A

  • エクセルで条件付き書式での複数データを色づけ抽出をしたいのですが、上手

    エクセルで条件付き書式での複数データを色づけ抽出をしたいのですが、上手くいきません。 社員の勤続年数を纏めた表があり、そのリストの数値化した勤続年数の中から「0.5」「1.5」「2.5」「3.5」~「10.5」の数字を色づけ抽出したいのです。(有給計算に使用) 色づけは、文字でも網掛けでも構いません。 A列に氏名、B列に数値化した勤続数が入っているような形です。 *数値は関数で入ってます。 宜しくお願いします。

  • 条件に一致したデータの検索・抽出について

    エクセルで2つのデータから条件に一致したデータを検索・抽出がしたいのですが、うまく抽出することができないため、質問させていただきます データA |入荷日|商品番号|商品名|数量|金額| |1.1|1111|〇〇〇|10|10| |1.2|2222|◎◎◎|15|15| |1.3|3333|△△△|20|20| |1.4|4444|◆◆◆|10|10| データB |販売日|商品番号|商品名|販売数| |3.1|1111|〇〇〇|   | |3.2|    |AAA|100| |3.3|    |BBB|120| |3.1|2222|◎◎◎|   | |3.3|    |CCC|100| |3.1|3333|△△△|   | |3.1|4444|◆◆◆|   | データBから商品番号の一致したデータの一部を抽出してデータAに追加したいです (一部が難しいようなら1行そのまま抽出でも大丈夫です) 理想は |入荷日|商品番号|商品名|数量|金額|販売数| |1.1|1111|〇〇〇|10|10|   | |   |    |AAA|  |  |100| |   |    |BBB|  |  |120| |1.2|2222|◎◎◎|15|15|   | |   |    |CCC|  |  |100| |1.3|3333|△△△|20|20|   | |1.4|4444|◆◆◆|10|10|   | もしくは、関数を利用して以下の形にできれば、と思います |入荷日|商品番号|商品名|数量|金額|商品名|販売数|商品名|販売数| |1.1|1111|〇〇〇|10|10|AAA|100|BBB|120| |1.2|2222|◎◎◎|15|15|CCC|100|   |   | |1.3|3333|△△△|20|20|   |   |   |   | |1.4|4444|◆◆◆|10|10|   |   |   |   | データAをベースに、データBから重複データのうちすでにデータAにあるものを省き(1件目は重複データなので2件目以降)抽出する 1.データB商品番号重複しています。重複データの1件目はデータAと共通で、2件目以降を抽出したいです 2.データB商品番号の重複はそれぞれ違うため、1件も重複してないものもあれば3件ほど重複しているものもあります 3.データAは入荷日の範囲を指定したデータですが、データBは入荷日項目がないため抽出する必要のない内容・件数のデータもはいっています。その為、データAから抽出するのではなく、データAをベースにデータBから抽出がしたいです。 よろしくお願いします。

  • VBA テキストボックス 総和

    VBA初心者で色々試行錯誤しながらつくっているのですが フォームにテキストボックス二つを設けてそれぞれに aとbの数値を入力し、aからbまでの総和をcとして メッセージボックスで aからbまでの和はcです。 と表示させたいのですが、計算式の立て方が分かりません。 不足情報がありましたらご指摘下さい。 ご教授の程宜しくお願いします。

  • 母集団の標準偏差

    統計の初心者ですが困っているので教えてください。 母集団(N=30)で各グループ(N=10)の標準偏差がわかっている場合、母集団の標準偏差は計算ででるのでしょうか? 例 グループA(N=10) σ=2 平均値=10 グループB(N=10) σ=3 平均値=9 グループC(N=10) σ=2 平均値=11 この場合母集団(N=30)のσは?

  • 2つの条件をデータテーブルに照らし合わせデータを抽出する

    2つの条件をデータテーブルに照らし合わせデータを抽出する 品番  顧客ID  価格 35894  312    A 35894  635    B 35895  215    C 別のシートに下記の価格表があります。 品番   312    215     635 35894  12,000  13,000   14,000 35895  5,000   6,000     7,000 価格欄のA, B, Cに入力すべき数式はどうなるでしょうか。 A=12,000 B=14,000 C=6,000 と表示されるのが求めている結果です。 どなたか教えて下さい。 IFとINDEXとMATCHを使って6つの顧客IDまでなら実現できましたが 顧客数は約50ありますので行き詰まりました。

  • いくつのデータをサンプリングすればいいか?

    数学の初心者です。 あるサンプルデータの配列Aがあり そのA配列の平均値をA'とします Aのデータはいくつでもサンプリング可能なデータです。 このとき、A'を指定の範囲に収めたいという要望が会社の上司からあり、 A'がその指定の範囲に収まる確率をBとして いくつのデータをサンプリングすればいいか、確率Bとともに提示せよと、上司から言われました。 どう計算すればよいのでしょうか? 提供できる情報に足りない要素があれば仰って下さい。

  • 検定をするときの集団条件について教えてください

    研究のための統計作業でつまづいています。 職場で専門職のA集団のストレス状況を知るために、事務職であるB集団と比較をしなければなりません。 検定の集団の基本条件として「国籍」「性別」を同じ集団としてまとめてはいけないと言われました。A・Bそれぞれの集団から「外国籍」数を集団から外すことはできますが、性別はA集団は男>女、B集団は男女比がほぼ半々という状況です。 その場合、各集団から女性を外して(外国籍の数も外して)、ひとつの集団として検定をしていけばいいものなのでしょうか? あまりに基本的な質問で申し訳ありません。 テキスト等に載っていなかったので、どなたか教えていただけたら嬉しいです。

  • エクセル2010のデータ抽出についての質問

    列A、B、Cがあり、それぞれに数値データが入っています。 条件B<AかつC<Aの数値をフィルターの詳細設定で抽出するにはどうすれば良いのでしょうか? 初歩的な質問で申し訳ありません。

  • ACCESSのフィールドのデータを無重複に抽出する

    お世話になります。 ACCESS2000を使用しています初心者です。 あるフィールドに入力されているデータを無重複に抽出したいのですが、簡単で良い方法を教えて下さい。 エクセルでの無重複抽出はできるのですが、データ数が34万件くらいあり、推測される結果は2万件くらいになります。 例) 商品 A B C A B D C 結果 A B C D よろしくお願いします。

  • 抽出したデータの重量を足したい

    VBA初心者です。 2つのデータ表から品番データを抽出し、データの重量も足したいです。 データ表(A)  品番 B1 10 B2 20 B3 30  データ表(B)  品番          重量 B8 10       C8 1000  B9 12       C9 2300 B10 10      C10 2000 (B)から品番10を抽出し、データにすることはできましたが、同時に品番10の重量も足したいのです。 よろしくおねがいします!