• 締切済み

いくつのデータをサンプリングすればいいか?

数学の初心者です。 あるサンプルデータの配列Aがあり そのA配列の平均値をA'とします Aのデータはいくつでもサンプリング可能なデータです。 このとき、A'を指定の範囲に収めたいという要望が会社の上司からあり、 A'がその指定の範囲に収まる確率をBとして いくつのデータをサンプリングすればいいか、確率Bとともに提示せよと、上司から言われました。 どう計算すればよいのでしょうか? 提供できる情報に足りない要素があれば仰って下さい。

みんなの回答

回答No.2

いやいや、ブラックでなくて、まじめに考えましょう。 きっと、上司の言っていることを聞き間違えているのでしょう。 いま、工程変更があったとします。 私たちは、以前の工程と同等であることを証明したい。 サンプルの平均が従来と比較して、Δx の範囲にあればOKだと言える。 とはいえ、サンプルの平均が Δx の範囲内でも、 もしかすると本当は従来とは異なっているかもしれない。 その呪縛から逃れるには、n増しするしかありません。 どこまでn増しすれば良いか。 ここからが本題です。 従来とは異なっているかもしれないのに、Δx の範囲内だからOKだとしてしまうのを 「ぼんやり者のあやまり」「第二種の過誤」βと言います。 今のご質問は、新しい平均がその範囲に収まる確率は、となっていますが それは通常95%としています。つまり、本当はOKなのに、違うと言ってしまう過ち、 「あわて者のあやまり」「第一種の過誤」αは5%としています。これは世間常識です。 でも、本当に怖いのは、異常品なのにOKと言う、病気なのに見逃す、といったβなのです。 サンプル数を増せば増すほど、βは小さくなります。通常これを10%になるよう、 サンプル数を稼ぎます。 (1-β)を検出力と言います。 きっと、上司は、βの確率を聞いているのだと思いますよ。 なお、計算は面倒なので、統計ソフトを使って下さい。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 答(A'の範囲)が先に決まっていて、「これこれのデータを平均したら、ほら、見事この範囲に入ります!」と言うために都合の良いデータを、沢山のデータの中から取捨選択して並べろ、という話ですよね。  これは「恣意的選択」と呼ばれる捏造です。捏造だということを自覚していないから、実直な部下に丸投げしてこんなところで無邪気にリークされる。その上司さんはいずれ会社を潰すようなトラブルを起こすかもね。  どうせ捏造をやるんなら勝手に数値を作ればいいわけで、わざわざサンプリングなんて手間を掛ける必要もないわけですが、一体どこのブラック企業ですか。

関連するQ&A

  • MCMCによるサンプリング

    メトロポリス法やギブスサンプリングについて勉強しているのですが、 任意の確率分布を発生させるのにマルコフ連鎖を利用していますが、 わざわざこういう方法を取るメリットは何なのでしょうか? マルコフ連鎖を使うことのメリットでなくてもギブスサンプリングなどのメリットが知りたいです。 確率分布にしたがってサンプルさせたいなら 乱数を発生させて、とる求める各状態の確率の大きさに 0~RAND_MAXを分割して a < rand() < bのときはこの状態を取る b < rand() < cのときはこの状態を取る・・・・ というようにやればいい気がしてしまいます。 よろしくおねがいします。

  • SPSSでのサンプリング条件

    マニアックな質問ですみません。 現在 100名のデータがある中から50名のサンプリングを行いたいと思います。 条件として サンプリングする人数は50名、A,B,Cの3つの質問があり、その答えの比率から(Aに対する質問の結果 0が10人、1が40人)を指定してサンプリングを行うことはできるのでしょうか。 説明不足でしたら申し訳ありません。 どうぞよろしくお願いいたします。

  • 異なるデータ数から求めた相関値の比較

    時系列のデータA(サンプル数15000程度)とデータB(サンプル数2500程度)があります。この2種類のデータはサンプリング時間は同じですが、サンプリング周期が異なっています。それぞれのデータはXの値とYの値があります。 このとき、データAについて求めたXとYの相関値Aと、データBについて求めた相関値Bは、そのまま比較することはできますか?サンプル数の違いによって、相関値が大きくぶれてしまうことはあるのでしょうか?データAはデータBと同じ数のデータにすべく、データを間引くべきでしょうか? 教えていただけると幸いです。どうぞよろしくお願いします。

  • VBAでの100万行以上のデータの取り込み

    どなたかご教示お願いいたします。 VBAで100万行以上のCSVデータの取り込みは可能でしょうか? 初心者なのでファイルを開いてセルに入れてから範囲を指定し配列に 取り込み処理しておりましたが100万行以上だとデータがシートから出てしまいます。 なのでエクセルに展開せずに配列に取り込むなどということはできるのでしょうか? もし可能であればあつかましいのですが、A列の120万行データを配列に取り込むサンプルをご教示いただけるとありがたいのですが・・・ よろしくお願いいたします。

  • 統計学について教えて下さい

    統計データでのサンプリングについて 出現確率が異なるA,B,C,,,,,,Zから それぞれ同じ数のサンプルをとった場合、 確率にどういった矛盾が生じるでしょうか? ご存知の方いませんか?

  • 乱数での確率

    乱数に確率をつけることはできるでしょうか? たとえば配列にA、B、Cの3つの要素を収めておいて、  Aが出る確率=50%  Bが出る確率=30%  Cが出る確率=10% といったように確率を設定してランダム表示させたいのですが。 よろしくお願いします。

    • ベストアンサー
    • PHP
  • Eclipse による Java プログラミングの配列について質問です

    Eclipse による Java プログラミングの配列について質問です。 下の二つの問題に対して、それぞれのソースコードを教えてください。よろしくお願いします。 1. int型配列aの要素の中で,正の値だけを順に配列bの要素に 代入して,その結果を表示するプログラムを作成しなさい. ※配列aの要素と配列bの要素をそれぞれ表示すること. (実行例) 配列a={5 -1 3 4 -2 7} 配列b={5 3 4 7} 2. int型配列dataの要素の中で,最大値と何番目の配列の要素が 最大値か表示するプログラムを作成しなさい. ※配列dataの要素も表示すること. (実行例) 配列data={31 41 59 26 53 58 37 97 93 23 84} 最大値は97です 最大値は7番目の配列の要素です

    • ベストアンサー
    • Java
  • 統計学的に必要なサンプリング数について

    「正規分布している母集団の中から、何個のサンプルを取り出せばその母集団の振る舞いを再現できるか」 という質問をさせて頂きます。統計学の知識・知見がある方ご回答どうかお願いします。 私は化学研究に携わる学生です。 ある時間範囲における、箱の中の分子の運動をコンピュータシミュレーションで描画しました。 その結果ある瞬間に分子が箱のどこに居るかという位置情報を1000万個得ました。(パラパラマンガの要領で、この多数の構造から分子の運動が描けます) 現在分子が統計的にどの位置に存在しているのかを求めています。 (例)箱を三等分し、A,B,Cのエリアに分けた時に、それぞれ何%の時間ずつ分子が存在しているか 計算時間短縮のため、1000万個からいくつかサンプリングしようと考えています。 しかし例えば、サンプリング数が10個だけだと、再現性は非常に低いと予想できます。 では何個サンプリングすれば、1000万個位置情報を処理したものと等しい結果を得られるのでしょうか。 分母が1000万個もあるので、簡単にするために母集団が正規分布すると考えることにしました。 調べてみましたが、二項母集団に関するものしか理解できませんでした。 100%の再現性が得られることは無いだろうと思いますが、「大体正しい」(統計的に何%、というのでしょうか)結果を得るためには何個サンプリングすればいいのでしょうか? 宜しくお願い致します。

  • 配列の部分的な相関を取り出したい

    以下の配列 -----配列----------------------------------------------- ある配列の要素数が同じである二つのAという配列と、Bという配列があり、両方の配列中の(配列番号が同じ場所の)ところどころに相関が見られる部分があるが、相関が見られない場所もある。 -------------------------------------------------------- から、(相関が見られる、という条件を設定して)相関が見られる場所の範囲を取り出したいのですが、どうすればいいでしょうか?配列の連続的な組み合わせの相関係数を片っ端から調べなければならないでしょうか?教えてください。 ※相関が見られる、という条件を設定するために、(例えば相関係数のような)1~-1に規格化されているようなものが必要です。 -----例1-------------------------------------- A:123,213,355,633,42,64,57,23,855 B:444,426,710,1266,84,22,53,23,633 ↓ 結論:2個目~5個目の配列要素に相関がある!?らしいのでそこを取り出す -----例2------------------------------------- A:2,1,-1,1,-1,1,-1,1,2 B:3,-1,1,-1,1,-1,6,56,23 ↓ 結論:2個目~6個目の配列要素に相関がある!?らしいのでそこを取り出す

  • Frequency関数データ配列の範囲

    ExcelのFrequency関数を使って度数分布を作ろうとしています。 {=FREQUENCY(データ配列,区間配列)}のデータ配列のところに、 離れた場所にあるセルを同時に指定することはできないでしょうか? 例えば、B1:B15とD1:D15を同時に同じデータ配列に組み込むことは出来ないのでしょうか? バージョンはExcel2000です。よろしくお願いします。