• 締切済み

(統計学)n数をいくらにすれば良いでしょうか。

統計が無知な私に、ぜひご教示願います。 いま、丸い形をしたサンプルが30000個あり、 それぞれのサイズにややばらつきがあります(正規分布とします)。 大きすぎるもの、小さすぎるものは不合格になるとします。 30000個をすべて確認すると、 その中の不合格はだいたい50-100個程度と把握しているのですが、 毎回30000個確認するのは大変なので、 n数を少なくして確認し、 「この日製造したサンプルは不合格率○%だった~」、という話をしたいと思っています。 だいたいいくらくらいのn数にすれば、ある程度信頼性のある話ができるのでしょうか? できれば理由も添えて、お願いします。

  • pomzom
  • お礼率85% (109/127)

みんなの回答

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.2

オーソドックスな、「母比率の推定」の問題です。 統計の入門書には、大概、この名前の章があって、 信頼区間の求め方が書いありますよ。

  • DJ-Potato
  • ベストアンサー率36% (692/1917)
回答No.1

30000個に50~100個の不良品だとすると、不良品は300~600個に1個ということになります。 0.167~0.333%ですか。 nを現実的に確認できる個数で設定して、ある日の不合格率が0.15%でした。 統計に疎い上司は「いつもより少ないんだね、良かった良かった」って言うかもしれません。 統計に強い上司は「で、有意確率は?」とか「信頼区間は?」とか言うでしょう。 ある程度信頼性のある話をするためには、どの程度信頼性があるのか明記して話さないといけません。 統計は実は結構うさんくさいもので、うまく使えば上手に人を騙せる数字のトリックを生み出すことができます。 あとは具体的な数字で言うと、例えばn=1000程度だと、不合格は0~5くらいでしょうか。 1/300なら平均的には3個くらい不良品が出そうですね。 でも0個だった時に、あるいは1個だった時に、不合格率が0%でした、0.1%でした、と言っても信憑性に欠ける印象がありませんか? 統計とは、そんなもんです。

関連するQ&A

  • 統計学について質問です。

    統計学について質問です。 統計学が全然わかりません。 正規分布、とT分布の違いがよくわかりません。 正規分布が十分に大きいn個のサンプルを取り出す。母集団の平均、標準偏差がわかっている。 これってどういうときに使うのでしょうか? そもそも母集団平均がわかっている状況って存在するのですか?? 正規分布、T分布、F分布、ガウス分布、ポアソン分布などいろいろありますが、何が何だかわかりません。理工系の統計術として最低限知っておきたいので、わかりやすくお願いいたします。

  • 相加平均とN数しか分からないときには?

    テストの結果で、そのテストの全体の相加平均(平均点)とN数(受験者数)、自分の得点しか分からないときには、どのようにしてその集団内の順位、または偏差値を知ることができるのでしょうか。 ばらつきを意味する標準偏差などはわかりません。 テストは100点満点です。 もしも、正規分布だったとしたらということで考えて下さい。 統計学や分析については素人ですので、四則計算でできる計算式を教えて下さい。

  • なぜ統計学は軽視されやすいのか

     統計学の軽視には目を覆いたくなります。統計学は高等学校で不偏標準偏差σ[n],確率変数の平均・標準偏差,二項分布と正規分布の程度まで扱うべきだと思いますが,皆さんはどう思われますか。

  • N数が異なるデータの正規分布への適合度

    正規分布への適合度の指標を探しています。 N=100~200の複数のデータセットを正規分布等にあてはめた場合、異なるn数のサンプル同士で単純比較できる適合度の指標はありますか? なお、各種の適合度検定ではn数が変わると結果も変わってしまうので、今回探している指標とは違うと考えています。

  • 確率統計:全体数の推定方法について

    一部のサンプリングにより全体数を推定する方法を教えて下さい。 例えば、100m2の砂浜にランダムに大量のビー玉が散乱しているとします。 全部の個数を数えることは困難なので、1m2四方の枠を作って、任意の5箇所のみで数を数えます。 その結果が、 (1)100個 (2) 50個 (3)  5個 (4) 70個 (5)125個 だったとします。 単純計算すると1m2あたり71個になるので、それを100倍すると、全体で7100個のビー玉があると推定できます。 しかしながら、5箇所の数には大きくバラツキがありますから、別の5箇所で数を数えると全く違った答えになりそうです。 この場合、5箇所のバラツキ(標準偏差)を求めて、○%の確率で●●個~●●個と推定して良いのでしょうか? つまり、サンプルが正規分布していると仮定して良いのでしょうか? それとも、このような場合は正規分布していると仮定せずに他の方法で計算すべきなのでしょうか? わかりにくい質問で申し訳ありませんが、よろしくお願いいたします。

  • 統計手法

    ある薬Aの投与前後の血液データBの変化について統計処理を考えています。しかし血液データBは非常に個人差が大きくサンプル数10程度では正規分布には程遠くなってしまいます。このような時はWiscoxinの符号順位検定を用いて検定してよいでしょうか。また、投与前をたとえば100としてデータを標準化した場合はどのような統計処理がよいのでしょうか。

  • 統計学における標準化について

    A)標準化は、次のページの https://bellcurve.jp/statistics/course/19647.html サンプルxー平均値/標準偏差 であり、これで正規分布のz値と照らし合わせて確率を求めるというのは理解できました。 B)ただ、実践において、統計量Zを求める際に、次のサイトでは、 https://bellcurve.jp/statistics/course/9317.html z=x⁻(xの平均) -μ / √σ² * √n とあります。 分母が標準誤差です。 C)一方次のページでは、 https://bellcurve.jp/statistics/course/9490.html z=X-np / √np(1-p) とあり、こちらは標準偏差で割っています。 以下質問ですが、 1)Aは何も推定しておらず、すなわち記述統計で全サンプルが分かっている、すなわち母集団での話で、あるサンプルxiの全体のうちでの発生確率を示すために標準化してZ値を求めている、という考え方で正しいですか? 2)Bは標準誤差で割っているのは、母集団σ²から抽出した標本であり、抽出した確率変数Xについて、母集団が正規分布に従うのであれば、X~N(μ、σ²/n)に従うので、この分散の√を使っている(すなわち標準誤差を使う)という認識で正しいですか? 3)Cは二項分布のnが大きいときに中心極限定理で正規分布と近似させて解くという計算の話なのかと思いますが、これは、Aと同じように、変数Xから平均を引き、標準偏差で割っています。これは抽出した標本だと思うのですが、Aと同じ方法でいいのでしょうか?かといって。正規分布から抽出していませんが……。 それぞれの用語とかも良く調べましたが、いまいち使いこなせていません。A,B,Cそれぞれ分子も違うので、標準化を基本に色々やっているのだろうと思うのですが、使い分けというか、それぞれの出てくる場面とかも教えてほしいです。 よろしくお願いいたします。

  • 統計の問題について

    統計の問題を解いています。次の問題を教えてください。 (1)平均が168 標準偏差が6.0のとき正規母集団N(500,6.0^2)、P(X≦a)=0.95のときaはどうなるか。 (2)680人の入学募集人員にたいして10000人の希望者がいた。平均が500 標準偏差が60のとき正規分布N(500,60^2)、合格者の最低点は何点か。 以上2つです。よろしくお願いします。

  • 確立統計

    はじめまして。 今、学校で確立統計を学んでいます。 正規分布のことで質問があるのですが、 確立変数XがN(μ,σ^2)に従うとき という意味がよくわかりません。。。 それと、標準正規分布は何のために設けられたのでしょうか?? 根本的にわかっていないようで申し訳ありません。

  • 統計学の専門家に質問です。教えてください

    最近発売された、東海大学、唐津一先生の本に以下のようなくだりがあります。 「統計を取る際に一体どれだけの数を調べればいいか。結論を言ってしまうとサンプル数は約300で十分である。「えっ、たったの300でいいの」と思われるかもしれない。日本には一億三千万の人がいる。その傾向が、たった300人の統計でわかるのか?わかるのである。300人を調べたときの誤差のバラツキは3%以下である。だからそれで十分である。「ええっ?」と思うかも知れない。しかしこれは厳密な統計学が教える理論である・・・・・・・・」 そこで教えていただきたいのですが、 (1)何故サンプル数が300で良いのか? (2)300人調べた時の誤差のバラツキが何故3%以下なのか? この2点について数学的、統計学的に分かりやすく教えていただけませんでしょうか?