• 締切済み

統計の基本的な問題でしょうが・・・

二項母集団(属性A,Bの2種類)があって、いま属性Aの母平均をなんらかの情報から10%と見込んでいます。 で、今回標本を300とってみたところ、属性Aの標本が36ありました。(標本平均12%) このとき、10%という母平均の見込みが妥当であるかについて調べたいのですが、 母平均が10%であると仮定するとX~Bin(300,0.1)→近似的にN(30,27) 危険率10%で両側検定をとると、棄却域はX<30-1.645*√27 or X>30+1.645*√27 X=36は棄却域に入っていないので、母平均が10%でないとは言えない。 この方法だと、積極的には棄却できない程度のことしか言えないと思うのですが、これをもって、危険率10%で母平均を10%と見込むことは今回のサンプルから鑑みると妥当であると言い切ってよいものでしょうか? なお、今回サンプルはこの300しかとれないものとします。(種種の事情により)

みんなの回答

noname#12673
noname#12673
回答No.4

No1です。 二項分布の正規近似に対する回答で、ご指摘の通り本質的には同じことを誤りであるという回答をしてしまいました。 申し訳ございません。 また、他の回答にあった分散の話ですが、二項分布の母数は試行数nと出現確率pだけで、分散はnとpから導かれるので、nが同じなら、pに関する検定をすれば、分散についても検定していることになるのではないか、と思います。 二項分布の正規近似については、定理として証明されているので、母集団が二項分布に従っていて、nとpが先の条件を満たせば、正規分布として扱っても問題ないと思います。

  • etosetora
  • ベストアンサー率22% (39/175)
回答No.3

ところで、「分散は同じと言える」のでしょうか? ほんとに正規分布ですか そのサンプルで本当に母集団を表していますか? という質問をされたことありませんか。

kony0
質問者

お礼

アドバイス、ありがとうございます。 1つめ:「どれとどれについて」分散が同じか否かの議論をされようとしているか、わかりませんでした・・・ 2つめ:実務上、正規分布とみなしてしまってもよいのではと考えています。他にもいろんな割り切りがはいっていますので。。。 3つめ:問題設定が1つ下のお礼にあるとおりのことなので、むしろ観点は「ある集団の特性が、母集団の特性とかけ離れていないか」に主眼をおいています。

  • larry
  • ベストアンサー率13% (18/138)
回答No.2

>今回のサンプルから鑑みると妥当であると言い切ってよいものでしょうか? 何に対して「妥当」かをよく考える必要があります。 工学的な問題か数学的な問題か、とも言えます。 こういった古典的統計学の手法には「コスト」という概念が 全くありませんから、我々現場の技術屋は古典論での検証は 参考程度にとどめて、最後には「妥当とする判断の失敗」のリスクを 確率にして期待値で判断することにしています。 今回のケースだと、抜き取り検査の合格基準を判断したいといった 問題だと思いますが、ハズレだった場合のオシャカ製品のロスコスト に仮に危険率と判断した10%をそのまま掛けてロス期待値(円)を 割り出し、全数検査にかかる人件費や管理費と比較する というようなやり方です。 でもこのケースだと何度か抜き取っているうちに 「やはりAは全体の10%だ」と自然に判明するものではないでしょうか。 まあ、あくまでも「現場の意見」ですけども。

kony0
質問者

お礼

ご回答ありがとうございます。 私も「現場」の観点で話をしております。 ただ、不良品確率の抜き取り検査とは異なりますし、ロスコストという観点はない(ないわけではないんでしょうが、ロスコストの定義は難しそう)です。 もう少し状況を説明すると、1集団あたり300程度の標本を持つ集団が多数あって、それを全部集めた大きな集団ではAの比率は10%と推定されています。 しかも各集団ごとに、標本が時系列で入れ替わることがありえます。 この中のある時点の断面で、特定の1つの集団をとって全数調査をしたところ、その集団においてはAが12%いた、という状況です。 各集団は、個々の特性があり、Aが3%くらいしかいない集団もあれば、30%くらいいる集団もあるかもしれないという状況で、ただ全体で見るとAは10%であり、いま注目した集団が12%だった。このとき、この集団に対しては、「個々の特性の影響は軽微だから無視することとして」母比率10%と言ってしまってもよいか?という問題なのです。 母比率10%で300の標本をとったとき、両側5%ずつを切ると、標本比率の区間はおそらく7~13%程度になると思いますが、これは本質的な質の変化がなくても、確率的な挙動で7%や13%になりえるということですよね? もしこれが標本平均が20%とかだったら、これは特段にAの多い集団だから、全体の比率をそのまま適用したらだめだとか判断がつくんですが、今回みたいにある時点の断面で12%くらいであれば、この集団に対しては、全体とかけ離れた比率を持っているとは認めがたく、断面での確率的な挙動の範囲内であったと結論付けて、全体の比率の10%をこの集団内のAの比率としてしまいたい・・・という考えなのです。 うーん、文章が下手ですみませんが、考えが伝われば・・・と思います。

noname#12673
noname#12673
回答No.1

帰無仮説を採択することを言い切るのはいいと思います。危険率も含めて言い切っているわけですから。 ただ、正規分布近似で近似する正規分布の母数である平均と分散を2項分布の平均と分散をそのまま当てはめたのが気になります。たぶん間違いだと思います。 ある確率Pで起こる事象がn回の試行でx回観測されたとき、x/nがある条件の元で近似的に平均P、分散P(1-P)/nの正規分布に従うとみなす事ができます。 この例では、0.12という数字が、N(0.1,0.0003)に従って発生する確率変数の観測値ですから、検定量U0=(0.12-0.1)/√0.0003で検定すればいいと思います。 (ちなみに、ある条件とはnP≧5、かつn(1-P)≧5が成立することなので今回は余裕でOKです) ちょっとやってみましたが、危険率でいえば12%ぐらいでも帰無仮説は棄却されませんでした。 結果的に結論は合っていましたが、正規近似の部分で違っているのではないか、というのが私の回答です。

参考URL:
http://www.kaneko-lab.org/BSTAT/BSTAT10.html
kony0
質問者

お礼

ご回答ありがとうございます。 えっと、X/n~N(p,p(1-p)/n)は正しくて、X~N(np,np(1-p))は間違いだと言われているような気がしますが・・・この2つってX~N(μ,σ^2)とnX~N(nμ,(nσ)^2)の関係と同じ観点で同義ではないんですっけ? 「二項分布の正規近似を行う」という過程ではこの両者は異なるのでしょうか?

関連するQ&A

専門家に質問してみよう