• 締切済み

統計の基本的な問題でしょうが・・・

二項母集団(属性A,Bの2種類)があって、いま属性Aの母平均をなんらかの情報から10%と見込んでいます。 で、今回標本を300とってみたところ、属性Aの標本が36ありました。(標本平均12%) このとき、10%という母平均の見込みが妥当であるかについて調べたいのですが、 母平均が10%であると仮定するとX~Bin(300,0.1)→近似的にN(30,27) 危険率10%で両側検定をとると、棄却域はX<30-1.645*√27 or X>30+1.645*√27 X=36は棄却域に入っていないので、母平均が10%でないとは言えない。 この方法だと、積極的には棄却できない程度のことしか言えないと思うのですが、これをもって、危険率10%で母平均を10%と見込むことは今回のサンプルから鑑みると妥当であると言い切ってよいものでしょうか? なお、今回サンプルはこの300しかとれないものとします。(種種の事情により)

  • kony0
  • お礼率57% (24/42)

みんなの回答

noname#12673
noname#12673
回答No.4

No1です。 二項分布の正規近似に対する回答で、ご指摘の通り本質的には同じことを誤りであるという回答をしてしまいました。 申し訳ございません。 また、他の回答にあった分散の話ですが、二項分布の母数は試行数nと出現確率pだけで、分散はnとpから導かれるので、nが同じなら、pに関する検定をすれば、分散についても検定していることになるのではないか、と思います。 二項分布の正規近似については、定理として証明されているので、母集団が二項分布に従っていて、nとpが先の条件を満たせば、正規分布として扱っても問題ないと思います。

  • etosetora
  • ベストアンサー率22% (39/175)
回答No.3

ところで、「分散は同じと言える」のでしょうか? ほんとに正規分布ですか そのサンプルで本当に母集団を表していますか? という質問をされたことありませんか。

kony0
質問者

お礼

アドバイス、ありがとうございます。 1つめ:「どれとどれについて」分散が同じか否かの議論をされようとしているか、わかりませんでした・・・ 2つめ:実務上、正規分布とみなしてしまってもよいのではと考えています。他にもいろんな割り切りがはいっていますので。。。 3つめ:問題設定が1つ下のお礼にあるとおりのことなので、むしろ観点は「ある集団の特性が、母集団の特性とかけ離れていないか」に主眼をおいています。

  • larry
  • ベストアンサー率13% (18/138)
回答No.2

>今回のサンプルから鑑みると妥当であると言い切ってよいものでしょうか? 何に対して「妥当」かをよく考える必要があります。 工学的な問題か数学的な問題か、とも言えます。 こういった古典的統計学の手法には「コスト」という概念が 全くありませんから、我々現場の技術屋は古典論での検証は 参考程度にとどめて、最後には「妥当とする判断の失敗」のリスクを 確率にして期待値で判断することにしています。 今回のケースだと、抜き取り検査の合格基準を判断したいといった 問題だと思いますが、ハズレだった場合のオシャカ製品のロスコスト に仮に危険率と判断した10%をそのまま掛けてロス期待値(円)を 割り出し、全数検査にかかる人件費や管理費と比較する というようなやり方です。 でもこのケースだと何度か抜き取っているうちに 「やはりAは全体の10%だ」と自然に判明するものではないでしょうか。 まあ、あくまでも「現場の意見」ですけども。

kony0
質問者

お礼

ご回答ありがとうございます。 私も「現場」の観点で話をしております。 ただ、不良品確率の抜き取り検査とは異なりますし、ロスコストという観点はない(ないわけではないんでしょうが、ロスコストの定義は難しそう)です。 もう少し状況を説明すると、1集団あたり300程度の標本を持つ集団が多数あって、それを全部集めた大きな集団ではAの比率は10%と推定されています。 しかも各集団ごとに、標本が時系列で入れ替わることがありえます。 この中のある時点の断面で、特定の1つの集団をとって全数調査をしたところ、その集団においてはAが12%いた、という状況です。 各集団は、個々の特性があり、Aが3%くらいしかいない集団もあれば、30%くらいいる集団もあるかもしれないという状況で、ただ全体で見るとAは10%であり、いま注目した集団が12%だった。このとき、この集団に対しては、「個々の特性の影響は軽微だから無視することとして」母比率10%と言ってしまってもよいか?という問題なのです。 母比率10%で300の標本をとったとき、両側5%ずつを切ると、標本比率の区間はおそらく7~13%程度になると思いますが、これは本質的な質の変化がなくても、確率的な挙動で7%や13%になりえるということですよね? もしこれが標本平均が20%とかだったら、これは特段にAの多い集団だから、全体の比率をそのまま適用したらだめだとか判断がつくんですが、今回みたいにある時点の断面で12%くらいであれば、この集団に対しては、全体とかけ離れた比率を持っているとは認めがたく、断面での確率的な挙動の範囲内であったと結論付けて、全体の比率の10%をこの集団内のAの比率としてしまいたい・・・という考えなのです。 うーん、文章が下手ですみませんが、考えが伝われば・・・と思います。

noname#12673
noname#12673
回答No.1

帰無仮説を採択することを言い切るのはいいと思います。危険率も含めて言い切っているわけですから。 ただ、正規分布近似で近似する正規分布の母数である平均と分散を2項分布の平均と分散をそのまま当てはめたのが気になります。たぶん間違いだと思います。 ある確率Pで起こる事象がn回の試行でx回観測されたとき、x/nがある条件の元で近似的に平均P、分散P(1-P)/nの正規分布に従うとみなす事ができます。 この例では、0.12という数字が、N(0.1,0.0003)に従って発生する確率変数の観測値ですから、検定量U0=(0.12-0.1)/√0.0003で検定すればいいと思います。 (ちなみに、ある条件とはnP≧5、かつn(1-P)≧5が成立することなので今回は余裕でOKです) ちょっとやってみましたが、危険率でいえば12%ぐらいでも帰無仮説は棄却されませんでした。 結果的に結論は合っていましたが、正規近似の部分で違っているのではないか、というのが私の回答です。

参考URL:
http://www.kaneko-lab.org/BSTAT/BSTAT10.html
kony0
質問者

お礼

ご回答ありがとうございます。 えっと、X/n~N(p,p(1-p)/n)は正しくて、X~N(np,np(1-p))は間違いだと言われているような気がしますが・・・この2つってX~N(μ,σ^2)とnX~N(nμ,(nσ)^2)の関係と同じ観点で同義ではないんですっけ? 「二項分布の正規近似を行う」という過程ではこの両者は異なるのでしょうか?

関連するQ&A

  • 統計学の問題です。数学が大の苦手で大変申し訳ないのですが解けないので…どのようにとけば良いのかお願いします。

    統計学の問題です。数学が大の苦手で大変申し訳ないのですが解けないので…どのようにとけば良いのかお願いします。 以下が問題です。 【1】Z~N(0、1^2)、X~Z(40、8^2)のとき以下を求めよ。 1)Pr(0.82<Z<1.43)= 2)Pr(0.82<Z<a)=0.124となるa= 3)Pr(40<X<54)= 4)Pr(40<X<b)=0.324となるb= 【2】正規母集団と考えることができる母集団から15の標本を抽出したとき、標本平均x=32.4、標本分散s^2=4.8であった。 1)母分散σ^2=4.2であると考えてよいとき、母平均μの95%信頼区間を計算せよ。 2)母分散未知のとき、母平均μの99%信頼区間を計算せよ。 3)母分散σ^2の95%信頼区間を計算せよ。 【3】正規母集団と考えることができる母集団から16の標本を抽出したとき、標本平均x=181.7、標本分散s^2=9.8であった。 1)母平均μが179と異なるかどうかについて有意水準α=0.05として、両側検定を実施せよ。 2)母分散σ^2が8より大きいかについて有意水準α=0.05として、片側検定を実施せよ。 【4】ある試験の受験者の合格と不合格のA,Bのそれぞれの人数を下に示す、クラスにより合否に違いがあるかどうか、有意水準α=0.05 として片側検定を実施せよ。 合格 不合格 A 72 17 B 53 33 以上です。大変申し訳ありませんがよろしくお願いします。

  • 社会統計について質問です。

    大学生です。社会学部の友人に統計学の課題について、助けを求められたのですが、これが私にもさっぱり分かりません。どなたか私達を助けて下さい。以下のような課題です。 母平均μ、母分散σ二乗を持つ正規分布でない母集団から、標本数900のデータを得たところ、標本平均は92、不偏標本分散は100であった。この場合、大標本であると見なして良い。ただし、母分散は未知である。 (1)仮説検定に用いる統計量は何か。また、その統計量は近似的にどのような分布に従うか。 (2)母平均の99%信頼区間を求めよ。 (3)帰無仮説をHo:μ=90としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1%水準右片側検定をそれぞれ実施せよ。 よろしくお願いします。

  • 統計の問題です。

    統計の問題です。 答えがなく困っています。よろしくお願いします。 x1,x2,…,xnが平均μ、分散1の正規分布N(μ,1)をしている母集団からの大きさnの無作為標本であるとする。xバー=Σ[i=1→n](xi/n)と置く。 標準正規分布上側確率0.025の点は1.96であることを用いよ。 1)xバーの標本分布を与えよ。 2)μの95%信頼区間を求めよ。 3)帰無仮説H0:μ=μ0を対立仮説H1:μ≠μ0に対して有意水準0,05で検定するときの棄却域を求めよ。 4)3)の検定問題において、xバーの値を固定した時、棄却されないμ0の値の全体と2)の信頼区間との関係を述べなさい。 一応解いた答えを載せますが、全部自信がないです。 1)f(xバー)=1/√2πexp(-(x-μ)^2/2) 2)P(|(xバー-μ)/1|=0.95 よって、μ-1.96≦xバー≦μ+1.96 3)棄却域Rは、R<-1.96,1.96<R

  • 統計の問題がわかりません。

    統計の問題です。 途中まで解こうと試みましたが解答・解説が無いため不可能でした。 わかる方助けて下さい。 xを二項分布B(400,p)に従う確率変数とし、p^=x/400の分布を正規分布で近似するものとする。 1)p^の分布を近似する正規分布の平均と分散を示せ。 2)x=80の時、pの近似的95%信頼区間を求めよ。 3)仮説H0:p=0,5を対立仮説H1:p>0,5に対して有意水準0,05で検定するときの棄却域を求めよ。 4)3)の検定についてp=0.55の時の検出力の求め方を示せ。 途中まで作成を試みた解答 1) 二項分布なので(np,npq)の平均と分散になると思い、平均:np=400×(x/400)=x 分散:npq=x(400-x)/400 これは間違いでしょうか? 2)で1)を用いるとP(|x-x|<1.96)=0.95??となるような??? よろしくお願いします。

  • 統計の問題で・・・

    2つの母平均を比較する時に「独立サンプル」か「対応のあるデータ」かの区別が重要 とありますが、 ・違いは何か ・相関係数を計算する意味があるのはどちらか ・帰無仮説を棄却しやすいんはどちらか について解説して頂きたいのですが。

  • 社会統計について質問です。

    友人に社会統計学について、質問を受けました。 私は心理学科なので、心理統計しか分からず、困っています。 どなたか助けてください。 以下のような問題です。 体重に関して正規分布N(μ,σ二乗)に従う母集団から、無作為抽出によって以下の16の標本を得た。 62,50,60,48,62,59,36,64,64,62,87,63,75,27,65,76 (1)標本平均、不偏標本分散、不偏標本標準偏差を求めよ。 (2)母平均の最尤推定値(最尤推定量の実現値)を求めよ。 (3)母分散は既知とする。このとき標本平均の標本分布はどのような分布に従うか。「確立変数~確率分布」という形式で答えよ。 (4)母分散は未知であるとする。このとき、母平均の95%信頼区間を求めよ。 (5)母平均は未知であるとする。帰無仮説をHo:μ=52としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1% 水準右片側検定をそれぞれ実施せよ。 (7)さらに、体重に関して正規分布する別の母集団から、無作為抽出して以下の16の標本を得た。2つの母集団の母分散は未知であるが、母分散は同じであると仮定して良い。「2つの母平均は等しい」を帰無仮説として、母平均の差に関する5%水準両側検定を実施せよ。(ヒント:t0.025(30)=2.042) 65,60,57,76,79,72,57,75,54,75,42,77,38,48,71,78 よろしくお願いします。

  • 大至急お願い致します!統計学の問題です!

    大至急お願いします! 統計学の問題です。 N(170, 5の2乗)に従う母集団から100個の標本を抜き取る。以下の問いに答えよ。 (a) 標本平均値(x)が170,6 以上となる確率 (b) 標本平均値(x)が169,5以上170,3以下となる確率 よろしくお願い致します。

  • 統計:クロス表に関して

    クロス表に対してX2検定を行う場合でも明確な理由がない限り両側検定を行うべきなのでしょうか。 また、同じデータであれば、2標本データを対応のあるデータと暑かった方が対応のないデータとして扱うよりも帰無仮説を棄却出来る可能性は高いのでしょうか。 答えられず困っています。 よろしくお願いします。

  • 統計学の検定のもんだいです。

    前回分 すいません、タイプミスがございました、ご容赦をおねがいします。 検定の問題です。答えも知りたいですけど 自身の考え方が正解かどうか 知りたいです。ご指導宜しくお願いします。 健常者のIgG値の平均値は1180(mg/100ml)であることが知られているとする。A病院における透析患者のIgG値(mg/100ml)の平均値は健常者の平均値と異なっていると言えるか、[A]のデータを用いて有意水準0.05で検定せよ A:1326 1418 1820 1516 1635 1720 1580 1452 1600 (1)帰無仮説と対立仮説を記すこと。 (2)有意水準0.05として、この検定の棄却域を求める(両側検定を行う)。 (1)棄却域を求めるためのRのコマンドを記すこと。 (2)求められた棄却域を T>a, T<b という形で記すこと。ここで、a,bは具体的な値。 (3)検定のための統計量の値を求めるRのコマンドを記すこと。 (4)統計量の値を記すこと。 (5)棄却域と比較することにより帰無仮説を棄却するか採択するか決め、結果を記すこと。 (6)最初に与えられた質問(最初の文章)に解答せよ。 (7)p値を求めるRのコマンドと結果の値を記すこと。 (8)p値の結果の値から帰無仮説を棄却するか採択するか決め、結果を記すこと。

  • 統計学3

    以前にも似たような質問をして今回もその回答のようにやってみましたが、やっぱりうまくいきません。毎度申し訳ありませんがまた教えてください。 課題 8.  S 社の14インチ液晶ディスプレイ(A-xyz) 13 台の寿命を測定したところ,次の結果を得た.   寿命時間が指数分布に従うものと仮定して,平均寿命時間 t に関する 帰無仮説 H0: t=7942.00,対立仮説 H1: t<7942.00 を,有意水準 0.04 で検定せよ. また,平均寿命時間 t に関する下側信頼区間を信頼度 0.96 で構成せよ.    27847 6482 18846 8828 1778 6545 15847 5200 5443 9570 9870 1999 4086 検定統計量= 臨界値(棄却域の端の値)= 帰無仮説 H0は 棄却される,or棄却されない 信頼区間 ( 0 , ] ただし,検定統計量=2×標本数×標本平均÷(帰無仮説の元での平均寿命)