誤差はほんとに「1.96×標準偏差」?
- 母標準偏差を20として信頼度95%で誤差2以内で推定するには、標本の大きさをいくら以上にする必要があるかについて。例えば母平均が30だったとして誤差2の推定は、「誤差」を上記解答の意味でとらえると信頼度95%の推定区間は、大きさnの標本から推定区間を作るという調査を何度も繰り返すと、区間として[25,29]や[28,32]などいろいろありうるが、95%くらいの割合で間に30をはさんでいるという意味になる。
- 「誤差」という言葉を実質「信頼区間の幅」と置き換えて解釈して、「2×1.96×20/√n≦2」として解かなければならないのではないかとの疑問。標準誤差という意味は全く違う単語であり、数学的に定義されていない中で「誤差」をどう解釈すればうまく「1.96×標準偏差」という意味になるかについての疑問。
- 「誤差」という言葉を解釈する際には、「信頼区間の幅」という意味で考えるべきであり、 「2×1.96×20/√n≦2」という解釈が適切であると考えられる。標準誤差とは異なる概念であり、数学的に厳密に定義されていないため、正確な解釈が難しい。
- ベストアンサー
誤差はほんとに「1.96×標準偏差」?
某問題集で次のような問題がありました。 母標準偏差を20として信頼度95%で誤差2以内で推定するには標本の大きさをいくら以上にする必要があるか。 自分の解答も問題集の解答も一致していて、「1.96×20/√n≦2」を解いて、n≧385」を得ました。ただ、これの解説を求められたときに、この「誤差」という意味をうまく説明できませんでした。なぜなら例えば母平均が30だったとして誤差2の推定は、「誤差」を上記解答の意味でとらえると信頼度95%の推定区間は、「大きさnの標本から推定区間を作るという調査を何度も繰り返すと、区間として[25,29]や[28,32]などいろいろありうるが、95%くらいの割合で間に30をはさんでいる」という意味になると思うのですが、もちろんそこには[26,30]や[30,34]の場合も含んで言っているわけです。しかし、そうするとこの場合区間の中で母平均との差が最大4あることになります。これで誤差2ということになるのでしょうか。つまり、本来は「誤差」という言葉を実質「信頼区間の幅」と置き換えて解釈して、「2×1.96×20/√n≦2」として解かなければならないのではないかと思うのです。 標準誤差という意味は全く違う単語だし、はっきり数学的に定義されていない中で「誤差」をどう解釈すればうまく「1.96×標準偏差」という意味になるか、うまい説明があれば教えていただきたいと思います。
- Tofu-Yo
- お礼率68% (97/142)
- 数学・算数
- 回答数3
- ありがとう数2
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
#1です。 改めてお考えになった通りです。念のため、細かく拝読して申し上げてみます。 > 信頼区間は、例えば標本平均31と出たときに母平均との差にブレがあることを見越して(ここまではたぶん正しい) お考えの通りです。 > 少し幅を広げた”±2の範囲の値を母平均と見なす”という意味だと思っていました。 ここまでも大丈夫です。 > したがってこのとき、33を母平均とみなしたり、29を母平均と見なしたりすると考え、それとの本来の母平均との差は95%で最大4ある、と思ったのです。 これも母平均を標本からの推定では揺らぐとみていて、大丈夫のように思います。 > しかし、母平均として見なすのならば間違いなく31以外あり得ないわけで、 その通りかと思います。標本集団の平均を、まずは基準とするということですね。 > あくまでそれと本来の母平均との差が95%で±2の範囲と予測するものであって、 仰る通りです。未知の母平均を確率的に分布すると見做して、母平均が標本平均の周りでどのように分布するかを考えて、31±2の範囲に母平均の分布がどれくらいの割合で入っているか、と推定するというご理解ですね。 > ズレの最低ラインや最大ラインと本来の母平均を比較することがそもそもナンセンスだったのだと、解釈できました。 そういうことだったと思います。ズレの最低、最大は非常に大きくなり得るわけですが、確率的に重みを付けて考えて95%の範囲に収まるものはどうなのか、と統計では考えるわけですね。 ですので、ズレを考慮した最低・最大付近の値を、標本または母平均周辺の値と(確率的に)等しい重みとして比較すると、統計的な計算とは合わなくなってしまう。そのお考え通りです。
その他の回答 (2)
- hue2011
- ベストアンサー率38% (2800/7250)
正規分布のグラフというのがありますね。 自然にはあり得ないような山の形です。確率分布なんていうと定番の。 これで「半値幅」というのは何の意味でしょうか。 その山形の曲線で囲まれた部分の面積を考えるんですね。マイナス無限大からプラス無限大まであるかもしれない。でも面積はあります。 山のてっぺんから水平線をおろしていって、全部の半分の面積のところで止めるということをします。 その水平線と山の形が交わったところの長さ、これが半値幅です。 半値幅の水平線の、端っこの方の下の面積はどの程度でしょうか。 誤解がときどきありますが、半分ではないのですよ。 なぜかというと半値幅自体の長さの下のほうの面積がありますから。 ほとんどのものが半値幅の領域でカバーされていることになります。 ここから外れているものは、認められるものとしない、といって構わない程度です。 だったら半値幅の範囲が、その事象として認めてかまわない値だと断定してもいいでしょう。 そこを誤差範囲というのです。ゆるしていいブレはここまで、と決めるのです。 数式でやってみればわかりますが、標準偏差σにとって約2倍(計算すると1.96倍)になります。もっとも計算しなくても直観でわかる。 標準偏差というのは、本来あるべき値つまり平均値からのブレですね。 それは±双方にありますね。 面倒な用語を使わないで、感覚で理解してください。
お考えの通り、母集団からランダムに標本採取をしても、標本集団が母集団と同じような分布になる保証は全くなく、ランダムゆえに小さいほうから順番に標本採取したり、逆に大きいほうから順番に標本採取することもあり得ると想定せねばなりません。もちろん、そういう標本集団は母集団とは全くかけ離れた分布になってしまうでしょう。 ですので、「誤差2」より大きな誤差が出ることは、あり得ます。むしろ、起こると想定しておかねばなりません。しかし統計も数学ですから、「外れてるかもしれません」とのみ述べていたら、ちょっと情けないですね。 そこで、どんな確率で外れるかを述べることになるわけです。例えば「平均が30」だとして、「平均から外れる範囲が±2」まで許そうと思ったとき、許した範囲外になる可能性を考慮して、「95%で±2以内」と述べるわけです。5%は±2より大きく外れる、と言っていることにもなります。 つまり、その95%や5%が何の確率かといえば、 「標本n個の採集を多数回繰り返して試行したとき、母集団の平均が30であるならば、試行回数が増えるにつれ、平均が30±2(28~32)に収まる標本集団が95%、外れる標本集団(28未満と32超)が5%に近づいていくはずである」 ということになります(外れる標本集団が出ることも予言している点に注意)。これは極限値の考え方(大数の法則)でもありますね。しかし、母集団の真の平均は不明ですから(全数調査しないと分からない)、30±2の30というのは上記から視点を変えて、ある標本集団の平均30を用いて陳述することになります(この辺りがちょっとややこしいところかも)。 それが「信頼度95%で±2の誤差」の意味するところです。これを以て、「標本集団より、母集団の平均が30±2であると、信頼度95%で言うことができる」ということになります。繰り返すようですが、25(誤差5)とか34(誤差4)とかの、±2から外れることも考慮していて、その可能性は5%だと言っています。 > 区間として[25,29]や[28,32]などいろいろありうる その場合は平均が30になりません。平均は(計算方法から明らかですが)標本の最小から最大の間に収まるはずです。少なくとも、標本の区間から外れる平均を用いて陳述することは、誤差の確率的言明を含めて、あり得ません。 > 「大きさnの標本から推定区間を作るという調査を何度も繰り返すと、区間として[25,29]や[28,32]などいろいろありうるが、95%くらいの割合で間に30をはさんでいる」 というのは、適切な解釈の一つだと思いますが、標本平均は標本区間内に収まるため、標本平均から母平均を推定するという視点では、「母平均との差が最大4あることになります。これで誤差2」という陳述は母平均からの視点になっているため、成り立たないのです。 言い換えると、「母平均との差が最大4あることになります。これで誤差2」は、母平均一つを基準とした視点で多数の標本平均を眺めている視点だ、ということです。標本平均視点では、「ある一つの標本平均30から推定可能な母平均多数の集団の確率分布は、95%で30±2」とでもしなければいけません。 P.S. もちろん、標本採集を多数回繰り返して検証することは普通はありません。1回の標本採集についての、数学的裏付けのある予想ということになります。
お礼
非常に詳細な解説ありがとうございます。 当方の読解力不足ですべて理解できたかわからないのですが、少なくとも当方の主張に根本的な欠陥があることに気づきました。信頼区間の意味を正しく理解しているつもりでそもそも間違えた解釈でした。 信頼区間は、例えば標本平均31と出たときに母平均との差にブレがあることを見越して(ここまではたぶん正しい)少し幅を広げた”±2の範囲の値を母平均と見なす”という意味だと思っていました。したがってこのとき、33を母平均とみなしたり、29を母平均と見なしたりすると考え、それとの本来の母平均との差は95%で最大4ある、と思ったのです。しかし、母平均として見なすのならば間違いなく31以外あり得ないわけで、あくまでそれと本来の母平均との差が95%で±2の範囲と予測するものであって、ズレの最低ラインや最大ラインと本来の母平均を比較することがそもそもナンセンスだったのだと、解釈できました。点推定を思い出せば、簡単なことでした… 一応こんな解釈で自分で納得し回答者様のご説明もおよそそういうことだと思ったのですが間違いがあるでしょうか?違っていたら申し訳ありません…
関連するQ&A
- 統計の標準誤差について教えてください
統計の問題を解いているんですが誤差についての問題でつまずいています。わかる方いましたら解答・解説をご教示願います。 問、ある県の高校入試の数学の成績は標準偏差14点であろうと予想されている。母平均を95%信頼区間で推定するとき、次の問いに答えよ。 (1)無作為抽出した100人の平均点がx~(エックスバー)のとき、母平均μの誤差はいくらか。 (2)母平均μの誤差を2点以内にするには、抽出する標本の大きさnをどれくらいにすればよいか。 よろしくお願いします。
- 締切済み
- 数学・算数
- 統計学 推定の標本標準偏差
試験に備えて区間推定の練習問題をやっているのですが、どうしても標本標準偏差の値が解答とずれてしまいます。 何度もテキストを読み直しましたが、自分ではまったく原因がわかりません。 統計に詳しい方がいらっしゃいましたら、どうか教えてください。 お願いします。 問題:某地区の10世帯について1ヶ月の電気使用量を調査した。 5900 4300 4200 3800 5200 4500 5100 6200 4700 4100 この地区の電気使用量の平均を信頼係数90%で区間推定せよ。 (解答では、標本標準偏差は790.2となっている)
- ベストアンサー
- 数学・算数
- 標準平均Xバーの標準偏差について
たびたびすみません。 http://oshiete1.goo.ne.jp/qa3484149.html を質問させていただいたものです。 まず、「標準平均Xバーの標準偏差」というのは「標本誤差」という のですか? そもそもこの標本誤差というのは何に役立つのでしょうか? 高校の数学の教科書の問題で、下記のようなものがありました。 「ある県の17歳男子の体重の平均値は62kg、標準偏差は9kgである。 この県の17歳男子100人を無作為抽出で選ぶとき、100人の体重の 平均Xバーの期待値と標準偏差を求めよ。」 この標準誤差?というのは9/√100で0.9kgとなると思うのですが、 この0.9kgはどんな意味をもつのでしょうか? 100人全体の標準偏差は、「標本標準偏差」というものになり本来は 分母をn-1にして、これが母標準偏差の推定値ということなんです よね?それでこれはだいたい9kgに近いということですよね? (分母をnにしたものを標本標準偏差と呼ぶの?) 文章下手ですみません。 よろしくお願いします。
- ベストアンサー
- 数学・算数
- 物理学実験における標準偏差、標準誤差について。
物理学実験における標準偏差、標準誤差について。質問お願いします。統計学かもしれません。 正規分布をするグラフにおいて、平均値、標準偏差と、標準誤差をもとめました その場合、平均値±標準誤差、平均値±標準偏差のそれぞれの2つの範囲の意味を説明しなさいという問題です。 私の考えでは、平均値-標準偏差~平均値+標準偏差の範囲は測定値のばらつきがこの範囲に68.3パーセントを占める。 平均値-標準誤差~平均値+標準誤差の範囲の意味は平均値のありそうな幅の推定でこの範囲に68,3パーセントを占める であってますでしょうか
- ベストアンサー
- 数学・算数
- 標準誤差の式について
標準誤差を求める式、SE = SD / √nについて質問がございます。 現在、標準誤差を勉強しております。 標準誤差が標本平均の標準偏差だと知り、 下記母集団を単純な例にして標準誤差を求めました。 ■1 母集団「2,3,4」 標本集団「2,3」「3,4」「2,4」 ■2 母平均:μ=3 母標準偏差:σ=√[{(2-3)^2 + (3-3)^2 + (4-3)^2} / 3] = √(2/3) ■3 標本平均:μ1=2.5、μ2=3.5、μ3=3 標本平均の平均:x=3 標本平均の標準偏差(標準誤差): s=√[{(2.5-3)^2 + (3.5-3)^2 + (3-3)^2} / 3] = √(1/6) ■4 標準誤差の式にあてはめ SE = SD / √n =√(2/3) / √3 =√(2/9) 3は標準偏差の公式に当てはめました。 4は標準誤差の公式に当てはめました。 計算間違いあるいは値の代入間違いでなければ、 3の標準誤差と4の標準誤差は同じになるはずだと思うのですが、 なっておりません。 何故なのでしょうか? 3の計算方法が間違っているのでしょうか? お教えていただければ幸いです。 以上、宜しくお願いいたします。
- ベストアンサー
- 数学・算数
- 母標準偏差・標本標準偏差と標本平均(Xバー)の標準偏差
(聞きたいのは、最後の3行がメインです) http://oshiete1.goo.ne.jp/qa3478996.html の質問をしたものです。 標準偏差を求めるとき、(ルートの中の)分母が「n」か「n-1」 の2種類があることはわかりました。 母標準偏差であっても標本標準偏差であっても「n」で求められる が、標本から母標準偏差を推定するときが「n-1」を使うという ことで理解しました。 ところで、「n」にしても「n-1」にしてもそんなに値としては 変わらないということなんですよね? 高校の時の教科書で、「標本平均(Xバー)の標準偏差」という のがありました。 「母平均m、母標準偏差sの母集団から大きさnの無作為標本 抽出するとき、標本平均Xバーの標準偏差σ=s/(ルートn)」 というのがありました。 「標本標準偏差」とこの「標本平均Xバーの標準偏差」というの は全然違うものなんですよね?(値も全然違うものになってしま うと思います。)
- ベストアンサー
- 数学・算数
- 標本数の求め方についての疑問
標本数の求め方についての疑問 二つの問題があったのですが、 【例】ある工場で生産される製品の重さを無作為抽出した標本で検査したい。予備調査の結果、この製品の重さには約10(g)の標準偏差があることが分かっている。信頼度95%で誤差の範囲を1(g)以内で推定するには,標本の大きさを何個にすればよいか. (解答)誤差 =z・σ/√n つまり、式は 1.96・10/√n=1 n≧= 384.16 … 385個 と書かれています。次に、 【1】母標準偏差30(g)である大量の玉葱から標本を無作為抽出する。母平均の95%信頼区間の幅(つまり、誤差の2倍)を3(g)以下で得るには,標本の大きさを何個にすればよいか。 (解答)誤差×2=z・σ・2/√n つまり、標本数を求める式は 1.96・30・2/√n=3 n≧1537個 とありました。 ここで疑問なのですが、なぜ【例】の問題では、誤差×2(z・σ・2/√n)ということをしないのでしょうか。統計初心者なので詳しく解説して頂けると助かります。
- ベストアンサー
- 数学・算数
- 標準誤差と標準偏差の違いは何?
誤っているのはどれか? 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい ――――-―――――――------------------------------------- このような問題を考えています。 自分なりに答えを出すと・・・・・・ 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう →(○)正しい。 定義どおりだと思います。 小学校で習った平均値ですね。 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない →(○)正しい。 極端な例が混ざれば平均値は同じでも、バラツキがちがう 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される →(○)正しい。 そのとおり標準偏差(SD)のSD±1は68.27%である。 SD±2はたいか95%くらいでしたっけ。 SD±3は99.9%くらいだね。 つまりバラツキの度合いに占めるパーセンテージだと。 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい →(○)正しい。 これがうさんくさい。 でも、私の持論によると・・・・・ ■SEχ(標準偏差の平均値)=σ/ √n σは標準偏差です。 ■SDχ(標準誤差の平均値)=s/ √n sは限られたサンプルより抽出した標準偏差の「予想値」です。 そしてnはサンプルのサイズ(数)です。 つまり、標準偏差(SD)は国勢調査などで「全員」の数が把握できている場合であり、標準誤差(SE)は、大阪のミナミの繁華街の商店街の「全員」ということで つまり、 ■SEχ(標準偏差の平均値)=σ/ √n →σ/ √日本の総人口 ■SDχ(標準誤差の平均値)=s/ √n →s/ √大阪ミナミの商店街の人口 ・・・・ということで分母が小さくなりますから、 1/1000 と 1/10 では、1/10がおおきいですね。 つまり、調査の数が少ないと、誤差も大きくなるとそういうわけで、 誤差の絶対値は標準偏差よりも高くなるというわけです。 ですから一見この選択肢が誤りに見えますが、実は正しいのだと思います。 間違っていればどこがまちがっているか教えてください! 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい →(○)正しい。 そのとおり。 本物と同じだから誤差も無い
- 締切済み
- 数学・算数
- 統計学入門書の例題で、標本平均7.5(標準偏差2.5、n=28)と標本
統計学入門書の例題で、標本平均7.5(標準偏差2.5、n=28)と標本平均9.1(標準偏差2.3、n=25)を平均値検定した結果、z=2.43で有意水準5%で有意差ありとなっていました。ところが、それぞれの母平均を区間推定すると95%信頼区間で推定幅に重なりを持ってしまいます。もし、有意差があるなら、重なりを持たないと理解していますが…。当方の計算法の誤りまたは計算違いでしょうか?計算方法は、例えば前者の場合、7.5±1.96×不偏分散の平方根/28の平方根でやってます。
- ベストアンサー
- 数学・算数
お礼
ご回答ありがとうございます。ただ、半値幅はWikipediaに、 標準偏差 σ の正規分布の半値幅は、 FWHM ≈ 2.354820 σ HWHM ≈ 1.177410 σ という記載がありますので、95%推定区間の幅とは別の物だと思います。