• ベストアンサー

推定・検定の概念がきちんと理解できていません。分かりやすく解説のあるサ

推定・検定の概念がきちんと理解できていません。分かりやすく解説のあるサイト等あれば教えていただきたいです。 また、「全てをσで語る。しかもn=5」といった内容はどこが大きな問題点なのでしょうか?標準偏差以外にデータのばらつきを示す指標が存在し、普通標準偏差以外にも求める必要がある。もしくは、n=5は母集団の数としては少なすぎて評価できない。ということなのでしょうか? 解説をよろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.2

一つ目については、私がお勧めするのは「ハンバーガーショップで学ぶ楽しい統計学」です。 二つ目については、「全てをσで語る。しかもn=5」というのがどんな状況で使われたのかがわからないので、確実なことは言えませんが、あなたが書かれたことで概ね正解なのではないでしょうか? 実際、標準偏差以外にデータのばらつきを示す指標というのは、範囲、四分位範囲、平均偏差(平均からの偏差の絶対値の平均)、MAD(中央値からの偏差の絶対値の中央値)等色々あります。 平均に対して対称な分布なら平均と標準偏差のみ求めれば良いかもしれませんが、分布に偏りがあった場合平均と標準偏差だけでは足りないかもしれません。 また、n=5ではσを推定したとしても信頼区間が広すぎるため先の言い方になったのではないかと思います。 例えば、正規分布に従う母集団から大きさが5の標本を取り出し、その母数の標準偏差を推定したいとします。 σの推定値として不偏分散の平方根sqrt{Σ(x-m)^2/(5-1)}(mは平均)を選び、その値が10であったとします。 このとき、その95%信頼区間はΣ(x-m)^2/σ^2が自由度4のカイ二乗分布に従うことから、 L < Σ(x-m)^2/σ^2 < U (U, Lは自由度4のカイ二乗分布の2.5%, 97.5%点) → Σ(x-m)^2/U < σ^2 < Σ(x-m)^2/L → sqrt{Σ(x-m)^2/U} < σ < sqrt{Σ(x-m)^2/L} となります。 数値をいれて計算してみると5.99 < σ < 28.74、つまり推定値の半分から3倍近くとかなり幅広いものとなることがわかります。 あと、 > n=5は母集団の数としては少なすぎて評価できない。 と書かれていますが、ここで母集団と書くのは間違いです。標本の大きさ(サンプルサイズ又は標本サイズ)と言わなければいけません。

参考URL:
http://kogolab.jp/elearn/hamburger/

その他の回答 (1)

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.1

どういう分析をしたので、「全てをσで語る。しかもn=5」と指摘されたのかはわかりませんが。 何回か・何サンプルか測定したデータについて、出た回数を棒グラフにすると、次のヒストグラムのようなものができます。 平均と標準偏差 http://www.cap.or.jp/~toukei/kandokoro/html/14/14_2migi.htm これを見るとわかるように、中央の値が一番回数が多く、それから大きいほうや小さいほうにずれた測定データは回数が少ない(ほとんどなくなる)と思います。 そういう、測定したときにどの範囲に何%の確率で値が出るか、というのを表したのが正規分布という釣り鐘のような形のグラフです。何回も測定した平均値が一番高く、大きい方や小さい方の値が測定されてしまう確率はごくわずか、というのを表します。 (もし、こういう分布になっていない場合は、そもそも正規分布だと考える前提が間違っているかもしれません。そういう場合は、標準偏差を求めて議論すると、間違った前提から議論することになり無意味となります。これが、ある程度サンプル数が必要な理由です。) 平均値からどれだけ離れると確率がどれだけになるか、という目安となるのが標準偏差(偏りがどれだけあると確率がどれだけ変わるかの目安)です。平均値(μ)から標準偏差(σ)分だけプラス・マイナスした範囲に入る確率は68.26%です。 正規分布と標準偏差 http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/normdist/hyojunhensa.html これを見ると、Aを100回測定したとき、その測定値の68個くらいは、平均値から±1σの範囲に収まっているはずです。でも、残りの32個くらいはそれよりも大きく外れた値が出ることもあるのです。 そうなると、Bを測定したときに、それがAのばらつく範囲に入っているのか、全然離れたところにあるのか、の確率(可能性)がわかります。Bを測定したのに、Aの平均値±1σの値(平均から1σ離れた値)が出たなら、68%くらいの確率でAとは違うのかもしれないな、でもAと同じ確率も32%くらい残っているな、とわかります。 Bを測定したときに、Aの平均値±3σの値が出たなら、99.73%の確率でAとは違うことがわかります。(Aと同じ確率は0.27%くらいしかありません) こうやって、正規分布でばらつく範囲を表す目安とするのが標準偏差で、平均値から標準偏差の何倍離れているかで、その正規分布のサンプル(グループ)に含まれるデータなのか、全く別のグループのデータなのか、という判断をします。 同じグループのサンプルならこの範囲の値がでることもあるだろう、というのが推定(信頼区間)です。それを基に、これだけ離れた値が出ていれば違うグループだろう、というのが検定(有意差)です。 良くあるのが、95%の確率で同じグループだが、5%の確率で違うグループ、という線引きです。95%信頼区間の線引きであり、それを外れるデータ・サンプルは有意差がある(5%有意、p=0.05)というわけです。

関連するQ&A

  • 統計的推定検定の、既知、未知について

    こんばんは。 母平均の差の検定、母分散の差の検定などである、 母標準偏差の既知か、未知かなどですが、 なんとなくわかるのですが、具体的にといわれれば、 線引きがうまく理解できずにいます。 こういう事例が既知、こういう事例が未知というのが あれば、教えてください。 全数サンプルがとれる規模の母集団で、全サンプル を採取し、平均、標準偏差がもとめていることができ れば、既知ですか? でも、そこまで把握できているのなら、検定、推定、 いらなんじゃないかなぁとも思います。 だから、既知、未知の区別がよくわからなくて・・・ 例えば、A組の学生全員の身長のデータがとれたら、 既知だと思いますが、全員のデータがとれているの だから、検定、推定などいらないのでは? 既知なのに検定、推定という意味がよくわからなく。。。 勉強、初心者なので、的外れな質問であれば、 お許しください。 お手数をおかけしますが、よろしくお願いいたします。

  • 統計学の練習問題 解説が理解できないので…

    統計学の練習問題を解きたいのですが、解説が理解できないので教えてください。 「世帯数が約10万の市でn世帯を無作為に抽出して各世帯の人数を調べて市の人口を推定する。 推定量の変動係数を5%以下にするためには 抽出する世帯数nはおおよそいくら必要か。 ただし母集団の変動係数は1.0以下であることがわかっている。」 解説には 「世帯数を推定するのに推定量の分散が最大となる場合、つまり母集団の変動係数が1.0である場合を考えて、この場合でも推定量の変動係数が5%以下になるように標本サイズを定めればよい。標本サイズをnとするとき、標準誤差が1/√nとなることより、変動係数は1/√nとなる。これが5%以下になるためには、標本サイズは(1/0.05)^2=400以上あればよい。」 と書いてあります。 理解できないのは、 『標本サイズをnとするとき、標準誤差が1/√nとなることより、変動係数は1/√nとなる。』 この部分です。 変動係数=標準偏差/平均値 標準誤差=標準偏差/√n というのは調べました。 どうして『』のような流れになるのでしょうか? 教えてください。よろしくお願いします。

  • 統計的推定の進め方

    いつも大変お世話になります。 表題の件に関し、 例えば母平均の推定を行う際に、サンプリングn=20、の標準偏差とAVが求められているとしますが、この個々のサンプリングn=20の適合度検定(カイ二乗検定)を行うと、検定結果が、棄却→正規分布に適合してないしていない場合、母平均の推定を進めても良いものでしょうか。それとも、適合度検定が棄却された段階で、正規分布が適合されるまでnを増やしてサンプリングをつずけてから、区間推定に移った方がよいのでしょうか?(n=150以上になれば中心極限定理で正規分布かされることは理解しています。) 話が変わるかもしれませんが、 検定では正規分布かされているかどうかで(n=100以上は除く)、検定方法がかわったので(例えばノンパラメトリック)、推定ではそのような制約がないのかご教授願いたい。

  • 検定に付いて

    分野違いかもしれませんが、ご存じの方が居られれば教えて下さい。 中心極限定理で、”母集団(母平均値:μ/母標準偏差:σ)から抜き取った標本は、σ/√nの正規分布に従う・・・・・・・”と有ります。 母標準偏差が既知の時には、母標準偏差を使用して、標本サンプルの分散=σ/√nで検定するの理解出来るのですが、母標準偏差が未知の時は、標本サンプルの標本標準偏差とサンプル数を使用して、標本サンプルの分散を計算して、検定を行いますが、この場合、使用する標準偏差は、母標準偏差では無いので、中心極限定理と違うと思うのですが。 何方か、ご存じの方がおられれば教えて下さい。 以上

  • 標準偏差の評価において妥当なデータ数は幾つか?

     標準偏差や分散などのデータのばらつきを調べる場合、評価の対象にするデータ数が多い程、その母集団の性質に近くなります。しかし、評価するデータ数が2個では、それから標準偏差を求めても、それが母集団の性質を表す数値とは言い難いです。評価するデータ数が幾つ以上であれば、その標準偏差や分散が意味のある値となるのでしょうか?一般的に。

  • 標準偏差のstdevは自由度から1を引くのはなぜ

    データそのもののばらつきを表したいとき、エクセルの標準偏差は「STDEVP」を使います。 データが、ある母集団から得られたサンプルで、その母集団のばらつきを表したいとき、「STDEV」を使います。 STDEVPの計算式にn(データ数のことですよね?)というのがありますが、これがSTDEVではn-1になりますよね。 なぜ、母集団のばらつきを表したいときは1を引くのか、いまいちよくわかりません。 ちなみに統計学に関しては、大学で習い始めたところですので、かなりの初心者です。 アドバイス頂けると嬉しいです。 よろしくお願いいたします。

  • 単純回帰モデルの優位性検定

    大学の練習問題で出題された問題ですがなぜ説明変数の数が1になるのか理解できません。 「問題」  単純回帰モデル:y=a+bX+u の推定結果に基づいて、以下の問いに答えなさい。 (  )内の数字は上段が回帰係数の標準誤差、下段がt値を示しています。 ∧ Y=14.107+1.224X (1.863)(0.061)  R2(2乗)=0.9760 (7.751)(20.166)  n=12 という問題で解説が t検定の自由度はサンプルの数をn、説明変数の数をkとすると n-k-1=12-1-1=10 となっていてn=12は記載されているので理解できたのですが、k=1が分かりません。 何か計算によって出ているのでしょうか? 得意な方解答お待ちしています。

  • T検定? 有意水準を求めたく、T検定について調べています。

    有意水準を求めたく、T検定について調べています。同じ被検者のデータに対し2種類の評価方法で評価しました。その時の有意差水準を求めたいと思っています。 分かっているのは、それぞれの平均値、標準偏差、データ数(評価回数)のみです。またデータ数(評価回数)は同じ数です。 このような時はどのようにして有意水準を求めればよいのでしょうか?また有意水準を求めることは可能でしょうか? 初心者でほとんど検定についての知識はありません。 よろしくお願いいたします。

  • 最大値の平均と標準偏差

    仕事で解が解けずに悩んでいます。助けてください。 平均値E(1)~E(N) 標準偏差V(1)~V(N)の正規分布の確率分布を持つN群の独立した事象があるとします。各集団のn数は等しく十分に大きいものとします。 このときに各集団から1つづつ任意にサンプルをNコ取り出して、その最大値がどのような確率分布(平均と標準偏差)になるか、一般解を求めたいと考えています。 もっとも単純な例として、等しい分布の集団から2コ取り出す例で 平均:E(1)=E(2)=150 標準偏差;V(1)=V(2)=50とおいてn=5000で実数検証してみると、最大値の分布は E=178 V=40ぐらいになりました。 処理時間ばらつきを持つ工程をNコ連続配置したときにスループットがどのようになるかの推定が目的です。

  • モーメント法による母集団の偏差σの推定

    X1,X2,...,Xnが独立に正規分布N(0,σ^2)に従うときの母集団の偏差σを推定したいのですが、モーメント法で推定するにはどうすれば良いのでしょうか? 分散σ^2ならS=(1/n-1)Σ(Xi-Xbar)^2の期待値がσ^2になるので簡単なんですが、偏差σはどう推定すれば良いのでしょうか? お分かりの方、お教え願います。