ベストアンサー

統計の検定と信頼区間について

2008/12/13 19:16

統計学で検定，信頼区間について勉強しています。参考書を読んで理解に努めているのですが，どうもよく分かりません。＜信頼区間＞ http://dl.cybernet.co.jp/matlab/support/manual/r2007/toolbox/matlab/data_analysis/?/matlab/support/manual/r2007/toolbox/matlab/data_analysis/bqm3cio-1.shtml 上記リンクにおける2次多項式の信頼区間について，信頼区間とは，データを発生した真の回帰式のパラメータに対して，推定したパラメータがどれだけ信頼できる値であるかを示しているという解釈でよろしいのでしょうか？＜検定＞（http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html）回帰における検定で，回帰係数の真の値がゼロでないかどうかを調べるとあるのですが，なぜこれを調べるのでしょうか？また，検定は上記の信頼区間の推定とどう関っているのでしょうか？

nnsvm
お礼率16% (39/239)

数学・算数
回答数4
ありがとう数6

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

Ishiwara
ベストアンサー率24% (462/1914)

2008/12/15 22:24 回答No.3

＃２です。 >> 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間です。 > 信頼できる区間内に真の値があるということは，もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか？「信頼区間の中に真の値がある」とする「帰無仮説」は棄却されません。実は、それが「信頼区間」の定義そのものだ、と言っても差支えがないでしょう。検定することと、信頼区間を求めることは、兄弟のようなものです。検定は、１つの仮説を立てて、それが棄却されるかどうかだけを調べます。信頼区間を求める、ということは、無数に多くの仮説を検定して、どこを境目として検定結果が分かれるのかをさぐることと同じです。実際には無数回の検定を実行するわけではありません。信頼区間を－∞から＋∞までずっと眺めて行くと、多くの場合「棄却される域」～「棄却されない域」～「棄却される域」のサンドイッチ構造になります。この中央にある「棄却されない域」が「信頼区間」です。

質問者

お礼 2008/12/18 10:35

回答ありがとうございます。信頼区間と検定の関係が理解できました。

その他の回答 (3)

rabbit_cat
ベストアンサー率40% (829/2062)

2008/12/16 03:26 回答No.4

＞＞”予測された応答における”信頼区間は，推定したパラメータから計算されるｙ^が真の値ｙを表すのにどれだけもっともらしいか，つまり，ｙ^ がｙの予測値として信頼できる領域＞ということで＞＞＞”回帰係数”自体の信頼区間＞真のパラメータに対して，推定したパラメータ（切片，傾き）がもっともらしい領域＞という理解でいいのでしょうか？＞そうすると，「”予測された応答における”信頼区間」と「”回帰係＞数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。理解（前半部）はまあ正しいんだと思いますが、そこから、何故この２つが同じになりそうというイメージが沸くのかがよく分からないです。全く別のものですよ。たとえば、母集団が Y = aX + b + N という関係を持っていたとすると、（Ｎは正規分布に従う乱数）たとえ、回帰係数の真の値（aとb）を知っていたとしても、回帰式 Y' = aX + b で計算したY'と真の値Yの間には、Ｎの分だけ誤差が残るでしょう。

質問者

お礼 2008/12/18 10:37

そうですね，ノイズを考える必要があるのですね。自分の理解不十分でした。

Ishiwara
ベストアンサー率24% (462/1914)

2008/12/14 11:32 回答No.2

【信頼区間】 <どれだけ信頼できる値であるかを示す、という解釈でよいか？> この表現自体が非常に不明確です。実に信頼区間の定義は説明しにくいのです。説明の一つの試み：信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間。裏返せば、その外側に真の値があると仮定した場合には、その帰無仮説が棄却されるような区間。【回帰における検定】 <回帰係数の真の値がゼロでないかどうかを調べるのはなぜ？> 「真の値がゼロ」つまり「ｘとｙはもともと何の関係もない」場合であっても、回帰係数を計算すると、ほとんどの場合ゼロでない数値が得られます（これは自然のバラツキによるものです）。しかも、回帰係数は、ｘに対するｙの「傾き」を指すのであって、「大きければ関係が強い」ということにはなりません。そこで「関係の強さ」は別の観点から調べないといけません。具体的には「ｘとｙは無関係」という帰無仮説が棄却されなければ、係数を算出しても意味がない、よいうことが言えます。

質問者

補足 2008/12/14 13:48

＞＞信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間信頼できる区間内に真の値があるということは，もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか？ http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm つまり，http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html　の式（1.24）（1.25）から信頼区間を求めることで検定をすればよいということですね？

rabbit_cat
ベストアンサー率40% (829/2062)

2008/12/14 04:55 回答No.1

＜信頼区間＞についておそらく正しくないです。そのページに書かれている信頼区間は、そのページに書いてあるように、 ”予測された応答における”信頼区間でしょう。これと、 ”回帰係数”自体の信頼区間は全く別の話です。「おそらく」と書いたのは、Matlab のpolyfit等の中身の詳細を知らないため、そのページの字面だけで判断したので。＜検定＞についてそのページにも書いてあるように、「ある特定の説明変数が目的変数の予測に役立っているかどうか」は、興味の対象になることが多いです。「オッカムの剃刀」 http://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%83%E3%82%AB%E3%83%A0%E3%81%AE%E5%89%83%E5%88%80 ていうように、なんか物事を説明するとき、単純なモデルほどよいモデルなんです。極端な話、パラメータを１００個とか１０００個とか、増やしていけば、回帰誤差はどんどん減っていくでしょうけど、それでなにか説明したことになっていますか、ということです。回帰係数が０ってことは、そのパラメータは、その出来事を説明するのに必要ではない、ってことがわかります。

質問者

補足 2008/12/14 12:43

＞＞”予測された応答における”信頼区間は，推定したパラメータから計算されるｙ^が真の値ｙを表すのにどれだけもっともらしいか，つまり，ｙ^ がｙの予測値として信頼できる領域ということで＞＞”回帰係数”自体の信頼区間真のパラメータに対して，推定したパラメータ（切片，傾き）がもっともらしい領域という理解でいいのでしょうか？そうすると，「”予測された応答における”信頼区間」と「”回帰係数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。検定についてのアドバイスを読ませていただいた理解として，回帰における検定は，要するに主成分分析における寄与率を求めて不要な説明変数を削る作業ということでいいのでしょうか？また，検定と信頼区間をからませるためには，”回帰係数”自体の信頼区間を考えなければならないということになるのでしょうか？

統計の検定と信頼区間について