• ベストアンサー

統計の検定と信頼区間について

統計学で検定,信頼区間について勉強しています。 参考書を読んで理解に努めているのですが,どうもよく分かりません。 <信頼区間> http://dl.cybernet.co.jp/matlab/support/manual/r2007/toolbox/matlab/data_analysis/?/matlab/support/manual/r2007/toolbox/matlab/data_analysis/bqm3cio-1.shtml 上記リンクにおける2次多項式の信頼区間について, 信頼区間とは,データを発生した真の回帰式のパラメータに対して, 推定したパラメータがどれだけ信頼できる値であるかを示しているという 解釈でよろしいのでしょうか? <検定>(http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html) 回帰における検定で,回帰係数の真の値がゼロでないかどうかを調べる とあるのですが,なぜこれを調べるのでしょうか? また,検定は上記の信頼区間の推定とどう関っているのでしょうか?

  • nnsvm
  • お礼率16% (39/239)

質問者が選んだベストアンサー

  • ベストアンサー
  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.3

#2です。 >> 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間です。 > 信頼できる区間内に真の値があるということは,もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか? 「信頼区間の中に真の値がある」とする「帰無仮説」は棄却されません。実は、それが「信頼区間」の定義そのものだ、と言っても差支えがないでしょう。 検定することと、信頼区間を求めることは、兄弟のようなものです。検定は、1つの仮説を立てて、それが棄却されるかどうかだけを調べます。信頼区間を求める、ということは、無数に多くの仮説を検定して、どこを境目として検定結果が分かれるのかをさぐることと同じです。 実際には無数回の検定を実行するわけではありません。信頼区間を-∞から+∞までずっと眺めて行くと、多くの場合「棄却される域」~「棄却されない域」~「棄却される域」のサンドイッチ構造になります。この中央にある「棄却されない域」が「信頼区間」です。

nnsvm
質問者

お礼

回答ありがとうございます。 信頼区間と検定の関係が理解できました。

その他の回答 (3)

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.4

>>”予測された応答における”信頼区間 は,推定したパラメータから計算されるy^が真の値yを表すのに どれだけもっともらしいか,つまり,y^ がyの予測値として信頼できる領域 >ということで >>>”回帰係数”自体の信頼区間 >真のパラメータに対して,推定したパラメータ(切片,傾き)がもっともらしい領域 >という理解でいいのでしょうか? >そうすると,「”予測された応答における”信頼区間」と「”回帰係>数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。 理解(前半部)はまあ正しいんだと思いますが、そこから、何故この2つが同じになりそうというイメージが沸くのかがよく分からないです。 全く別のものですよ。 たとえば、母集団が Y = aX + b + N という関係を持っていたとすると、(Nは正規分布に従う乱数) たとえ、回帰係数の真の値(aとb)を知っていたとしても、回帰式 Y' = aX + b で計算したY'と真の値Yの間には、Nの分だけ誤差が残るでしょう。

nnsvm
質問者

お礼

そうですね,ノイズを考える必要があるのですね。 自分の理解不十分でした。

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.2

【信頼区間】 <どれだけ信頼できる値であるかを示す、という解釈でよいか?> この表現自体が非常に不明確です。実に信頼区間の定義は説明しにくいのです。 説明の一つの試み: 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間。裏返せば、その外側に真の値があると仮定した場合には、その帰無仮説が棄却されるような区間。 【回帰における検定】 <回帰係数の真の値がゼロでないかどうかを調べるのはなぜ?> 「真の値がゼロ」つまり「xとyはもともと何の関係もない」場合であっても、回帰係数を計算すると、ほとんどの場合ゼロでない数値が得られます(これは自然のバラツキによるものです)。 しかも、回帰係数は、xに対するyの「傾き」を指すのであって、「大きければ関係が強い」ということにはなりません。 そこで「関係の強さ」は別の観点から調べないといけません。具体的には「xとyは無関係」という帰無仮説が棄却されなければ、係数を算出しても意味がない、よいうことが言えます。

nnsvm
質問者

補足

>>信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間 信頼できる区間内に真の値があるということは,もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか? http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm つまり,http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html の式(1.24)(1.25)から信頼区間を求めることで検定をすればよいということですね?

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.1

<信頼区間>について おそらく正しくないです。 そのページに書かれている信頼区間は、そのページに書いてあるように、 ”予測された応答における”信頼区間 でしょう。 これと、 ”回帰係数”自体の信頼区間 は全く別の話です。 「おそらく」と書いたのは、Matlab のpolyfit等の中身の詳細を知らないため、そのページの字面だけで判断したので。 <検定>について そのページにも書いてあるように、 「ある特定の説明変数が目的変数の予測に役立っているかどうか」 は、興味の対象になることが多いです。 「オッカムの剃刀」 http://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%83%E3%82%AB%E3%83%A0%E3%81%AE%E5%89%83%E5%88%80 ていうように、なんか物事を説明するとき、単純なモデルほどよいモデルなんです。 極端な話、パラメータを100個とか1000個とか、増やしていけば、回帰誤差はどんどん減っていくでしょうけど、それでなにか説明したことになっていますか、ということです。 回帰係数が0ってことは、そのパラメータは、その出来事を説明するのに必要ではない、ってことがわかります。

nnsvm
質問者

補足

>>”予測された応答における”信頼区間 は,推定したパラメータから計算されるy^が真の値yを表すのに どれだけもっともらしいか,つまり,y^ がyの予測値として信頼できる領域 ということで >>”回帰係数”自体の信頼区間 真のパラメータに対して,推定したパラメータ(切片,傾き)がもっともらしい領域 という理解でいいのでしょうか? そうすると,「”予測された応答における”信頼区間」と「”回帰係数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。 検定についてのアドバイスを読ませていただいた理解として, 回帰における検定は,要するに主成分分析における寄与率を求めて不要な説明変数を削る作業ということでいいのでしょうか? また,検定と信頼区間をからませるためには,”回帰係数”自体の信頼区間を考えなければならないということになるのでしょうか?

関連するQ&A

  • 【統計学】 区間推定すれば仮説検定は不要?

    区間推定すれば仮説検定は 必要ない気がするのですが思い違いでしょうか? 例えば、区間推定によって、ある母平均μの95%信頼区間が 「-10<μ<+10」と求まったとします。 このとき、仮説「μ=μ0」を有意水準5%で検定したとすると、 「-10<μ0<+10」のとき仮説は受容され、 「μ0<-10」または「μ0>+10」のときに仮説は棄却されるのですよね。 だとすれば、なぜどういう場面で仮説検定が必要になるのかが よくわからないのですが、教えていただけますか?

  • 信頼区間0%

    統計でよく用いられる信頼区間についての質問です。 95%信頼区間の意味は「真の値を95%の確立で含んでいる区間」ではなく、「100回中95回は真値を含む」という意味であることはなんとなく理解出来ているつもりでいるのですが・・・。 リスク差の信頼区間を出す問題なのですが、 「0%信頼区間は何を意味しているのか」、という意地悪な質問をされて困っています。 分かる方は是非教えてください! よろしくお願い致します。

  • 90%の信頼区間における区間推定

    統計学の区間推定に関する質問です。 このとき、標本平均は標準正規分布に従っているものとします。 95%の信頼区間の場合、標準正規分布から1.96のときちょうど0.9750なので、-1.96<X<1.96と割り出すことができますよね。 ところが90%の信頼区間の場合、ちょうど0.9500になる値がありません。 これに近い値では0.9495(1.64)と0.9505(1.65)とがありますが、どちらも0.9500との差は0.0005ですよね。 この場合、1.64と1.65のどちらの値を採用すればよいのですか?

  • 回帰式の信頼区間について

    現在,実験で得られたデータを散布図にし,回帰式を計算しています(JMPやIGORソフト使用). この回帰式を使って様々な計算をしたいのですが,データにはばらつきが多く,R二乗値が0.4ほどなのです. そこで,このばらついたデータのうち,明らかに異常だと思われるものを削除して,フィットした回帰式を得たいのです. 回帰式の信頼区間から外れたデータを削除すれば,回帰式はフィットする,というものでは無いのでしょうか. 信頼区間とは,そもそも何なのか,を調べていますがよく理解できません.. ご存知の方,どうぞ教えてください. よろしくお願いします.

  • 統計学の正規分布、信頼区間について質問です。

    問1、ある錠剤のA成分の含有量を9回測定して標本平均6.85mg、標本標準偏差0.006mgを得た。測定値は正規分布に従うと仮定して、A成分の含有量の真の平均を95%信頼区間で推定せよ。 問2、同年齢の身長は正規分布に従っていると考えられる。15歳の男子10人を無作為抽出して測定したところ169,155,163,164,151,162,160,150,156,150の結果を得た。15歳の男子の平均身長および分散を95%信頼区間で推定せよ。 この二つの問題がいくら考えてもわからないのでわかる方居ましたら解答・解説をご教示願います。よろしくお願いします。

  • 分析法バリデーションで求める信頼区間について

    お世話になります. 現在,仕事で分析法バリデーションを行っておりますが, 真度の信頼区間は一般的に95%信頼率から算出されるのに対し, 併行精度および室内再現精度の信頼区間は90%から算出されます. なぜ,この2つの分析能パラメータで信頼区間の水準が異なっているのでしょうか? お分かりの方がおられましたら,回答頂けると幸いです. よろしくお願いします.

  • 信頼区間の意味

    気になってしまって、明確な答えを探し出すことができなかったので質問します。 単回帰分析などを行ったとき、信頼区間といって双曲線を画くグラフを書くと思います。 双曲線を画くのは、母回帰の中心を支点として回帰線がばらつく範囲を示していると理解しました。 まず、これはあっているでしょうか? その次に、なぜ中心のデータに重きを置いて考えるのかという意味を教えていただきたいと思います。 正規分布・X軸Y軸それぞれの平均を通る直線である ということが関係しているのかなと自分ではおぼろげながら思っています。 よろしくお願いいたします。

  • 信頼区間 正規分布しない場合

    信頼区間を求める方法として、「標準正規分布では値が1.96以上の曲線下の面積と、-1.96以下の面積を合計すると0.05である。そこで平均から標準誤差SEに1.96の値をかけ算した値を引いた値と足した値の範囲に真の値が含まれるはずと言うことになる。これを95%信頼区間という」と本に記載されていました。母集団が少なく、正規分布していないであろうと思われるサンプルであっても、この方法に従い信頼区間を算出することは適切でしょうか? 具体的には以下の2群のそれぞれについて95%信頼区間を知りたいのです。 統計については素人なので的はずれな質問かも知れません。 X 209.1 280 91 124 80.57884211 67 152.2 88.584 138.0215385 112.43 115.71 97 128 144 Y 145.035 113.2352941 143.5 117.25 62 78 58 79.5 68.49975 73.85728571 81.61222222 190.5 58 179.25 84 76.6665 168.92 76.76

  • 信頼区間とt検定

    「ハンバーガー統計学にようこそ! ハンバーガーショップで学ぶ楽しい統計学──平均から分散分析まで──」 というサイトで,統計の勉強をしています。 http://kogolab.jp/elearn/hamburger/index.html 大学の個別化教授システムで使えるように開発されたものを,web公開されているということです。 「4. t検定(対応なし)」の章でいくつかわからない点があるのですが,詳しい方教えていただけませんでしょうか。 http://kogolab.jp/elearn/hamburger/chap4/sec0.html わくわくバーガーとモグモグバーガーという2店のハンバーガーの味の評価を比較するという設定です。 ランダムに選んだ女子高生に,1人目はワクワクバーガー,2人目はモグモグバーガー,3人目はワクワクバーガー…と食べてもらい,味の評価点をつけてもらいます。 そしてワクワクの8個の評価点とモグモグの8個の評価点を統計手法で比較していきます。 平均,分散を求め,標本の差の信頼区間を求め,t検定を行います。 ワクワクの評価点と,モグモグの評価点は,母集団Aと母集団Bから抽出された標本A,Bとして扱われています。 このページの「信頼区間を差に適用してみる」のところで, http://kogolab.jp/elearn/hamburger/chap4/sec2.html 「平均の差の信頼区間=(標本平均A-標本平均B)±t×差の標本標準誤差」を求めているのですが,「差の標本標準誤差」を求める過程で「AとBの母分散は等しいとして、「推定母分散」と表記する」としています。 でも,母集団Aは「ワクワクバーバーを食べた人全員の評価点」,母集団Bは「モグモグバーガーを食べた人全員の評価点」だと思うのですが,どうしてその分散が等しいと仮定できるのでしょうか。(片方のバーガーの方が,人によって評価の差があるというか,好みが分かれやすいというのはありえると思うんですが…) こういう仮定は,差の信頼区間を求める場合,普通に行われる議論なのでしょうか。 また,ここで等しいと仮定できない場合,この後,どのように式を求めていくのか,ご存知でしたら教えていただけませんでしょうか。 実際にこの計手法を応用したいのは,化学実験のデータなのです。同じ検体に,試験法AとBを適用した場合に,結果に差があるかどうかを,数回の実験から推定したいということです。試験法Aのすべての結果が母集団A,試験法Bが母集団Bとなります。 この場合,試験法によって,結果の数値の平均値にずれが出ることもありますし,平均値は同じでも,片方の試験法の方が数値のバラツキが大きい場合もありえます。 ですので,母集団A,Bの母分散A,Bが一致するという仮定があっては,私の使いたい場合には応用できないと思うのですが,どうなのでしょうか。 このままの考え方では応用できない場合,どのように式を求めたらよいのでしょう。 それから,信頼区間と検定の解釈がよくわかりません。 同じページの「差の信頼区間の解釈」で「ワクワクバーガーとモグモグバーガーの評価点の差は、5点でした。しかし、その信頼区間には、0点が含まれていました。つまり、母集団においてその差が0点であること、つまりワクワクバーガーとモグモグバーガーの評価には差がないということが、十分起こり得ることだと解釈できます。」という「結論」のようなものが出ています。 ところが次のページから「4.3 t検定」が始まり, http://kogolab.jp/elearn/hamburger/chap4/sec3.html 「t検定の考え方」のところに「さて、計算したtは、-1.29でしたので、5%有意水準での棄却域には入っていません。したがって帰無仮説は棄却できません。結論としては、ワクワクとモグモグの評価点の平均には差がないということになります。」と,また結論が出ています。 この結論は同じことを言っているのでしょうか。それとも違う意味があるのでしょうか。 実際の統計処理を行う場合,両方の結論を出さなければならないものなのでしょうか。片方出せばよいのでしょうか。 片方が「差がない」,片方が「差がある」という結論が出る場合もあるのでしょうか。その場合はどのように判断をすればよいのでしょう。 統計は何度勉強しようとしても,なかなか理解できず,困っています。 この教材は割とわかりやすいかと思ってはじめたのですが,やっぱりいろいろ引っかかっております。 詳しい方いらっしゃいましたら,なるべく初心者向きの解説をお願いできませんでしょうか。 よろしくお願いいたします。

  • 統計学(母オッズ比の推定・検定)

    こんにちは。コホート研究において、母オッズ比の区間推定および母オッズ比の検定結果が併記されることがあります。初歩的な質問かと思いますが、宜しくお願い致します。 質問1:母オッズ比の検定は、「母集団のオッズ比が1か」または「オッズ比が1の母集団から抽出した標本か」を検定しているのですか? 質問2:母オッズ比の検定は、「母オッズ比の推定される区間が1をまたぐのか」を見ているのですか?言い換えれば、信頼区間が95%で、有意水準が0.05の場合、信頼区間が表示されていれば、母オッズ比の検定結果が有意であるかは明らかなのですか?