• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:重回帰分析のモデル式の解釈についてご教授ください。)

重回帰モデルの解釈について

このQ&Aのポイント
  • 重回帰モデルの解釈についてご教授ください。目的変数の予測にはほとんど成功せず、説明変数の効果がゼロではないことが分かります。
  • 重回帰モデルの解釈に困っている方へ。目的変数への影響を与える説明変数がわかりますが、予測精度は低いです。
  • 重回帰モデルの解釈方法について。目的変数の変動はほとんど説明できず、予測精度が低いですが、いくつかの説明変数は影響を与えることが分かります。

質問者が選んだベストアンサー

  • ベストアンサー
  • ramayana
  • ベストアンサー率75% (215/285)
回答No.3

ANo.2への補足コメント「F検定が有意でなく、いくつかの説明変数が有意」の場合 1 悩ましいご質問です。F検定は決定係数が0でないことの検定、説明変数のt検定は係数が0でないことの検定、という意味付けからすれば、どれかひとつでも説明変数が有意なら、同じ有意水準で F 検定も有意になるはず、とうのが自然な発想です。しかし、現実には、定数項以外に説明変数が 2 個以上ある場合、ご質問のようなケースが生じることがあって、解釈に窮するのです。 2 検定手法が違うのだから結果も違って当然、と言ってしまえばそれまでなのですが、まず、どのようなときにご質問のようなケースが生じやすいのか知っておくのが有益でしょう。F検定は、いわゆる F 値が F 分布に従うことを前提にしています。同様に、t 検定は、いわゆる t 値が t 分布に従うことを前提にしています。さらに、それらの背後には、 「最小二乗法のかく乱項が、平均が 0 で分散が同一の正規分布に独立に従う」 という前提があります。観測データがこの前提を満たさないとき、ご質問のようなケースが起こりやすいのです。 3 上の前提が成立しないとき、どうしたらよいか。前提が成立しないことがある程度予想できる場合があります。「内生性の存在」「時系列データにおけるかく乱項の相関の存在」などです。そのような場合は、それに対応した分析手法の研究蓄積があるので、それらの分析手法を採用してみるのが検討に値します。 4 上の手法も使えず、なおかつF検定とt検定の結果が矛盾する場合は、いつか原因究明がなされ、それに応じた分析手法が開発されるまで、判断を保留する方が賢明かもしれません。

hetaeigo1989
質問者

お礼

>>「内生性の存在」「時系列データにおけるかく乱項の相関の存在」などです。そのような場合は、それに対応した分析手法の研究蓄積があるので、それらの分析手法を採用してみるのが検討に値します。 大変勉強になりました。聞いたことあるなー程度だったので、本腰をいれて「内生性の存在」「時系列データにおけるかく乱項の相関の存在」を勉強してみます。 ご多忙中にも関わらず、回答していただき、本当にありがとうございました。

その他の回答 (2)

  • ramayana
  • ベストアンサー率75% (215/285)
回答No.2

ほぼ合っていると思います。 若干補足すると、回帰分析の目的は、予測だけにあるのではありません。とくに、社会学では、多くの要因のそれぞれについて、目的変数と関係があるかどうかを判定することの方に目的があることが多いのです。その場合、決定係数やF検定は、あまり重視されません。ですから、決定係数が小さい計測結果も、普通に使われます。 また、その場合、t 検定が有意でない説明変数が発生しますが、それも無駄ではないのです。それらの説明変数が目的変数と関係が薄そうだ、という知見が得られるからです。

hetaeigo1989
質問者

補足

>>F検定は、あまり重視されません…説明変数が目的変数と関係が薄そうだ、という知見が得られるからです。 そうなんですね。F検定があまり重要視されないこと、驚きました!勉強になります。質問なのですが、 論文で、たまにF検定(重回帰モデル)が有意でなく、いくつかの説明変数が有意だったため、説明変数と目的変数の関係を議論しているものを見かけます。 しかし、重回帰モデル(y=B0+B1x1+B2x2+…+Bnxn)において、 F検定(帰無仮説Ho:b0=b1=b2=…bn=0//対立仮説H1:B0,B1,B2,…,Bnのうち少なくとも1つは0でない) で、帰無仮説を棄却できていない場合、いくつかの有意な変数でさえ、回帰係数が0である。 ということになり、その0である有意な変数について議論することは妥当(意味のある議論)なのでしょうか。 乱文かつ浅学のため、間違った質問かもしれませんが、ご回答して頂ければ幸いです。

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.1

基本的にご指摘のとおりなのですが、 R^2(決定係数) は、相関係数のように 小数(一般に小数点以下2桁)で表示するような気がするのですが・・・。 R^2 は、目的変数 y の近似式として説明変数 x1, x2, ... をたくさん使えば使うほど、付け加えた説明変数で、強引にプラスマイナスの影響を与えて、目的変数 y により近似した「ようなフリ」だけできてしまうので、 普通は、説明変数をよほど絞らない限りは、0.05~0.10 なんていうほぼ近似できていないものを提示しない(意味がない)と思われるからです。 さて、調整済みR^2 がそこまで低いとすると、用いた説明変数の数と関連する「自由度」で調整しているはずなので、よっぽど無駄な説明変数まで入れて、y = a・x1+b・x2+・・・ という長ったらしい式をサンプル数分 y1, y2, ... , yn まで y に関する n個の式を立ててやってもほとんど近似できていない、という話になります。 ただ、その説明変数のチョイスについては、F検定で有意(これも1%~10%で有意が社会科学の定番ラインだと思いますが)なので、そのチョイスされた説明変数はおそらく目的変数を説明するのに意義があるものであり、 説明変数を単独でt検定してみたときに有意(同上)で、目的変数 y を表記するモデル式に使われる価値がある説明変数だろう、という主張なのだろうとは思います。

hetaeigo1989
質問者

補足

>>用いた説明変数の数と関連する「自由度」で調整しているはずなので、よっぽど無駄な説明変数まで入れて、y = a・x1+b・x2+・・・ 一番多くの説明変数を投入しているモデルは15個の説明変数を投入していました。

関連するQ&A