• ベストアンサー

多重共線性について

重回帰分析においては,変数間の相関関係から多重共線性が非常に重要な問題であることは以下のサイトから理解しました。 http://blogs.yahoo.co.jp/pironotakarabako/1048887.html この多重共線性の問題は,重回帰分析のような回帰モデルが線形回帰の場合だけに発生する問題なのでしょうか?他の多項式モデルや非線形回帰モデルの場合にもやはり多重共線性は発生するのでしょうか?

  • nnsvm
  • お礼率16% (39/239)

質問者が選んだベストアンサー

  • ベストアンサー
  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.1

多重共「線」性 と言うと、この「線」は、通常 曲線ではなく直線を指しているのですが、 同じようなことは、非線形モデルでも起こります。 例えば、理論的に y = x^2 で説明される現象に 関するデータ (y, u, v) の系列を実験で得た場合、 y を (u, v) の関数で表そうとすると x が同じ値になる範囲で u, v に自由度があり、 関数がひとつに決まりません。無理にひとつに 決めてしまうと、実験値に含まれる偶発的な要因に 影響された式が現れます。 y = f(x), x = g(u, v) に関して、g( ) が未知であれば、 { (y, u, v) } のデータだけからは、f( ) は決定できません。

関連するQ&A

  • 重回帰分析(多重共線性)について

    いつもお世話になっております。 重回帰分析における交互作用に関して質問させていただきます。 Y = α + β1X1 + β2X2 + β3X3 + β4X4 + β5X1X4 という回帰モデルがあり、 X4に関しては0または1をとるダミー変数です。 説明変数としてX1とX4の交互作用を投入しているのですが、 上記モデルを用いて分析を行うと多重共線性の問題が発生します。 さまざまな文献を読んで、通常、標準化ないし平均化(各変数ごとにその平均を引き変数の平均をゼロにすること) を行うことによりこのような多重共線性には対処できるということがわかったのですが、 あいにく、この場合にはX4がダミー変数であるため平均化(標準化)いう作業を行うことができません。 今回のような多重共線性に関する問題を適切にクリアする方法をご存知であれば、 ご教示のほどよろしくお願いいたします。

  • 多重共線性の検定

    重回帰分析をしています。 説明変数は2つなのですが、多重共線性があるのかないのかで判断に困っています。 説明変数間の相関は、0.5前後(n=18~24)で、比較的高いほうだと思います。 解析結果には特に不備な点は見つからないのですが、2変数の関係が気になります。 統計ソフトはエクセル統計2006が手元にあるのですが、このバージョンでは検定ができません。フリーソフトのRも試してみたのですが、使用方法がわからない部分が多いのと、うまく起動できないのとで困っています。 多重共線性の検定には、VIFやトレランスなどがあるようですが、こういった検定は特別なソフトがないとできないのでしょうか? もし、ソフトなしでできる多重共線性の検定法がありましたら、ご教示ください。

  • 線形回帰分析:多重共線性と主成分回帰について

     最小二乗法による線形回帰モデルのあてはめについて,説明変数間に多重共線性がある場合,回帰係数の信頼性や予測精度が低下すると習いました.これを防止する方法として,元の説明変数行列の主成分を説明変数としてあてはめを行う主成分回帰(PCR)等があるようです.  しかし,説明変数行列の線形変換は,回帰モデルのあてはめ値(fitted values),残差,新たなデータに関する予測値に影響を与えません.主成分も線形変換の1つなので,元の説明変数と同数の主成分を説明変数に用いる場合,全く同じあてはめ値,残差,予測値が得られます. それでは,主成分回帰は何故,多重共線性による回帰係数の信頼性,予測精度の低下を防止する手段と言えるのでしょうか? (主成分回帰の狙いは,元の説明変数より少数の重要な主成分のみを説明変数に用いることにもあるようですが,これは,多重共線性の問題の防止とは関係ないと思います.) 勘違いしている点もあるかもしれないので,コメントを頂ければ嬉しいです。

  • 重回帰式の応用

    重回帰分析の結果と回帰式の使い方、応用の方法について質問です。相関係数0.85、決定係数0.72と出たのですが、全部で7つの説明変数のうち6つは有意ではありませんでした。多重共通性の問題に該当する説明変数を省き、再度分析したのですが結果として有意と判断されるのは1つの要因のみでした。そこで、その1つの要因に対して単純回帰分析を行うと相関係数0.72、決定係数0.51と重回帰分析よりも数値が低下してしまいました。この場合有意性の問題を無視し、はじめの重回帰式を用いて被説明変数を求めること(有意ではない説明変数を多く使うことで、被説明変数の誤差を少なくすること)に何かしらの問題はありますでしょうか? 素人のため質問内容がわかりにくかったら申し訳ありません。よろしくお願いします。

  • 重回帰と偏相関の違い

    重回帰分析も偏相関分析もともに、複数の説明変数と1つの従属変数が登場人物となって、その関係を分析するものと認識しています。 が、大きな違いとして、重回帰は多重共線性を示す説明変数を同時投入した分析はできないのに対し、偏相関分析は寧ろそういう変数たちを同時に取り扱って分析することに使うと聞きました。 どういう理由で、両者にこのような違いがあるのか、ご教示頂けないでしょうか。

  • 統計学についてお聞きしたいです.

    現在,統計ソフトRを使って,プログラムを書いています. 内容は多重共線性問題のあるデータを主成分回帰分析を使って,解決するということをやっています. データはRを使って,変数を数個を発生させ,その中の3つの変数を足すと0になるというデータを使っています.相関関係が高い場合のみの多重共線性のデータは自分のプログラムでうまくできたのですが,線形関係をつくると多重共線性のある変数が0に近づいてしまいます.実際は1に近づくはずなのですが.それがなぜだかが分かりません.どなたかご教授お願いします.線形関係の作り方は平均1, 分散0のデータを発生させ,そのデータをエクセルを使って,並び替えて作ります.その時データは平均1,分散0のままです.また,ヒントとなるようなプログラムやコマンドなどでも全然構いませんのでお願いします.今,3カ月かかってできません.本当に困っているのでお願いします.

  • 相関分析と重回帰分析

    大学3回生で、来年度の卒論のために先行研究を読んでいます。 私が書く卒論では統計分析が必要なのですが、 先行研究を読んでいて疑問に思ったことがあるので、質問させてください。 ある論文で、変数間の相関を分析した後、重回帰分析を行っていました。 ところが、相関分析において相関の出ていない変数に対しても重回帰分析を行っており、 その結果、 「相関分析では有意な相関が見られない」にも関わらず、「重回帰分析では有意な結果が見られる」 というような書き方がなされていました。 また、この論文における考察部では、相関分析と重回帰分析をまとめて考察しており、 ほとんど重回帰分析の結果についてしか触れられていませんでした。 相関分析と重回帰分析を両方行う場合、相関がない変数についても重回帰分析を行うべきなんでしょうか? ゼミに教授に質問しにいっても、現4回生の卒論などで忙しいのか、 今度にしてくれ、と言われてしまいましたので、こちらで質問させていただきました。 不勉強で、重回帰分析の仕組みが良くわかっておらず、大変心苦しいのですが、 宜しければ回答していただけると、とても助かります。

  • 多重共線性について(SPSSの表の見方)

    いつもお世話になっています。臨床心理専攻の院生です。修士論文で、統計処理をやっているのですが、よくわからないことがあり、質問します。 重回帰をやっているのですが、表題にもあるように多重共線性について、よくわかりません。 SPSSで統計処理をおこなった結果、変数のVIFは全て5以下でした。これだけで、多重共線性が 「ないだろう」と考えられますか?多重共線性を考える際にSPSSの出力表のどの部分に着目すれば よいのか、やや曖昧です。教えていただけましたら幸いです。 宜しくお願いいたします。

  • 1変数と複数の変数の相関をみるには

    1変数と複数の変数、例えば、「変数a」と「変数b、c、d」の相関関係をみるにはどうすればよいでしょうか? 重回帰分析でもみれますでしょうか? 重回帰分析は、説明変数で目的変数を予測することができるかどうかを分析することだと思いますが、得られた重相関係数と、同時に行う分散分析のP値によって、相関関係の強さをみれるのではないかと思うのです。 最終的には、「変数a」と「変数b、c、d」は"有意"に相関があるといたいのですが、重回帰分析の場合、説明変数と目的変数の方向性の問題もあるので「変数a」⇔「変数b、c、d」とは言えないのでは…と悩んでいます。 「変数b、c、d」を主成分分析で合成してから相関分析をすれば…などいろいろ考えているのですが、分析の精度としてそれでいいのか分かりません。 何卒、アドバイスよろしくお願いします。

  • ダミー変数の中心化について

    量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか? ダミー変数は中心化すべきなのでしょうか? また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか? 詳しい方がおられましたら,是非ご教示ください。 よろしくお願いいたします。