• ベストアンサー

多重共線性について(SPSSの表の見方)

いつもお世話になっています。臨床心理専攻の院生です。修士論文で、統計処理をやっているのですが、よくわからないことがあり、質問します。 重回帰をやっているのですが、表題にもあるように多重共線性について、よくわかりません。 SPSSで統計処理をおこなった結果、変数のVIFは全て5以下でした。これだけで、多重共線性が 「ないだろう」と考えられますか?多重共線性を考える際にSPSSの出力表のどの部分に着目すれば よいのか、やや曖昧です。教えていただけましたら幸いです。 宜しくお願いいたします。

みんなが選んだベストアンサー

  • ベストアンサー
  • vzb04330
  • ベストアンサー率74% (577/778)
回答No.2

No.1です。 恐縮ながら、補足でのご質問に回答する前に、いくつか助言を差し上げたいと思います。 小生も教員の端くれですが、教育的配慮からとご理解ください。 補足を拝見しますと、大変失礼ながら、重回帰分析がどのような手法であるのか、あるいは、重回帰分析を使って何をしたいのか、何が出来るのかを良くご理解でないまま使っていらっしゃると思えて仕方がありません。 その最たる点は、独立変数が24もあるという点です。 多くの場合、重回帰で独立変数になるのは、性別や年齢など、対象者の基本的な情報であることが多いと思います。 他の尺度の得点なども用いることもあり得ますが、それにしても、独立変数が多いように思います。 通常、重回帰分析を実施した結果に基づいて、どの独立変数が、従属変数の変化(増減)に有意に影響しているかをみて行きます。 そのためには、SPSSの出力のうち、「モデル集計」で、決定係数(R^2)や、変化の欄に示される諸結果(R^2変化量、F変化量、有意確率(F変化量))などを確認します。 また、重回帰分析に使用する独立変数について、計算プロセスでどのように投入するかについても、強制投入法、ステップワイズ法など、いくつかの方法があり、その特徴にしたがって、使い分ける必要があります。 今回の分析では、どうも24の独立変数を「強制投入法」で、すべて投入した結果について、他の重要な指標をさておき、多重共線性にのみ注意を向けてしまっていらっしゃるように見えてしまいます。 そういう前提で、24の独立変数の多重共線性云々という議論は、おそらくほとんど意味がないのではないかと考えます。 以上から、現時点での結論を書きますと、重回帰分析の本質を十分に理解されないまま、そのポイントである結果については見ずして、枝葉末節である(と書くと、言い過ぎですが)「多重共線性」のことばかりに着目していらっしゃるように思われてなりません。 大変失礼ですが、もう一度、研究目的をご確認の上、それを明らかにする上で、重回帰分析がもっとも適した方法であることを再確認されることを、まずはお勧めしたいと思います。 また、同時に、重回帰分析がどういう方法であるかについて、No.1でご紹介したような基本的な文献で確認された方が良いかと思います。 なお、臨床心理専攻の修士課程に在籍していらっしゃるということですが、そちらの先生方でも、統計処理に詳しい方もいらっしゃるでしょうから、こういうサイトで質問なさるよりは、そうした先生方に質問紙、データ、分析結果をお持ちになってご相談になる方が、スムーズな解決や、よりよい理解という点では、はるかによろしいかと思います。 冷たく読める回答で、厳しいことを申し上げて失礼かとは思いますが、ここでのやりとりでは限度もありますので、上記のように対応してみてください。

その他の回答 (1)

  • vzb04330
  • ベストアンサー率74% (577/778)
回答No.1

ご承知かと思いますが、多重共線性(multicollinearity)は、複数の独立変数の間に強い相関があることをいいます。 英語の名称が示すように、multi=複数の、collinearity=線形関係(一次関数の関係)があるということを意味します。 したがって、多重共線性が高いと、重要な独立変数が「有意ではない」と見なされてしまい、モデルから棄却される可能性が高くなります。 また、多重共線性が存在しますと、回帰係数の分散が大きくなり、回帰式が不安定となります。 その結果、標本の取り方次第で値が変わってしまいます。 ご質問にありますように、SPSSでは、VIF(Variance Inflation Factor;分散拡大要因)と、許容度(tolerance;トレランス統計量)の2つが、重回帰分析の出力結果のうち、「係数」の表の右端に示されています。 VIFが、1より十分大きいとき、具体的には、10以上になる場合には要注意となりますし、平均VIFが1を超える場合には、多重共線性が影響している可能性があるとされます(平均VIFは、各独立変数のVIFを加算して、独立変数の数で割ります)。 一方、許容度は、0.1以下であれば重大な問題があり、0.2以下なら潜在的な問題があると考えられています。 逆から言えば、少なくとも0.25以上の許容度が望ましく、0.5以上であれば良好とされます。 許容度は、独立変数群の中で、ある独立変数を従属変数として重回帰分析を行ったときの決定係数(R^2)を1から引いたものです(許容度=1-R^2)。 ちなみに、VIFと、許容度とは「逆数」の関係にあります(つまり、VIF=1÷許容度、許容度=1÷VIFです)。 具体的にいえば、許容度=0.25のとき、VIF=4であり、許容度=0.5であれば、VIF=2となるのです。 さらには、VIF=5のとき、許容度は0.2、VIF=10ですと、許容度=0.1となります。 このとき、決定係数(R^2)は、それぞれ0.8と0.9となりますので、その独立変数は、他の独立変数の情報によってほとんど説明されてしまい、それ独自の情報としての意味がほとんどないということになります。 以上のことから考えますと、VIFは最大でも4(このとき、許容度=0.25)、「良好な状態」を考えれば、VIFは、できれば2未満(許容度が、0.5以上)が適切と考えられます。 したがって、ご質問にありますように、VIFが5未満というのは、必ずしも十分な値とはいえないといわざるを得ません。 なお、多重共線性の診断に関して、SPSSの出力では、「共線性の診断」という表があります。 この表で、「次元の数」は、定数項と独立変数の数を示します。 詳細な説明は、統計学やSPSSの解説書をご参照いただくとして、ポイントだけを書きます。 「固有値」のいくつかが、0に近い場合、独立変数間に強い相関があるということを示しています。 また、「条件指標」は、許容水準を示していると考えられ、一般には、条件指標が15以上であれば強い多重共線性が、また、30以上であれば、重大な多重共線性が生じているとみなされます。 「分散の比率」は、その次元とそれぞれの独立変数との関係の強さを示す指標で、固有値が0に近く、条件指標が15を超えている次元で、「分散の比率」が高くなります。 一応の目安として、条件指標が0.5以上の独立変数が複数ある場合に、それらの変数の間に共線性が生じていると判断します。 一般的には、許容度や、VIFが良好な値であれば、固有値と条件指標も良好な結果になりますので、実質上、VIFで判断してかまわないと思われます。 もっとも簡便な方法は、元の相関係数行列をご覧になって、独立変数間に、0.8や0.9を越える相関係数が見当たらないかどうかをチェックすることです。 以上、ややくどくなりましたが、よくお読みくださればと思います。 なお、以下の文献などにも解説があります: 小田利勝(2007):ウルトラ・ビギナーのためのSPSSによる統計解析入門,pp.90~115,プレアデス出版(回帰分析の項です).

2320932
質問者

お礼

 丁寧に教えていただきありがとうござます。改めて、わからない部分を質問 いたします。ご回答いただきましたら幸いです。

2320932
質問者

補足

詳しく教えていただきましてありがとうございます。補足で質問いたします。 回答者様のアドバイスをもとに、もう一度、ローデータを見てみました。  まず、私の重回帰のモデルですが、時間の概念に関する質問紙の下位概念 (A、B、C、D)をそれぞれ従属変数としています。独立変数は、24項目です。 A、B、C、Dを従属変数として、4回重回帰をやりました。  まず、VIFですが、あらためて見直すと4以下でした。 固有値と条件指標ですが、以下に列挙します。 24項目を順番にみますと、 〈固有値〉 (1)1.121 (2)1.066 (3)1.026    (4)1.01    (5)1.011 (6)0.38 (7)0.33 (8)0.16    (9)0.15    (10)0.13 (11)0.12 (12)0.09 (13)0.09   (14)0.07  (15)0.06 ( (16)0.06 (17)0.05 (18)0.05   (19)0.03 (20)0.02 ㉑0.019 ㉒0.013 ㉓0.010 ㉔0.005 <条件指標>  (1) 4.00    (2)4.10   (3)4.18   (4)4.21   (5)4.21    (6)6.91)    (7)7.41   (8)10.56   (9)11.11  (10)11.71  (11)12.40    (12)13.89  (13)14.23   (14)16.14   (15)17.07  (16)17.67    (17)18.81  (18)19.86   (19)23.68  (20)29.06   ㉑30.48    ㉒37.23  ㉓42.43   ㉔61.77     でした。ずらーと並べてすいません。また、パソコンの設定の関係で ずれて表記してしまいます。すいません。 また、上記の(1)~㉔までの相関係数を出してみました。 高くても0.7ぐらいが1個です。あと10個ほど、0.4~06ぐらい で推移しているものがありました(負の相関を含みます。) となっています。  相関係数をみると、そんなに高い(0.8以上)相関は出ていないものの、 条件指標をみると高くなっていると15以上のもの(㉔)もありました。 この数値をどう解釈すればいいでしょうか? 丁寧に教えていただいたのに理解が浅く申し訳ありません。

関連するQ&A

  • 多重共線性の検定

    重回帰分析をしています。 説明変数は2つなのですが、多重共線性があるのかないのかで判断に困っています。 説明変数間の相関は、0.5前後(n=18~24)で、比較的高いほうだと思います。 解析結果には特に不備な点は見つからないのですが、2変数の関係が気になります。 統計ソフトはエクセル統計2006が手元にあるのですが、このバージョンでは検定ができません。フリーソフトのRも試してみたのですが、使用方法がわからない部分が多いのと、うまく起動できないのとで困っています。 多重共線性の検定には、VIFやトレランスなどがあるようですが、こういった検定は特別なソフトがないとできないのでしょうか? もし、ソフトなしでできる多重共線性の検定法がありましたら、ご教示ください。

  • 多重共線性について

    重回帰分析においては,変数間の相関関係から多重共線性が非常に重要な問題であることは以下のサイトから理解しました。 http://blogs.yahoo.co.jp/pironotakarabako/1048887.html この多重共線性の問題は,重回帰分析のような回帰モデルが線形回帰の場合だけに発生する問題なのでしょうか?他の多項式モデルや非線形回帰モデルの場合にもやはり多重共線性は発生するのでしょうか?

  •  ダミー変数がわかりません!

    心理学科の院生です。修士論文で、統計解析を行っています。現在、重回帰分析を行っています。 わからないことがあり、質問します。  ある尺度の下位因子を従属変数して、独立変数に、続柄を設定しました。 質問紙では、1夫、2 妻、 3 父親、 4 母親、 5 舅、6 姑となっています。 指導教官からは、続柄は質的データだけれども、ダミー変数にすれば量的データとして 重回帰の独立変数にできるとうかがいました。 例えば、夫に○をつけたとすれば、(1・0・0・0・0・0)。姑に○をつけたとすれば(0・0・0・0・0・1) といった感じです。ただ、理屈はわかるものの、SPSSで、どのように作業すればいいのかわかりません!  ダミー変数の作り方とSPPSでの作業方法を教えてください。

  • 初心者がSPSSで重回帰分析をしたのですが。。。

    統計学初心者です。現在アメリカの大学で統計学の授業を取っているのですが、元々数学関連全くダメな人間ですので、お手上げ状態です。↓ お手数ですが、基本的な事を質問させて下さい。 SPSSを使って、とある表からSNSサイトの友達の数と関連性のありそうな項目を3つ使い、 関連性があるかどうかを調べました。 結果、R二乗(R Square)が0.051と物凄い低い数値がでました(有意確率は0.005%)。 この結果から、これらの標本からはそれぞれ関連性が無いと結論付けるのは重回帰分析の本来の目的と合致していますか? 授業でのうっすらとした記憶だと、重回帰分析は元々関連性のあるものを探すための手法であると言っていたと思うので、ここで分析を止めてしまうのは良くないのでしょうか?他の項目を探すべきでしょか?? 後、また別の視点の質問ですが、SPSSの重回帰分析ではじき出された数値で、 上記以外にどのような所に着目するべきでしょうか?(非標準化係数などは調べましたが。。。)。 お手数ですが、ご教示のほど何卒よろしくお願いします。

  • 重回帰分析(多重共線性)について

    いつもお世話になっております。 重回帰分析における交互作用に関して質問させていただきます。 Y = α + β1X1 + β2X2 + β3X3 + β4X4 + β5X1X4 という回帰モデルがあり、 X4に関しては0または1をとるダミー変数です。 説明変数としてX1とX4の交互作用を投入しているのですが、 上記モデルを用いて分析を行うと多重共線性の問題が発生します。 さまざまな文献を読んで、通常、標準化ないし平均化(各変数ごとにその平均を引き変数の平均をゼロにすること) を行うことによりこのような多重共線性には対処できるということがわかったのですが、 あいにく、この場合にはX4がダミー変数であるため平均化(標準化)いう作業を行うことができません。 今回のような多重共線性に関する問題を適切にクリアする方法をご存知であれば、 ご教示のほどよろしくお願いいたします。

  • SPSS17で二項ロジスティック回帰分析を行うには

    SPSS統計に関する基礎的な質問です。 SPSSを使って二項ロジスティック回帰分析を行う方法として、「分析」→「回帰」→「二項ロジスティック」を選択するとネットで調べました。 以前使っていたSPSS12ではこのやり方で二項ロジスティックの変数増加法、尤度比で解析していたのですが、SPSS17でやってみたところ、同じようにできず困っています。 SPSS17では「分析」→「回帰」を開くと、「線形」、「曲線推定」、「偏相関最少2乗法」、「順序」の4つしかなく、あちこち探ってみたのですが結局分からずじまいでした。 急いで解析しなければいけないデータがあり、また、SPSS12はもう使えない状況であるため、なんとかSPSS17で対応していかねばと思っております。 どうぞ具体的なやり方をご存じの方がいましたら、ご指南いただけないでしょうか。 宜しくお願いいたします。

  • 線形回帰分析:多重共線性と主成分回帰について

     最小二乗法による線形回帰モデルのあてはめについて,説明変数間に多重共線性がある場合,回帰係数の信頼性や予測精度が低下すると習いました.これを防止する方法として,元の説明変数行列の主成分を説明変数としてあてはめを行う主成分回帰(PCR)等があるようです.  しかし,説明変数行列の線形変換は,回帰モデルのあてはめ値(fitted values),残差,新たなデータに関する予測値に影響を与えません.主成分も線形変換の1つなので,元の説明変数と同数の主成分を説明変数に用いる場合,全く同じあてはめ値,残差,予測値が得られます. それでは,主成分回帰は何故,多重共線性による回帰係数の信頼性,予測精度の低下を防止する手段と言えるのでしょうか? (主成分回帰の狙いは,元の説明変数より少数の重要な主成分のみを説明変数に用いることにもあるようですが,これは,多重共線性の問題の防止とは関係ないと思います.) 勘違いしている点もあるかもしれないので,コメントを頂ければ嬉しいです。

  • 統計分析の方法について。

    独立変数、従属変数ともに質的な変数である場合に、 複数の因子から結果を予測するための統計学的方法に はどのようなものがあるでしょうか? 統計学の素人で統計学の本を片手にSPSSなどで統計処 理を行いたいと考えているのですが、どの方法を用い て処理をすればよいのかわからずに困っています。 質的変数を扱うのでロジスティック回帰分析かとも考 えたのですが、「ロジスティック回帰分析の場合、独 立変数は連続変数、従属変数が質的変数の時に用い る」らしい・・・ということで、ロジスティック回帰分析 もあてはまらないのかな、と思います。 どなたか統計学や医療分野での統計処理に詳しい方、 教えていただけないでしょうか。 よろしくお願いします。

  • SPSSソフトを活用した統計分析方法について

    私は、院生で修士論文執筆中です。 量的調査を行い、オリジナルの尺度開発を行い、SPSSソフトを活用した統計分析を学びながら、論文執筆しています。 その際、指導教官が、私に自分の持っている統計テクニックを叩き込むため、私にSPSSソフトを使った様々な分析方法を伝授してくれます。 そして、私がきちんとその技をマスターし、正しい分析が行えているか、指導教官がマスターのデータを使って、全ての統計分析を私と同じように再現試験(検査)を行い、指導教官が導き出した内容と、私が導き出した内容が完全一致するかどうか、検算してくれます。 そこまで、指導教官が自分の労力を惜しまず、職人技である、統計分析のノウハウを叩き込んでくれることに対し、私は、感謝した方が良いでしょうか? とても恵まれていることでしょうか?

  • 重回帰分析の結果の解釈について

    修士論文執筆(看護系大学院)のためSPSSで重回帰分析を行いましたが、結果の解釈につまずいています。 標準偏回帰係数にマイナスがついた場合、「負の影響」と解釈すると思うのですが、ダミー変数を用いた場合にはどにように解釈すればよいのでしょうか。 ちなみに、従属変数は対処行動尺度の5つある下位項目の中の一つ「私的支援追求」で、独立変数は続柄(1=親、0=配偶者)です。独立変数は続柄を含め7つあります。対象数は約100です。 標準偏回帰係数は-.256で、その他に有意だったのは家族機能の.449でした。 Rは.551、R2乗は.304、VIFは全て2以下で多重共線性はないと判断しましたが、t検定では尺度全体、下位項目とも親の方が対処行動は全て高くでていました。 この結果を私は配偶者である方が私的支援追求の得点が高い(できている)というように解釈しました。しかし、t検定の結果とは符号が異なります。 私の解釈が違うのか、解釈があっているとしたらt検定の結果と逆になっていることをどのように説明するのかここまでの情報でなにかご指摘いただけましたらお願いいたします。