• ベストアンサー

相関分析の相関係数と重回帰分析の偏回帰係数の違いの説明

実は会社での説明に苦慮しています。 例えば、携帯電話の(1)メーカー/(2)デザイン/(3)機能の(4)購入意向、に対する影響度を見たい、という時に、重回帰分析における偏回帰係数で(1)(2)(3)の(4)に対する影響度を測ろうとしているのですが、「(4)と(1)(2)(3)それぞれの相関の高さで見るのと何が違うのか?」と聞かれてしまい、回答に窮しています。あまり統計に詳しくない人(私もそうですが)に対し、うまく説明する方法はないでしょうか。 どなたかお知恵をいただきたく、よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

相関分析と重回帰分析の違いは、説明変数を一つとするか複数にするかの違いです。  目的とするもの(従属変数、数式ではy)に影響するものが、説明変数(数式ではx)です。  プロ野球を例に取ると、野球はピッチャーだ、といわれます。そこで、過去数年間について、ピッチャーのチーム防御率だけをXとし(説明変数が単数)、その年の順位をyとして、分析するのが単回帰分析です。  しかし、いくらピッチャーが良くても、打てなければ勝てません。そこで、バッターの打率も考える必要があります。すなわち、チームの防御率をX1、チームの打率をx2、すなわち、説明変数を複数(2つ以上)採り、順位yの推定を行うのが、重回帰分析です。  このように、単回帰分析よりも、重回帰分析の方が、必ず相関係数が高くなります。すなわち、結果の推定の確実性が増すわけです。相関係数が、1.0になれば、説明変数の事柄だけで、従属変数の事柄が決定できます。すなわち、100%的中します。  単回帰では、防御率、打率とも、相互の影響は考慮されていません。従って、防御率と打率のどちらが影響力が強いのかは、相関係数から予測はできるものの、決定できません。選手をとる場合、同じ年俸を払うのに、ピッチャーとバッターのどちらを補強したら効果的かは、判断が困難です。  このとき、どちらの影響が強いかを推定できるのが、重回帰分析です。そのために利用するのが、偏回帰係数ですが、変数の単位に左右されるので、注意を要するところです。  「単回帰では、(1)(2)(3)のどれが最も効果的かは、判断できません」が答えでしょうか。  釈迦に説法の点は、ご容赦を。   

himita050
質問者

お礼

わかりやすい例えでご説明いただき、ありがとうございます。そのまま引用させてもらいたいところですが、もう一度自分で整理したいと思います。

その他の回答 (2)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.3

こんにちは.相関係数と偏回帰係数の違いのご質問ですね? この質問に答えるためには,(1)相関係数/回帰係数の違い,(2)「偏」あり/「偏」なし,に分解して考える必要があります. ──────────────────────────── X 061 072 084 095 097 098 100 113 126 130 Y 083 0 82 099 096 115 108 095 111 114 135 ──────────────────────────── (1)相関係数/回帰係数 上記のXとYのデータがあります.Excelなどの表計算で実際に相関係数や回帰係数で求めてみましょう. 回帰係数とは,回帰式の「傾き」のことですが,Excel関数「=SLOPE(範囲1, 範囲2)」を,そして相関係数はExcel関数「=PEARSON(範囲1, 範囲2)」使うことで算出できます. さて,回帰係数と相関係数は,二変数の関係性ですので,実際に範囲1と範囲2に,「X」と「Y」のデータを代入してみましょう. <回帰係数> 範囲1=X,範囲2=Yの場合(X→Y) 回帰係数 1.19 範囲1=Y,範囲2=Xの場合(Y→X) 回帰係数 0.65 <相関係数> 範囲1=X,範囲2=Yの場合(X-Y) 相関係数 0.88 範囲1=Y,範囲2=Xの場合(Y-X) 相関係数 0.88 統計学を勉強されている方は今更でしょうが,回帰係数は,同じXとYのデータを使う場合でも,範囲1と範囲2のいずれにXとYを設定するかで係数の値が異なります.相関係数の場合は,変わりません.これは,回帰係数の場合は,「X→Y」あるいは「Y→X」という方向性が重要になるため,どちらの方向性の回帰係数かによって異なる数値がでるわけです. そうすると,「X→Y」の回帰係数とは,XからYへの影響性を,「Y→X」の回帰係数とは,YからXへの影響性を意味しています.では,両方向の影響性を平均して,XとYとの間の(両方向の)影響性を求めてみましょう. 普通の(算術)平均ではなく,掛け算の後ルート計算をするという幾何平均を行ってみます. √(0.65×1.19)=0.88 この「0.88」という数値どこかで見覚えはありませんか? そう,「XとY」との間の【相関係数】と同値です.実は,XとYの相関係数とは,X→Yの回帰係数とY→Xの回帰係数の(幾何)平均を意味しています. このように考えると, 回帰係数:方向性のある影響力 相関係数:双方向の影響力を平均した総合的類似度指標 と,考えることができます. (2)「偏」あり/「偏」なし 相関係数であれ,回帰係数であれ,普通の相関係数/回帰係数の他に,偏相関係数/偏回帰係数というものがあります.「偏」というのは何かというと,一般の人々にわかりやすく言えば「純粋な」と言い換えても大きな間違いではないでしょう. そうすると,普通の相関係数や回帰係数などの「偏」がついていないものは,純粋ではない相関/回帰係数ということを意味します.相関であれ,回帰であれ,二変数の関係性の指標ですが,実は,それ以外の変数の要素が混在している可能性が除去できないのです.  事柄A ←直接的関係→ 事柄B   ↑           ↑ ┐   │           │ │間接的関係   └─── 事柄C ───┘ ┘  ※図表がずれている場合は,コピー&ペーストの等幅フォントで対応して下さい この図のように,AとBとの間に,Cの要素が仲介して関係性を与えている【可能性もありえる】のです.普通の相関係数は「直接的関係+間接的関係」の療法を含んでいることになります. この間接的関係を削除した部分,つまりは直接的関係が,「純粋な=偏」相関/回帰係数ということになります. 以上のことを踏まえて,普通の相関係数を求めた場合と,重回帰分析を使った偏回帰係数では何が違うか……もうおわかりですね? No1さんやNo2さんの回答と合わせて参考にして下さい.

himita050
質問者

お礼

ご回答いただき、ありがとうございます。非常に詳細な説明で、よく理解できました。自分自身の勉強にもなりました。

noname#8027
noname#8027
回答No.1

(1)・(2)・(3)の相互作用がある場合は、単回帰を複数 行っても正確な判定を下せません。 例えば、特定のメーカーは、特定のデザインが多い という傾向がある場合に、単回帰を行い、 メーカーA→購入意欲高い デザインA→購入意欲高い という結果がでたとしても、 メーカーA→デザインAが多い→購入意欲高い という関係が存在すると、メーカのために購入意欲が 高いのか、デザインのために購入意欲が高いのか分離 することができません。本当はデザインよりも、メー カーのネームバリューで売れていたとしても、偽の関 係によって、デザインでも強い相関がでたりします。 このようなとき、それぞれの因子を分離したい場合、 多変量を用いる方が正確といえます。 文章で説明するのは、むずかしいですが、いかがでしょう?

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc012/150.html
himita050
質問者

お礼

ご回答ありがとうございます。 言葉での説明はなかなか難しいと思いますが、参考になりました。

関連するQ&A

  • 重回帰分析の偏回帰係数についての質問です。

    重回帰分析の偏回帰係数についての質問です。 分析で重回帰分析をやっていたのですが、 偏回帰係数がどのくらいの値をとったらそれが有意な偏回帰係数であるかがわかりません。 どなたか教えてください。

  • 相関係数と回帰分析

    大学でSPSSの使い方の授業を受けていますがわからないことがあるので教えてください。 私は都道府県別のコンビニの数について調べようと思いました。 ・コンビニ数と人口 ・コンビニ数と県民所得 ・コンビニ数と県内総生産 という3つの関係について調べています。 先生から教えていただいた内容ですと・・・ 相関係数を求める⇒回帰分析を行う⇒t検定をする という順番で分析すると教えて頂きました。 しかし、この場合は、 相関係数は3つそれぞれ求めてから1度の重回帰分析をしたらよいのか、それともそれぞれを回帰分析したらよいのかわかりません。 また、相関係数を求めて相関がない(0)となった場合であっても回帰分析は行うものなのでしょうか? SPSSは勉強開始したばかりなのでなかなか理解できません。 また、分析の仕方についてアドバイスありましたらよろしくお願いします。 どうか教えてください。

  • 相関分析と重回帰分析

    大学3回生で、来年度の卒論のために先行研究を読んでいます。 私が書く卒論では統計分析が必要なのですが、 先行研究を読んでいて疑問に思ったことがあるので、質問させてください。 ある論文で、変数間の相関を分析した後、重回帰分析を行っていました。 ところが、相関分析において相関の出ていない変数に対しても重回帰分析を行っており、 その結果、 「相関分析では有意な相関が見られない」にも関わらず、「重回帰分析では有意な結果が見られる」 というような書き方がなされていました。 また、この論文における考察部では、相関分析と重回帰分析をまとめて考察しており、 ほとんど重回帰分析の結果についてしか触れられていませんでした。 相関分析と重回帰分析を両方行う場合、相関がない変数についても重回帰分析を行うべきなんでしょうか? ゼミに教授に質問しにいっても、現4回生の卒論などで忙しいのか、 今度にしてくれ、と言われてしまいましたので、こちらで質問させていただきました。 不勉強で、重回帰分析の仕組みが良くわかっておらず、大変心苦しいのですが、 宜しければ回答していただけると、とても助かります。

  • 単回帰分析と重回帰分析の結果の違い

    論文を読んでいて疑問に思うことがありました.よろしくお願いします. 私は,回帰分析とは変数Yを、p個の変数X1,X2 ,… Xpにより説明したり予測するための統計的手法であり,p=1のときは単回帰分析,p>1のときは重回帰分析と呼ぶ,と解釈しています. 今,ある施設のサービス改善についての調査論文を読んでおります.そこではアンケート調査でその施設のサービスの総合評価Yと,8個の各サービス毎の評価(x1~x8)を調べ,総合評価Yを従属変数, x1~x8を説明変数として重回帰分析にかけます.そして出た相関係数から施設の総合評価に対する各サービスの重要度を求め,改善につなげようとしています. 結果,重要度は x1>x2>x6>x3>x7>x8>x4>x5 という結果になりました.ここまではわかるんです. ですが次に総合評価Yを従属変数,x1を説明変数として単回帰分析,また総合評価Yを従属変数,x2を説明変数として単回帰分析,また総合評価Yを従属変数,x3を説明変数として単回帰分析・・・というようにこの操作をx8まで続け,出た相関係数を比較しています.結果は x1>x2>x4>x8>x3>x5>x7=x6 となっており,重回帰分析の結果と照らしあわせると最初のx1とx2は合致しているものの,あとはバラバラです.x6にいたっては最後にきています.なぜでしょうか.論文は「どのサービスも総合満足度に重要な影響を与えており,特にx1,x2,x3,x4を改善するのがよい」 と締めくくっています. 質問は3点です. (1)なぜ重回帰分析の結果と単回帰分析の結果が異なるのか (2)どのサービスも総合満足度に重要な影響があるとして,それは重回帰分析の結果だけで言えるのではないか(重回帰でも相関係数は出ているし,単回帰分析をする意味はあるのか) 稚文ですみません. 当方あまりオツムがよろしくないのでできるだけわかりやすくよろしくお願いします.

  • 相関分析や回帰分析について

    相関分析や回帰分析についての記述が正しいのかわかりません。 間違っていたらどこが違うのか理由も教えていただけると幸いです! (1)ある特性、例えば、身長についてゴールドンのいう第二世代(子)の平均への回帰が観測される(b<1)のとき説明変数と被説明変数を逆にした回帰計算をしてもいわば、おやの平均への回帰が観測される可能性はない。(親と子の身長には、正の相関があると考えてよい) (2)第二世代(子)が平均へと回帰するのならば、将来は、個人のもつ身長その他、さまざまな諸特性がすべて一様な社会になってしまう。(ある経済学者はそう考えた) (3)重回帰の場合、通常の決定係数を使用すると、説明変数の増加のよるあてはまりのよさの改善を誇張してしまうので、修正済み決定係数(自由度調整済み決定係数)を使用するのが普通である。もいろん、単純回帰については、決定係数と修正済み決定係数は同じものになる。 (4)決定係数は、マイナスになることはないが、修正済み係数はマイナスになりうる。 (5)回帰分析を因果関係と結びつける(説明変数を原因、被説明変数を結果と見る)ことは、記述統計の範囲を逸脱している。 よろしくお願いいたします!!!

  • 【統計学】重回帰分析と正準相関分析の違いを教えてください。

    統計学初心者です。 文系でも分かる統計学といった類いの本を 読んでいるのですが、重回帰分析と正準相関分析の違いが分かりません。どうも同じように思えてしまうのですが・・・ 素人なので分かりやすく説明してください。

  • 相関分析と重回帰分析について

    研究の中である因子同士で相関分析を行いました。その結果有意な相関を得られた因子が複数見つかったため、それらの因子を用いて重回帰分析を行うことにしました。 この分析の流れを担当教員に伝えたところ、重回帰分析を行う際になぜ相関が得られなかった因子も含めなかったのかと問われ、上手く説明ができませんでした。というか先生の言ってることが理解できませんでした。なぜなら全く相関がないとわかっているものを重回帰分析の中に含めたところで結果は見えていると考えたためです。 まだ知識は浅いですが、先生の問いについて理解できる方がいれば教えていただきたいです。

  • 重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが

    重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが、重回帰分析は、目的変数(Y)を、説明変数 X1, X2, X3, X4.....X20などに影響されるか否かを検討しますよね。ここで、私がしようとしている統計学的処理と類似した研究の論文などを読んだりとかしていると、YとX1, YとX2, YとX3, YとX4.....YとX20の単回帰分析を各々行い、ここで有意な相関があったものを取り上げて(例えば、X1, X4, X7, X12, X18, X20の6個など)、この6個について、重回帰分析を施行して、ここで、X4, X18は有意でないといった結果が出たなら、Y=aX1+bX7+cX12+dX20という重回帰式を作成し、標準偏回帰係数を算出し、どの説明係数が最も目的変数に影響を与えているのか解析しているのですが、これが正しい方法(進め方)なのでしょうか? いきなり、YとX1~X20を重回帰分析したのは、どうでしょうか?これはダメなのでしょうか?単回帰分析では相関が有意にでない(他の説明変数の影響のために)けれども、重回帰分析では有意な結果となるような説明変数が無視されるような結果になるように思うのですが、どうでしょうか? 非常に低レベルな話しで申し訳ないのですが、お教え下さい。

  • 重回帰と偏相関の違い

    重回帰分析も偏相関分析もともに、複数の説明変数と1つの従属変数が登場人物となって、その関係を分析するものと認識しています。 が、大きな違いとして、重回帰は多重共線性を示す説明変数を同時投入した分析はできないのに対し、偏相関分析は寧ろそういう変数たちを同時に取り扱って分析することに使うと聞きました。 どういう理由で、両者にこのような違いがあるのか、ご教示頂けないでしょうか。

  • エクセルで標準化偏回帰係数を求めたい

    いつもお世話になっております。 有る事象を説明するために大昔聞いたことが有る重回帰分析による複数の要因の影響の大小比較(項目の寄与率の数値化)をやってみようとNETで調べまくり、エクセルのアドインのインストールから初めて、どうやら私は「標準偏回帰係数を求めたい」というところまで分かったのですがエクセルの回帰分析の結果では当該項目が表示されていません。 言葉の定義をアレコレ調べたところ、エクセルでは何故かこの項目は算出されない、とのショックな事態。 但し、下記の式で計算できるとのことなのですが、この式の項目がエクセルの回帰分析結果のどの項目に該当するか分からず調べてみても同じページの堂々巡り状態。 標準偏回帰係数=偏回帰係数×説明変数の標準偏差÷目的変数の標準偏差 どなたか各項目が、エクセルの回帰分析結果に表示されているどの項目に該当するのか教えていただたく。 調べれば調べるほど意味不明となりつつあり、 >標準偏回帰係数は重回帰式における各変数の重要性を表す指標であり、標準化偏回帰係数どうしの大小を比較できます。 という表記が有るのですが、標準偏回帰係数と標準化偏回帰係数は意味が違うのでしょうか? このレベルですのでご了承の上よろしくお願い致します。 またもっと簡単に求める方法があればぜひお願いします。 <エクセルの分析結果で表示される項目> <回帰統計> 重相関  重決定 R2 補正 R2 標準誤差 3  観測数 <分散分析表>     自由度 変動 分散 観測された分散比 有意 F 回帰 3 残差 43 合計 46 係数  標準誤差 t P-値 下限 95% 上限 95% 下限 95.0% 上限 95.0%