• ベストアンサー

重回帰のダミー変数について

重回帰分析で,少々悩んでおります。お詳しい方,どなたかご教示下さい。 200人ほどのデータ(職業,年収等)があり,職業が被説明変数に対し,影響を持つのかを重回帰分析を用いて説明しようとしています。職業は10ほどのカテゴリに分け,それぞれダミー変数として説明変数に加えています。 ただ,どうしても分けられない職業が30ほどあり,「その他」として分類しています。この「その他」という職業カテゴリも,ダミー変数として説明変数に入れるべきですか?入れた場合,この変数が有意であった場合どのように解釈すれば良いでしょうか。 大変困っております。どうかお詳しい方ご教示下さい。

質問者が選んだベストアンサー

  • ベストアンサー
  • d_p
  • ベストアンサー率45% (10/22)
回答No.1

職業が「社長」と「その他」しかなかったら、「その他」は捨てるか?

Masa_98
質問者

補足

回答ありがとうございます。 分かりました。説明変数に入れておくことにします。

その他の回答 (1)

  • hanakk36
  • ベストアンサー率66% (2/3)
回答No.2

恐らく解決済化と思いますが、回帰分析を使った分析の前提として、次のように考えることからスタートしましょう。 1) 被説明変数の値が多いデータ・少ないデータは、説明変数の内容に応じて存在する。 2) つまり、被説明変数の増減に影響する、または影響しそうと考えられる項目(職業等)を説明変数に採り入れます。 ==== つまり、「その他」とした方が良いのか、それぞれの職業をカテゴリー化(ダミー変数で扱う)するかは、回帰分析実行結果をみて判断するのが良いでしょう。 また、重回帰分析において多重共線性の注意についてはもちろん考えなければいけませんが、カテゴリーデータの場合、「該当(1)・非該当(0)」がちょうど裏返しの関係にある列が含まれていても、同様に多重共線性が起こります。 この場合は、データ列の内容は違っても、数字の上では同じ事を言っているだけに過ぎないので、多重共線性に該当する列(B列とC列との間に発生していればそのうちのどちらか1列)を取り除いて回帰分析を実行すル解決方法が早いです。

参考URL:
http://www.datamining.jp
Masa_98
質問者

お礼

結局,ご指摘の多重共線性の問題から,別の多変量解析を用いて処理しました。 ご回答ありがとうございました。

関連するQ&A

  • 重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

    重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

  • ダミー変数だけによる重回帰分析

    被説明変数は連続変数、説明変数はすべてダミー変数、という重回帰分析を行う際に何か注意することはあるのでしょうか。あるいはこうした場合は単純な重回帰分析は使うべきでないのでしょうか。

  • ダミー変数の中心化について

    量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか? ダミー変数は中心化すべきなのでしょうか? また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか? 詳しい方がおられましたら,是非ご教示ください。 よろしくお願いいたします。

  • 重回帰式の応用

    重回帰分析の結果と回帰式の使い方、応用の方法について質問です。相関係数0.85、決定係数0.72と出たのですが、全部で7つの説明変数のうち6つは有意ではありませんでした。多重共通性の問題に該当する説明変数を省き、再度分析したのですが結果として有意と判断されるのは1つの要因のみでした。そこで、その1つの要因に対して単純回帰分析を行うと相関係数0.72、決定係数0.51と重回帰分析よりも数値が低下してしまいました。この場合有意性の問題を無視し、はじめの重回帰式を用いて被説明変数を求めること(有意ではない説明変数を多く使うことで、被説明変数の誤差を少なくすること)に何かしらの問題はありますでしょうか? 素人のため質問内容がわかりにくかったら申し訳ありません。よろしくお願いします。

  • 重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。

    重回帰分析でレポートを書きたいのですが、重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。 よろしかったら誰か教えてください(>_<)

  • 重回帰分析での説明変数

    重回帰分析で説明変数が、例えば5因子あったとします。 通常は、重回帰分析した後に、有意な因子(目的変数に対して効果のある因子)を例えばF>2等の基準でもって、抽出すると思いますが、 これら説明変数のがMKSA(mg、um、sec等)の次元が異なる場合、同じ基準で有意な因子が抽出できるのでしょうか?  例えば、同じ次元であっても、cmとmmの因子を混在させては、平方和計算から異なってくるので、同じ基準で有意な因子は抽出できないですよね? もし、出来るのであれば、証明するにはどうしたらよいですか?  よろしくお願いします。

  • エクセルの回帰分析について

     エクセルで回帰分析をおこなったのですが、有意な結果がでませんでした。説明変数がすべてダミー変数であるからでしょうか?ダミー変数のみで回帰分析を行うことは可能ですか?

  • YesかNoの重回帰分析のやり方

    重回帰分析を勉強していて疑問が生じたので質問させていただきます。 従属変数がYesかNoのどちらかで結果が欲しい場合、Yesが1、Noが0というようにダミー変数を用いて良いのでしょうか。 wikipediaの重回帰分析のページでは、説明変数にダミー変数を用いる場合しか書いていなかったので。 よろしくお願いします。

  • ダミー変数を用いた重回帰分析での影響度の比較

    ダミー変数と連続変数の両方を含むデータで、重回帰分析を行おうとしています。その際、各説明変数の目的変数への影響度の大きさに興味があります。 連続変数のみの重回帰分析であれば、標準偏回帰係数の大小で影響度が比較できると思います。 またあるWebページでは、ダミー変数のみの重回帰分析(数量化1類?)では、各アイテム変数のレンジ・単回帰係数・偏回帰係数などで比較をしていました。 しかしダミー変数と連続変数が同時に含まれる場合は、各説明変数の影響の大きさをどのように比較すれば良いのでしょうか。 例えば下記参考URLのWebページで、単価・曜日・天気から売り上げ本数を予測していますが、最後の方で出てくる係数は単価、日~月までの7種類、曇~雨の3種類、の合計11種類の係数が出ています。 これを単価・曜日・天気の3種類の影響度という形にして比較する、という事は可能なのでしょうか。 偏回帰係数とレンジをそのまま比較はできないと思うのですが、方法はあるのでしょうか。 参考URL: http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/tahenryo_jirei_02.htm

  • 重回帰分析について

    重回帰分析を用いて、性別を調整した解析を行いたいのですが・・・ 結果の見方がわかりません。 男を1、女を0というダミー変数にし、解析を行っています。 それによって、得られた標準化偏回帰係数が-(-)を示しているときは、男性の方が負の影響を与えているのか・・・それとも女性に負の影響を与えているのかわかりません。 また、調整するためのダミー変数ならば、得られた数値は無視して他の独立変数の値を見ればよいのか・・・どのように解釈したらよいのかわかりません。 統計に詳しいかたがいましたら、お願いします。