• ベストアンサー

ダミー変数の中心化について

量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか? ダミー変数は中心化すべきなのでしょうか? また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか? 詳しい方がおられましたら,是非ご教示ください。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • ramayana
  • ベストアンサー率75% (215/285)
回答No.1

 一般論として、最小二乗法(又は最尤法)による線形回帰で、定数項を含むモデルの場合、中心化(元の変数の代わりに、その変数からから平均値を差し引いたものを変数として用いること)は、推計の精度に何の効果もありません。この場合、多重共線性を回避する効果も、まったくありません。  中心化の意味があるかもしれないケースとして考えられるのは、次のようなものでしょうか。   (1) 線形回帰でない場合(交互作用項を用いる場合を含む)   (2) 最小二乗法や最尤法でない場合   (3) 定数項を含まないモデルの場合   (4) 変数の桁数の割に変動が少なくて、中心化した方がコンピュータの桁落ちの可能性や丸め誤差が小さくなる場合  ダミー変数の場合、(1)のケースは、ちょっと考えにくいことです。(2)のケースは、可能性として挙げましたが、実際に中心化が意味を持つ場合が本当に存在するのか、断言できません。  ご質問のケースがどのようなものか分かりませんが、もし、(3)や(4)のケースに該当するなら、中心化する意味があるかもしれません。

genki1018
質問者

補足

ご回答ありがとうございました。 なるほど… 中心化に多重共線性の回避効果はないのですね。 ただ,切片(定数)の解釈をしやすくするため(適正な全体平均の抽出) 中心化はある程度効果的なのかなぁ…と思っています。 が,この場合,質問した通り,「ダミー変数」も中心化すべきなのか どうかが不明です。 とれる選択肢は以下の3つのように思っています。 (1)ダミー変数は中心化しない(量的変数のみ中心化する) (2)ダミー変数も中心化する (3)ダミー変数の「0」を「-1」に置換する  (要は平均を「0」とするようにセンタリング) ネットで調べてみると様々な意見があり,(1)も(2)もみられましたが, 論文等では(1)の方法を採用しているものが多いように思えます。 で,結局のところどのようにすればよいのか分からず混乱しております。 もし,アドバイスしていただければお願いいたします。

その他の回答 (1)

  • ramayana
  • ベストアンサー率75% (215/285)
回答No.2

 中心化してもしなくても本質的な違いがあるとも思えないので、どの方法をとるかは、結果を解釈するのにどれが分かりやすいか、という程度のことでしょう。  要するに趣味の問題です。個人的な趣味から言えば、無駄な作業をしない方が論文も短くて済むので、回帰分析では(量的変数を含めて)中心化しない方法を選びます。これまで、その方法で不都合が生じたことはありません。

関連するQ&A

  •  ダミー変数がわかりません!

    心理学科の院生です。修士論文で、統計解析を行っています。現在、重回帰分析を行っています。 わからないことがあり、質問します。  ある尺度の下位因子を従属変数して、独立変数に、続柄を設定しました。 質問紙では、1夫、2 妻、 3 父親、 4 母親、 5 舅、6 姑となっています。 指導教官からは、続柄は質的データだけれども、ダミー変数にすれば量的データとして 重回帰の独立変数にできるとうかがいました。 例えば、夫に○をつけたとすれば、(1・0・0・0・0・0)。姑に○をつけたとすれば(0・0・0・0・0・1) といった感じです。ただ、理屈はわかるものの、SPSSで、どのように作業すればいいのかわかりません!  ダミー変数の作り方とSPPSでの作業方法を教えてください。

  • ダミー変数だけによる重回帰分析

    被説明変数は連続変数、説明変数はすべてダミー変数、という重回帰分析を行う際に何か注意することはあるのでしょうか。あるいはこうした場合は単純な重回帰分析は使うべきでないのでしょうか。

  • 重回帰のダミー変数について

    重回帰分析で,少々悩んでおります。お詳しい方,どなたかご教示下さい。 200人ほどのデータ(職業,年収等)があり,職業が被説明変数に対し,影響を持つのかを重回帰分析を用いて説明しようとしています。職業は10ほどのカテゴリに分け,それぞれダミー変数として説明変数に加えています。 ただ,どうしても分けられない職業が30ほどあり,「その他」として分類しています。この「その他」という職業カテゴリも,ダミー変数として説明変数に入れるべきですか?入れた場合,この変数が有意であった場合どのように解釈すれば良いでしょうか。 大変困っております。どうかお詳しい方ご教示下さい。

  • 重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

    重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

  • 重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。

    重回帰分析でレポートを書きたいのですが、重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。 よろしかったら誰か教えてください(>_<)

  • ダミー変数について

    重回帰モデルのダミー変数について類似の質問も読んでみたんですが、初心者なので分かり易く教えて頂けたら嬉しいです。 よく男性と女性で0と1を使ったりしますが、 例えば文学部4年までを、1年・2年・3年・4年生の4つで調べたい場合に教科書を読むと、「2つ以上のカテゴリーが存在する場合にもダミー変数を用いることができる。これは想像を絶するよりもずっと扱いが難しく、必要な場合には専門書を参照するべきである。」と書かれてました。(なので1年と4年の2つで調べようかと思うんですが。) 何がどう難しくなるのか、統計は苦手なので、できるだけ分かり易く教えて頂けたら嬉しいです。

  • ダミー変数決定について

    下を重回帰分析をしようと思ってるんですが、適当なダミー変数が思いつかなくて悩んでいます(>_<)よろしかったら誰かアドバイスお願いします。 (1)交通事故発生件数:人口密度 (2)公式サイト訪問者数:観客動員数 (3)国民所得:労働時間 (4)利益率:広告費率 どれでもいいんでアドバイスお願いしますm(__)m

  • ダミー変数を用いた重回帰分析での影響度の比較

    ダミー変数と連続変数の両方を含むデータで、重回帰分析を行おうとしています。その際、各説明変数の目的変数への影響度の大きさに興味があります。 連続変数のみの重回帰分析であれば、標準偏回帰係数の大小で影響度が比較できると思います。 またあるWebページでは、ダミー変数のみの重回帰分析(数量化1類?)では、各アイテム変数のレンジ・単回帰係数・偏回帰係数などで比較をしていました。 しかしダミー変数と連続変数が同時に含まれる場合は、各説明変数の影響の大きさをどのように比較すれば良いのでしょうか。 例えば下記参考URLのWebページで、単価・曜日・天気から売り上げ本数を予測していますが、最後の方で出てくる係数は単価、日~月までの7種類、曇~雨の3種類、の合計11種類の係数が出ています。 これを単価・曜日・天気の3種類の影響度という形にして比較する、という事は可能なのでしょうか。 偏回帰係数とレンジをそのまま比較はできないと思うのですが、方法はあるのでしょうか。 参考URL: http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/tahenryo_jirei_02.htm

  • 重回帰分析について

    重回帰分析を用いて、性別を調整した解析を行いたいのですが・・・ 結果の見方がわかりません。 男を1、女を0というダミー変数にし、解析を行っています。 それによって、得られた標準化偏回帰係数が-(-)を示しているときは、男性の方が負の影響を与えているのか・・・それとも女性に負の影響を与えているのかわかりません。 また、調整するためのダミー変数ならば、得られた数値は無視して他の独立変数の値を見ればよいのか・・・どのように解釈したらよいのかわかりません。 統計に詳しいかたがいましたら、お願いします。

  • 従属変数が複数かつ潜在変数である場合の因果検証について

    <解析デザイン> 複数の独立変数・媒介変数・調整変数(いずれも観測変数)と、 複数の従属変数(下位尺度得点≒潜在変数?)との因果関係を調べたい。 <疑問点1> ・重回帰分析では潜在変数が使えないとされていますが、以下のURLでは、必ずしも「観測された変数」ではなくても、「観測可能な変数」であれば、実質的には観測変数とみなしてOK、といったニュアンスとも読み取れまして・・・。私の場合、2項目の測定変数の平均値を従属変数としているので、これを観測変数とみなすことの是非を教えていただきたいです。 http://www.aichi-gakuin.ac.jp/~chino/multivar/chapter5/sec5-1.html <疑問点2> ・従属変数が複数ある場合には重回帰分析は使えず、パス解析や共分散構造分析を用いる(小野寺、2006)とあるのですが、パス解析の説明書きには「潜在変数を扱わない」(山本、2000)とあり、また共分散構造分析は私の実験デザインには適合しないと思われ、では一体何を使えばいいんじゃ!と混乱しております。多変量重回帰分析なるものもあるようですが、疑問点1をクリアしないと、これも使うことはできないでしょう。従属変数が複数ありかつ潜在変数である場合、この因果モデルを検証するには、どの手法を使うことが可能なんでしょうか? お手数をおかけしますが、どうぞよろしくご教示ください。