• ベストアンサー

ダミー変数について

重回帰モデルのダミー変数について類似の質問も読んでみたんですが、初心者なので分かり易く教えて頂けたら嬉しいです。 よく男性と女性で0と1を使ったりしますが、 例えば文学部4年までを、1年・2年・3年・4年生の4つで調べたい場合に教科書を読むと、「2つ以上のカテゴリーが存在する場合にもダミー変数を用いることができる。これは想像を絶するよりもずっと扱いが難しく、必要な場合には専門書を参照するべきである。」と書かれてました。(なので1年と4年の2つで調べようかと思うんですが。) 何がどう難しくなるのか、統計は苦手なので、できるだけ分かり易く教えて頂けたら嬉しいです。

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

たぶん、そのように書かれていたのは「昔の教科書」だからではないでしょうかね。すくなくとも今ではコンピュータが普及しているので簡単にできます(というか、当たり前のように使われています)。それで、何が難しいのかというと、要するに計算が面倒ということですね(^_^;) 統計解析システム(例えばRとか)ではダミー変数を作成しなくても、1学年=1、2学年=2、3学年=3、4学年=4といったように整数値で表現した場合であっても、それがカテゴリカル型の変数であることを指定してあげれば、通常の重回帰分析のように分析できます。 # これは学年を表すデータベクトル > gakunen <- c(1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4) > gakunen <- as.factor(gakunen) # カテゴリカル型の変数として指定 # 身長データ > shincyo <- c(160, 167, 159, 171, 173, 168, 180, 173, 169, 181, 179, 170) > result <- lm(shincyo ~ gakunen) # 身長を学年で説明するモデル > summary(result) # 結果の表示 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 162.000 2.749 58.936 7.63e-12 *** gakunen2 8.667 3.887 2.229 0.05634 . gakunen3 12.000 3.887 3.087 0.01496 * gakunen4 14.667 3.887 3.773 0.00544 **

koinukura
質問者

お礼

さっそくのお返事ありがとうございます。 大変参考になりました。 この度は本当に助かりました。ありがとうございます

関連するQ&A

  •  ダミー変数がわかりません!

    心理学科の院生です。修士論文で、統計解析を行っています。現在、重回帰分析を行っています。 わからないことがあり、質問します。  ある尺度の下位因子を従属変数して、独立変数に、続柄を設定しました。 質問紙では、1夫、2 妻、 3 父親、 4 母親、 5 舅、6 姑となっています。 指導教官からは、続柄は質的データだけれども、ダミー変数にすれば量的データとして 重回帰の独立変数にできるとうかがいました。 例えば、夫に○をつけたとすれば、(1・0・0・0・0・0)。姑に○をつけたとすれば(0・0・0・0・0・1) といった感じです。ただ、理屈はわかるものの、SPSSで、どのように作業すればいいのかわかりません!  ダミー変数の作り方とSPPSでの作業方法を教えてください。

  • 重回帰のダミー変数について

    重回帰分析で,少々悩んでおります。お詳しい方,どなたかご教示下さい。 200人ほどのデータ(職業,年収等)があり,職業が被説明変数に対し,影響を持つのかを重回帰分析を用いて説明しようとしています。職業は10ほどのカテゴリに分け,それぞれダミー変数として説明変数に加えています。 ただ,どうしても分けられない職業が30ほどあり,「その他」として分類しています。この「その他」という職業カテゴリも,ダミー変数として説明変数に入れるべきですか?入れた場合,この変数が有意であった場合どのように解釈すれば良いでしょうか。 大変困っております。どうかお詳しい方ご教示下さい。

  • ダミー変数の中心化について

    量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか? ダミー変数は中心化すべきなのでしょうか? また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか? 詳しい方がおられましたら,是非ご教示ください。 よろしくお願いいたします。

  • ダミー変数だけによる重回帰分析

    被説明変数は連続変数、説明変数はすべてダミー変数、という重回帰分析を行う際に何か注意することはあるのでしょうか。あるいはこうした場合は単純な重回帰分析は使うべきでないのでしょうか。

  • 重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

    重回帰分析をし、コントロール変数やダミー変数が有意になったときはどのような解釈をすればよいのでしょうか?

  • イヤーダミーについて

    この前に統計による分析をした時に、教授が「イヤーダミー」という言葉をおっしゃってたのですが「イヤーダミー」とはどういったものなんでしょうか?統計学や計量経済学の分野だと思うのですが。 文系なので直観的に理解しているのと、重回帰の仕方を知っている程度なので、統計にあまり詳しくありません。 なので教えていただきたいです。お願いします。

  • 重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。

    重回帰分析でレポートを書きたいのですが、重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。 よろしかったら誰か教えてください(>_<)

  • ダミー変数の意味

    ダミー変数についてお伺いいたします。 以下のようにダミー変数を入れた場合、x(k),x(k+1)の回帰係数が0 という仮説は、それぞれどのような意味があるのでしょうか? <高校の入学試験の点数について>       x(k)   x(k+1) 一般入試 1   1 推薦入学 1   0 内部進学 0   0 宜しくお願いいたします。

  • ダミー変数を用いた重回帰分析での影響度の比較

    ダミー変数と連続変数の両方を含むデータで、重回帰分析を行おうとしています。その際、各説明変数の目的変数への影響度の大きさに興味があります。 連続変数のみの重回帰分析であれば、標準偏回帰係数の大小で影響度が比較できると思います。 またあるWebページでは、ダミー変数のみの重回帰分析(数量化1類?)では、各アイテム変数のレンジ・単回帰係数・偏回帰係数などで比較をしていました。 しかしダミー変数と連続変数が同時に含まれる場合は、各説明変数の影響の大きさをどのように比較すれば良いのでしょうか。 例えば下記参考URLのWebページで、単価・曜日・天気から売り上げ本数を予測していますが、最後の方で出てくる係数は単価、日~月までの7種類、曇~雨の3種類、の合計11種類の係数が出ています。 これを単価・曜日・天気の3種類の影響度という形にして比較する、という事は可能なのでしょうか。 偏回帰係数とレンジをそのまま比較はできないと思うのですが、方法はあるのでしょうか。 参考URL: http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/tahenryo_jirei_02.htm

  • ダミー変数決定について

    下を重回帰分析をしようと思ってるんですが、適当なダミー変数が思いつかなくて悩んでいます(>_<)よろしかったら誰かアドバイスお願いします。 (1)交通事故発生件数:人口密度 (2)公式サイト訪問者数:観客動員数 (3)国民所得:労働時間 (4)利益率:広告費率 どれでもいいんでアドバイスお願いしますm(__)m