• 締切済み

ダミー変数

エクセルでダミー変数を含んだデータをつくりました。 例えば、以下のようにです。 ABCD 0013 0109 1002 0106 A、B、Cがダミー変数です。Dはそのまま普通に数値として読ませたいです。 これをCSVファイルにしてRにインポートしたんですが、 そのまま統計分析するとエラーが出てしまいます。 ABC列がダミー変数だと認識していないからじゃないかと思ってるんですが(違うかもしれません)どうすればダミー変数と認識してくれるでしょうか。 (「数値変数を因子に変換」かと思ったんですが、 ABCを変換したい変数に選択すると、統計量の分析で選択できる変数から消えてしまってDしか出てこないんですがどうなってるんでしょう・・・あと水準名と数値のどちらを選べばいいかもよくわかりません・・) 基本的な質問ですみません。誰か助けてください。。

みんなの回答

noname#227064
noname#227064
回答No.2

No.1の方の回答にもありますが、もう少し説明が必要と思います。 おそらく、「Rコマンダーを利用していて、AからCの全てを説明変数にして統計量-モデルへの適合-線形回帰をしてみたら、一つの変数でNAが出てしまった」と思いますが…… ダミー変数の数はカテゴリー数-1、質問の例ですと2つあれば十分なので、余計な1つはNAになります。 > ABCを変換したい変数に選択すると、統計量の分析で選択できる変数から消えてしまってDしか出てこないんですがどうなってるんでしょう・・・ 統計量-モデルへの適合-線形回帰は、因子が含められないようですね。 線形モデルなら因子を含められるようです。 (Rコマンダー(Version:1.4-10 Date:2009/04/26)で確認)

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

実行例を載せてください。そうでないと、あなたが何をやったのか、それに対してどういうエラーが出たのかも分からないでしょう? とりあえず、インポートはできたとするなら: > A <- c(0, 0, 1, 0) > B <- c(0, 1, 0, 1) > C <- c(1, 0, 0, 0) > D <- c(3, 9, 2, 6) > result1 <- lm(D ~ B + C) > summary(result1) とすればできるでしょう(私は手入力しましたが)。もっとも、Rではダミー変数を自分で用意する必要などなく: > group <- c(3, 2, 1, 2) > group <- as.factor(group) > result2 <- lm(D ~ group) > summary(result2) とすれば、これは全く同じ結果が得られることが確認できるでしょう。 ちなみにですが、Rは別に「ダミー変数であると認識する」のではなく、numeric型として読み込まれます。 > class(A) [1] "numeric" > ABCを変換したい変数に選択すると、・・・ 意味が分かりません(^_^;)

関連するQ&A

  •  ダミー変数がわかりません!

    心理学科の院生です。修士論文で、統計解析を行っています。現在、重回帰分析を行っています。 わからないことがあり、質問します。  ある尺度の下位因子を従属変数して、独立変数に、続柄を設定しました。 質問紙では、1夫、2 妻、 3 父親、 4 母親、 5 舅、6 姑となっています。 指導教官からは、続柄は質的データだけれども、ダミー変数にすれば量的データとして 重回帰の独立変数にできるとうかがいました。 例えば、夫に○をつけたとすれば、(1・0・0・0・0・0)。姑に○をつけたとすれば(0・0・0・0・0・1) といった感じです。ただ、理屈はわかるものの、SPSSで、どのように作業すればいいのかわかりません!  ダミー変数の作り方とSPPSでの作業方法を教えてください。

  • 共分散構造分析における変数の使い方

    統計に関して全然稚拙な私ですがどうかご教授ください。 現在修士論文で共分散構造分析を使おうとしています。 先行研究を参考にしたモデルを多母集団同時分析をしようと しています。 統計に関してはホントにわからないことだらけで、いくつか 質問があります。 先行研究の潜在変数は4つに設定されています。 一つ目は4項目、2つ目は2項目の観測変数からなる潜在変数で ここまでは問題ないのですが、他の2つは「24項目6因子」 と「24項目5因子」の尺度を用いています。 この6因子と5因子のそれぞれの合成変数を観測変数として 扱って2つの潜在変数を作っています。 私としては合成変数として扱うと個々の項目の影響力がわからなく なるので「この方法論はどうなんだろう?」と疑問符でした。 この方法論をどのように考えますか? また6因子・5因子のままAMOSを使って共分散構造分析をしよう とすると「6因子・5因子のそれぞれは関係は、無相関でなければ なりません」という警告がでます。 これはどういった意味なのでしょうか?違う尺度の項目で作られた 因子なのですが、それぞれ共分散のパスを引くべきでしょうか? 意味のわからない質問かもしれませんが、何卒ご教授ください。 お願いいたします。

  • 重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。

    重回帰分析でレポートを書きたいのですが、重回帰分析ダミー変数ありで使用できるような事例と数値データはないでしょうか。 よろしかったら誰か教えてください(>_<)

  • SPSSのダミー変数について

    グループ1、グループ2、グループ3のテストの点数の平均と標準偏差をSPSSを使って比べる問題です。ダミー変数(D1, D2)を設定し、グループ1(D1=1, D2=0)、グループ2(D1=0, D2=1)、グループ3(D1=0, D2=0)と、ここまではできたのですが、各グループごと(グループ1、2、3)の平均と標準偏差の表を出すにはどうすれば良いでしょうか?SPSSは初心者なので、メニューのここからここを選択し・・・のように詳しく教えていただけると助かります。

  • 数量化三類と因子分析

    統計初心者です。 spssを使っています。 「やった事がない」ー「日常的にやっている」までの5件法で60項目のアンケートを取り、最尤法で因子分析を行おうとした所、 『その前に数量化三類を行う必要がある』と指摘されました。 数量化三類がSPSSでは「コレスポンデンス分析に」にあたるものだという事まで分かりましたが、それから先がさっぱり分からないでおります。 「1.やっている 5.日常的にやっている」のような1~5の順序尺度を、数量データに変換してくれるものだと思っていたのですが、「次元1」「次元2」など縦軸と横軸が出てきて、戸惑っています。 座標を表しているとの事なのですが、それを因子分析でどう使えばいいのか見当がつきません。 カテゴリカル主成分分析というやり方ですと、数量化された値は1つだけ(次元など出てこない)出てきたので、まだ分かりやすかったのですが… 『「0・1」のダミー変数を作って多重応答分析でも可』とも聞いたのですが、5件法のものを0・1に変換してその後どうするのかも不明です。 数量化3類の手順とそれをどのように因子分析に使うのか、具体的に教えて頂ける方、どうかお願い致します。

  • 心理学のレポートの統計に関する質問です(><)!!

    私は心理学部に所属していて、卒業論文の分析方法が解らなくてとても困っています!!(><)解らないのは、友人関係満足感、5因子性格検査、コーピングの3つの質問紙の分析方法です。宜しくお願いします。 色んな分析方法を考えては、駄目だったり解らないことがあったりと、もうどうしたらいいのかわかりません(泣) 目的は、友人関係満足感の違いからみたパーソナリティ特性と対人ストレスコーピングの関連性について検討することです。 対象者には、友人関係満足感、5因子性格検査(パーソナリティ特性)、対人ストレスコーピングの3つの質問紙に回答してもらい、それぞれ得点化していきます。 (現在考えている)分析方法は、独立変数を5因子性格検査(5水準)と対人ストレスコーピング(3水準)。従属変数を友人関係満足感。2要因(5×3水準)の分散分析を5個(パーソナリティ特性の5因子)出して、5個を比較して考察していこうと考えています。 ここでわからないことは、(1)量的である独立変数の、5因子性格検査と対人ストレスコーピングをどうやって群に分けるか、 (2)質問紙の回答の件法(?)を揃えるべきか、 (3)分散分析以外の分析を用いるべきであるのか、その場合どの分析方法を用いれば良いのか、 です。 分析は、心理学の統計です。 どうか教えてください…(><。。)

  • ダミー変数を用いた重回帰分析での影響度の比較

    ダミー変数と連続変数の両方を含むデータで、重回帰分析を行おうとしています。その際、各説明変数の目的変数への影響度の大きさに興味があります。 連続変数のみの重回帰分析であれば、標準偏回帰係数の大小で影響度が比較できると思います。 またあるWebページでは、ダミー変数のみの重回帰分析(数量化1類?)では、各アイテム変数のレンジ・単回帰係数・偏回帰係数などで比較をしていました。 しかしダミー変数と連続変数が同時に含まれる場合は、各説明変数の影響の大きさをどのように比較すれば良いのでしょうか。 例えば下記参考URLのWebページで、単価・曜日・天気から売り上げ本数を予測していますが、最後の方で出てくる係数は単価、日~月までの7種類、曇~雨の3種類、の合計11種類の係数が出ています。 これを単価・曜日・天気の3種類の影響度という形にして比較する、という事は可能なのでしょうか。 偏回帰係数とレンジをそのまま比較はできないと思うのですが、方法はあるのでしょうか。 参考URL: http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/tahenryo_jirei_02.htm

  • 統計分析の方法について。

    独立変数、従属変数ともに質的な変数である場合に、 複数の因子から結果を予測するための統計学的方法に はどのようなものがあるでしょうか? 統計学の素人で統計学の本を片手にSPSSなどで統計処 理を行いたいと考えているのですが、どの方法を用い て処理をすればよいのかわからずに困っています。 質的変数を扱うのでロジスティック回帰分析かとも考 えたのですが、「ロジスティック回帰分析の場合、独 立変数は連続変数、従属変数が質的変数の時に用い る」らしい・・・ということで、ロジスティック回帰分析 もあてはまらないのかな、と思います。 どなたか統計学や医療分野での統計処理に詳しい方、 教えていただけないでしょうか。 よろしくお願いします。

  • 重回帰分析について

    重回帰分析を用いて、性別を調整した解析を行いたいのですが・・・ 結果の見方がわかりません。 男を1、女を0というダミー変数にし、解析を行っています。 それによって、得られた標準化偏回帰係数が-(-)を示しているときは、男性の方が負の影響を与えているのか・・・それとも女性に負の影響を与えているのかわかりません。 また、調整するためのダミー変数ならば、得られた数値は無視して他の独立変数の値を見ればよいのか・・・どのように解釈したらよいのかわかりません。 統計に詳しいかたがいましたら、お願いします。

  • 重回帰分析の説明変数の対数化について

    重回帰分析を行っています。説明変数の対数化の必要性ついて教えてください。先生によると、説明変数を対数化し、正規分布に近づけることで、残差を正規に近づける効果があると聞いたのですが。。。ここで質問なのですが、たとえば臨床検査値をそのまま説明変数としてステップワイズにかけても選択されないのに、対数化すると有意な因子として選択されるとします。この対数化された検査値の解釈の仕方なのですが、臨床現場での生かすとしたら、「対数化された臨床検査値が目的変数に影響を与える」という意味になるのでしょうか。