• 締切済み

【重回帰分析】stepwiseで変数選択

こんにちは、趣味で統計学を学び始めた者です。 少し重回帰分析をかじってみて「おもしろい!」と思ったので、試しに自分でモデルを作り関連データを集めてエクセルでやってみました。 stepwiseで変数を落としていく方法をとるに当たり、とある疑問にぶつかったので、お詳しい方に質問をさせて頂きたく投稿しました。 【質問】 (1)stepwiseによる作業を経て完成した最終モデルは、他の国にも適用して良いのでしょうか?それとも、他の国の分析をする場合は再度初期モデルを用いて回帰分析を行ってstepwiseで変数選択を行う作業が必要なのでしょうか? (2)クロスバリデーション法って結局なんなんでしょうか。。。(撃沈) 【質問詳細】 対象国はヨーロッパのA国。 初期モデルはY=X1+X2+X3+X4+X5+X6+X7という形です。 (YはA国のGDP、X1~X7はA国のなんらかの数値です) stepwiseによる変数選択を経て、最終モデルはY=X1+X3+X6+X7となりました。 私のもくろみは、「Yに対してX3はpositiveな影響がある」と主張すること。 最終モデルの説明変数にはX3が含まれており、運良く係数の符号も正でしたので、ひとまず満足です。 ここからが悩みどころです。 このモデルをヨーロッパ上の他の国にも適応して、 「ヨーロッパではすべからく同様のことが言える」と言いたいのですが、 ここで他の国の分析をしていくに当たり、いちいち毎回初期モデルから回帰分析を行うべきなのでしょうか、それとも他の国にはもう最終モデルだけ当てはめて分析すればいいのでしょうか? というのも、すべての国に対していちいち初期モデルからやってもいいのですが、もし最終モデルだけ当てはめる方法でもいいなら、時間の短縮になると思ったのです。 本を漁ってみましたが初心者の私には専門用語ばかりで理解できず、ネットを漁ってみましたが私の理解力では煙に巻いたような説明ばかりです。 どうやら「クロスバリデーション法」というものを使えば、(私は初心者なので一般的な専門用語を使わずに言いますと)一度A国を分析する過程で完成した最終モデルを、そのまま他の対象国にも当てはめてOKらしいという記事をネットで見ましたが、、、このような理解で良いのでしょうか?それとも。。。何なんでしょうか。。。(撃沈) 専門的なことはまったくわからぬ初心者ですが、アホにも分かるように教えていただけると大変嬉しいです。よろしくおねがいします。

みんなの回答

  • DCI4
  • ベストアンサー率29% (448/1540)
回答No.2

引き続き生産的な解答をお待ちします ☆回答 補足 前回 説明がのみこめてないようですね 再度説明します 生産的な解答として やめたほうがよろしい その手法では解はえられない 違う方法を考えるべきという意味ですよ 理由 ARMAモデルなどを当てはめ 係数を求めて 効力のあるのは 変動する信号システムが線形の場合だ システムが微分方程式で表現出来る場合だ 信号が正弦波の合成 すなわちフェーリエ変換で表現出来る場合だ よってわのわからん経済変動(非線形システム 人間の損得で決まる信号) に採用しても何もでないと考えるからである すなわち 音楽信号で言えば 音楽の旋律は予測不能 あくまで(フェーリエ変換の考えを基に)欠落したデーターの補間フィルターとしてのみ予測可能 音楽の旋律は音楽を知っている人(音楽関係者)に予測させることが出来るが ARMAモデルなどでは予測は出来ないということである 確率数学は意味をなさないわけ   経済信号は 音楽信号と同じで 人間が意図して創作発生させたものが多い 同じなのは人間が意図して創作することであり音楽信号と共通 電気信号 ランダムシグナル 物理の波など とは違うと言うことである もちろん人間も 平常時 集団が同じ心理状態では 電気信号 ランダムシグナル 物理の波などに近い 動作をする場合も ときおり あるよ と言うことだ  以上が 私の結論説明    

  • DCI4
  • ベストアンサー率29% (448/1540)
回答No.1

最終モデルは、他の国にも適用して良いのでしょうか? 他の国の分析をしていくに当たり、いちいち毎回初期モデルから回帰分析を行うべきなのでしょうか ★回答 統計学による分析 目安でしかないよ あなたの目論見は水泡に帰す ※注意・・・・・ただし・・・・・・・・・・・私は経済学専攻ではない その分野の語句はしらん ウキペデアにもある http://en.wikipedia.org/wiki/Autoregressive%E2%80%93moving-average_model http://ja.wikipedia.org/wiki/%E8%87%AA%E5%B7%B1%E5%9B%9E%E5%B8%B0%E7%A7%BB%E5%8B%95%E5%B9%B3%E5%9D%87%E3%83%A2%E3%83%87%E3%83%AB 自己回帰移動平均モデル(じこかいきいどうへいきんモデル、英: Autoregressive moving average model、ARMAモデル) MA AR Z=e^iω  ;i は虚数 とすれば ARMAモデル=ARモデル×MAモデル(伝達関数のカケザン) これらはみな 電気工学 制御工学 通信工学で言うところの ざっくり処理過程だけに注目すれば・・・・・・・ IIRフィルター FIRフィルターでしかない たとえばそんなもんで バッハの音楽の再生をしているときに つぎの旋律は予想できない 経済変動も同じこと ※IIRフィルター FIRフィルター はあなたのパソコンの中にごろごろある一般的なもの 係数をいくらいじくったって モデルを組み合わせたって  同じこと

velasco
質問者

お礼

DCY4さん、コメントありがとうございます。 経済変動をバッハの旋律に例えるのは素敵ですね。 音のメロディにどんな意味が込められているのか(または何の意味も無いのか)は作曲者本人にしか分からないかもしれません。なので、私はそれを想像して楽しむことが好きです。 経済も同様、その意味も法則性も、もし存在するならば神のみぞ知ることなのでしょう。 だからこそ、私はそれを想像して楽しみたいのです:) 付き合っていただきありがとうございます、 引き続き生産的な解答をお待ちします。

関連するQ&A

  • 単回帰分析と重回帰分析の結果の違い

    論文を読んでいて疑問に思うことがありました.よろしくお願いします. 私は,回帰分析とは変数Yを、p個の変数X1,X2 ,… Xpにより説明したり予測するための統計的手法であり,p=1のときは単回帰分析,p>1のときは重回帰分析と呼ぶ,と解釈しています. 今,ある施設のサービス改善についての調査論文を読んでおります.そこではアンケート調査でその施設のサービスの総合評価Yと,8個の各サービス毎の評価(x1~x8)を調べ,総合評価Yを従属変数, x1~x8を説明変数として重回帰分析にかけます.そして出た相関係数から施設の総合評価に対する各サービスの重要度を求め,改善につなげようとしています. 結果,重要度は x1>x2>x6>x3>x7>x8>x4>x5 という結果になりました.ここまではわかるんです. ですが次に総合評価Yを従属変数,x1を説明変数として単回帰分析,また総合評価Yを従属変数,x2を説明変数として単回帰分析,また総合評価Yを従属変数,x3を説明変数として単回帰分析・・・というようにこの操作をx8まで続け,出た相関係数を比較しています.結果は x1>x2>x4>x8>x3>x5>x7=x6 となっており,重回帰分析の結果と照らしあわせると最初のx1とx2は合致しているものの,あとはバラバラです.x6にいたっては最後にきています.なぜでしょうか.論文は「どのサービスも総合満足度に重要な影響を与えており,特にx1,x2,x3,x4を改善するのがよい」 と締めくくっています. 質問は3点です. (1)なぜ重回帰分析の結果と単回帰分析の結果が異なるのか (2)どのサービスも総合満足度に重要な影響があるとして,それは重回帰分析の結果だけで言えるのではないか(重回帰でも相関係数は出ているし,単回帰分析をする意味はあるのか) 稚文ですみません. 当方あまりオツムがよろしくないのでできるだけわかりやすくよろしくお願いします.

  • 重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが

    重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが、重回帰分析は、目的変数(Y)を、説明変数 X1, X2, X3, X4.....X20などに影響されるか否かを検討しますよね。ここで、私がしようとしている統計学的処理と類似した研究の論文などを読んだりとかしていると、YとX1, YとX2, YとX3, YとX4.....YとX20の単回帰分析を各々行い、ここで有意な相関があったものを取り上げて(例えば、X1, X4, X7, X12, X18, X20の6個など)、この6個について、重回帰分析を施行して、ここで、X4, X18は有意でないといった結果が出たなら、Y=aX1+bX7+cX12+dX20という重回帰式を作成し、標準偏回帰係数を算出し、どの説明係数が最も目的変数に影響を与えているのか解析しているのですが、これが正しい方法(進め方)なのでしょうか? いきなり、YとX1~X20を重回帰分析したのは、どうでしょうか?これはダメなのでしょうか?単回帰分析では相関が有意にでない(他の説明変数の影響のために)けれども、重回帰分析では有意な結果となるような説明変数が無視されるような結果になるように思うのですが、どうでしょうか? 非常に低レベルな話しで申し訳ないのですが、お教え下さい。

  • 重回帰分析?

    二つの変数があり、各々従属変数に対して単回帰分析を行うと決定係数が0.5と0.4ぐらいの感じになります。この二つの変数をくっつけてもう少し精度を上げたいのですが、一方は線形なんですが、もう片方が非線形(指数関数)なのです。 たしか、重回帰分析は線形どうしでしかくっつけることができなかったような気がするのですが、どのようにしたらできるでしょうか? 混合モデルとかを使ったらよいのでしょうか??? 理論的に考えると Y=aX1 + bexp(cX2) かY=aX1 + bX1exp(cX2)と思うのです Yが従属変数X1,X2が変数、a,b,cがそれぞれ係数です。 使用できるソフトはSPSS,SAS,mintab,S-plus,R,excelです。Rでのが使い慣れているのでRでできるとよいのですが、できるならどのソフトでもかまいません。

  • 階層的重回帰分析

    階層的重回帰分析の変数解釈について 例えば、 目的変数:y 説明変数(強制投入法):x1 x2 x3  があるとし、 モデル1では、x1とx2を投入した所、x2が目的変数に対して、有意な変数でした。 そして、次にモデル2では、x1とx2に加え、x3を投入しました。 その結果、目的変数にたいし、x3は有意な変数となりましたが、 モデル1で有意な変数であったx2が有意な変数ではなくなりました。 このような場合の目的変数に対しての影響関係の解釈がいまいち理解できません。 これはどのように解釈すればよいのでしょうか。 よろしくお願いします。

  • 重回帰分析(多重共線性)について

    いつもお世話になっております。 重回帰分析における交互作用に関して質問させていただきます。 Y = α + β1X1 + β2X2 + β3X3 + β4X4 + β5X1X4 という回帰モデルがあり、 X4に関しては0または1をとるダミー変数です。 説明変数としてX1とX4の交互作用を投入しているのですが、 上記モデルを用いて分析を行うと多重共線性の問題が発生します。 さまざまな文献を読んで、通常、標準化ないし平均化(各変数ごとにその平均を引き変数の平均をゼロにすること) を行うことによりこのような多重共線性には対処できるということがわかったのですが、 あいにく、この場合にはX4がダミー変数であるため平均化(標準化)いう作業を行うことができません。 今回のような多重共線性に関する問題を適切にクリアする方法をご存知であれば、 ご教示のほどよろしくお願いいたします。

  • 回帰分析で以下のようになる原因は何でしょうか?

    回帰分析で以下のようになる原因は何でしょうか? 式1  logit(Y) = -3.23 + 2.45 * X1 式2  logit(Y) = -3.23 - 0.53 * X1 + 1.34 * X2 ロジスティック回帰分析によりYをX1,X2によって説明する式を推定しました. 説明変数にX1のみを用いた場合,式1ように,X1の上昇によってYの値も大きくなるというモデルになりました. しかし,説明変数にX2も加えた場合,式2のようにX1の上昇によってYが小さくなるというモデルになってしまいました. この解釈は正しいのでしょうか? もし正しいとすれば,式1と式2でX1の効果が逆に鳴っている原因は何でしょうか? ご教示お願いいたします. ちなみに問題を簡単にするため説明変数の数や係数の値は架空のものです.

  • おしえて!重回帰分析の独立変数(説明変数)

    重回帰分析の目的変数が、(A+B+C+D)というものとします。 A~Dは、数量データです。 説明変数にAやBなどが入っていたら、それはダメですか? 説明変数X(Aとか)が目的変数Y(A+B+C+D)の一部の構成要素だったら、Xを使って重回帰分析はやったらダメなのですか?

  • 非線形回帰分析の定義が分かりません.

    回帰分析を勉強しているのですが,非線形回帰分析が何なのか分からなくて困っています. 線形回帰モデルは Y = b0 + b1*X1 + b2*X2 + … + bp*Xp で与えられますが,この場合の線形とはパラメータに関して線形という 意味であって, Y = b0 + b1*lnX や Y = b0 + b1*X1 + b12*X1*X2 + b22*X2^2 も線形回帰モデルに含まれると聞いたのですが, だとすると非線形回帰分析とはどのようなモデルを想定することを言うのでしょうか?どなたか教えて頂けるとありがたいです.

  • 重回帰による変数の作成

    統計学については、初心者なのですが、論文の実証分析で使うことになり、必死に勉強しております!よろしくお願いします。 重回帰を用いて、説明変数(x1、x2・・・・xn)を用いて、新たな変数yを作成したいのですが、可能でしょうか? 参考になるHPや本など、情報をお願いします!

  • 高次の重回帰式について

    多変量解析を行なっているのですが教科書などを見ても見つからなかったので教えてください. 現在,3変数x1,x2,x3の重回帰式を作ろうとしています. 多変量解析は初めてなのでとりあえず,教科書に載っている方法を真似てみました. まず各変数と目的変数yについての単回帰式は,最小二乗法によって係数a~lを求めて y(x1) = a*x1^3+b*x1^2+c*x1+d y(x2) = e*x2^3+f*x2^2+g*x2+h y(x3) = i*x3^3+j*x3^2+k*x3+l という式が,実際の値とよく一致していることがわかりました. そこで重回帰式として y(x1,x2,x3) = a*x1^3+b*x2^3+c*x3^3+d*x1^2+e*x2^2+f*x3^2+g*x1+h*x2+i*x3+j というモデルを作ったのですが,実際の値と一致しません. 本やインターネットに載っている重回帰式はほとんどが y(x1,x2,x3) = a*x1+b*x2+c*x3+d といった,変数が1次の式ばかりで,私が作ったような重回帰式は載っていたとしても「高次回帰式である.」のようにさらっと書かれているだけでした. そのため何が悪いのか,どうすれば良いのか全くわからなくて困ってます.どなたか教えてください!お願いします.