• 締切済み

基準化したデータより得られた回帰式に新たな説明変数を代入する際の取り扱いについて

基準化したデータより得られた回帰式に新たな説明変数の数値を代入し、従属変数の数値を計算(予測)する際、その代入される説明変数も基準化されている必要があると思いますが、その基準化の方法はどのように行えばよいのでしょうか? 例えば、サンプル数10、従属変数1、説明変数4というデータセットがあり、全変数を基準化し回帰係数を求めたとします。 得られた回帰式を用い新しいデータの説明変数の数値を代入することにより説明変数の値を予測したいと思います。 この際、この新たなデータも基準化される必要があると思うのですが、基準化する際には回帰係数を求めるために用いた10個のサンプルより計算された各説明変数の平均及び標準偏差を用いて、基準化を行うのでしょうか? 具体的には10個のサンプルから計算された説明変数a,b,c,dの平均がそれぞれ2,4,6,8、及び標準偏差が10,20,30,40であったとします。 新たなデータの説明変数a,b,c,dの値が3,6,9,12であった場合は、それぞれ(3-2)/10, (6-4)/20, (9-6)/30, (12-8)/40の値を計算し、その数値を回帰式に代入するのでしょうか? 長くなってしまい申し訳ありませんが、どなたか詳しい方がいましたら是非教えていただきたくお願いします。

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

質問者さんの意図している基準化というものがどういうものか分からないのですが、、、 通常は平均0、分散1となるように変数の値を変換することを基準化といいますが、それとは違うものなのでしょうか? 基準化とは"個々の変数に対して"行われるものですから、新たに基準化したデータを投入して問題ないでしょう(というかそれ以外の方法が分からないのですが)。 a = {12, 20, 15, 30, 29} #原データ a' = {-1.135, -0.148, -0.764, 1.085, 0.962} #基準化されたデータ

shachi954
質問者

補足

ご回答頂き、有難うございます。 今回計算した回帰係数は標準化偏回帰係数であるため新たなデータを代入する際は基準化されたデータ(ここの言い回しが難しいのですが)でなければならないと思います。 しかし回答者さんのおっしゃるとおり、基準化は平均0、分散1となるように数値を変換する作業であります。 つまり、標準化偏回帰係数を計算する際に生データを基準化し回帰係数を計算した場合、当然その標準化偏回帰係数は平均0、分散1となる各説明変数のデータよりその係数が計算されています。 得られた標準化偏回帰係数により表される回帰式に、その式を計算する際は使用されていないデータ(新たな説明変数データ)を代入し従属変数の数値を計算する際の、その新たなデータの処理方法がわかりません。 例えば、ここに以下のデータセットがあります(サンプル数5、説明変数3つ、従属変数1つ)。 サンプルID = [説明変数1,説明変数2,説明変数3,従属変数] a = [2,12,10,200] b = [5,7,6,150] c = [4,24,20,210] d = [3,19,4,220] e = [6,16,14,280] 平均及び標準偏差[平均,標準偏差] 説明変数1 = [4.0, 1.58] 説明変数2 = [15.6, 6.50] 説明変数3 = [10.8, 6.42] 従属変数 = [212.0, 46.58] 上記の生データを基準化[(データ-平均)/標準偏差] a' = [-1.26, -0.55, -0.12, -0.26] b' = [0.63, -1.32, -0.75, -1.33] c' = [0.00, 1.29, 1.43, -0.04] d' = [-0.63, 0.52, -1.06, 0.17] e' = [1.26, 0.06, 0.50, 1.46] このa'~e'の基準化されたデータを使い回帰式を計算すると y = 0.00 + 0.38*説明変数1 + 0.58*説明変数2 - 0.06*説明変数3 という数式が得られます。 この数式に新たなデータ(説明変数のみ) f = [5,12,13] を用いて、このfの従属変数を予測する場合 生データである[5,12,13]を上記回帰式に代入することはできません(基準化されたデータにより算出されたため)。 そのためこのfを得られた回帰式に代入できる形に変形しなければなりません。 質問はここです。 標準化変回帰式に数値を代入するため、f 'を計算する必要があると思います。 その際には、生データを基準化する際に用いた(回帰式を求める際に使用した)平均及び標準偏差を用いてf'を計算するのでしょうか? つまり 説明変数1 = [4.0, 1.58] 説明変数2 = [15.6, 6.50] 説明変数3 = [10.8, 6.42] より f ' = [(5-4.0)/1.58, (12-15.6)/6.50, (13-10.8)/6.42]   = [0.63, -0.55, 0.34] を算出し、この[0.63, -0.55, 0.34]回帰式に代入し y = 0.00 + 0.38*説明変数1 + 0.58*説明変数2 - 0.06*説明変数3  = 0.00 + 0.38*0.63 + 0.58*(-0.55) - 0.06*0.34  = -0.10 と計算してよいのでしょうか? 長くなってしまい大変申し訳ありません。 もし、ご存知でありましたら教えていただきたくお願いいたします。

関連するQ&A

  • 線形回帰の変数

    ある二つの未知数を含む関数があり、その式をさまざまな形に変形し、データの値の代入方法を変えて(たとえば圧力ℙと体積℣のデータが得られた場合、(X,Y)=(1/ℙ,ℙ/℣)=(1/ℙ,1/ℙ)などなど)直線回帰しようとしたとき、縦軸と横軸の変数はどのような基準で選ぶべきなのでしょうか? また、選ぶ変数により相関係数に違いが出てしまうのはなぜですか? 実験データの処理で困ってます。よろしくお願いします。

  • 基準化データの最小二乗法の結果を原データと比べたい

    大きさの違う多変数のデータから、最小二乗法で回帰式を求める場合、各変数のデータのレベル合わせのために、各変数に対して基準化データ=(データ値-平均値)/標準偏差を用いることが良いとされています。この場合、求まった係数を回帰式に適用して計算した値は基準化データと比較すべきものと思いますが、それでよいでしょうか。またその場合、現データと比較するにはどうすればよいのでしょうか。

  • 原点を通る重回帰式について

    重回帰式Y=α+βX1+・・・・という線形回帰を使っているのですが 定数項が大きく+、-に振れたりしてこまっています。 サンプル数が少ないからぶれるのは仕方ないのですが どうすれば計算上α(定数項)をゼロにすることができるんですか。 教えてください。 ちなみに、変数は4変数、一次で、各係数は今後サンプルを増やせば +になるという条件でお願いいたします。

  • 重回帰分析の変数についての疑問

    重回帰分析を行いたいのですが、説明変数(独立変数)に性別などの2択の変数があります。 目的変数(従属変数)は、完全な数量データなのですが、、、、 説明変数も数量データでなければならないのですよね??? しかし、過去の論文などを参考に見ていたら独立変数に性別があり、男=1、女=0とか書いてあるのです。。。 それでいいの? 多変量解析の初心者なので、変な質問かもしれません。 目的変数=(標準偏回帰係数)*説明変数1+(標準偏回帰係数)*説明変数2+・・・+定数 の回帰方程式ですよね。 あと、それぞれの標準偏回帰係数の横にt値や有意確率が算出されますが、これは何? あと、論文の表記のやり方として何をどう記せばいいのですか? 独立変数 標準偏回帰係数をそれぞれ縦に記して、RやR^2を最後の行に記せばいいの? tや有意確率も記すの?というか、これは何? 色々とわからないのですが、どれか一つでも答えをお願いします。 教えてください。

  • 原点を通る重回帰式の偏回帰係数

    はじめまして。 目的変数に対し、3つの説明変数を持つ資料があり、原点を通る重回帰式をたてたいところです。Excelなど、計算機の機能によって答えはわかっているのですが、式を作る計算過程を説明する資料を作らなければならなくなりました。 Y = aX+ bW + cZ Y: 目的変数 X:説明変数1 W:説明変数2 Z:説明変数3 a,b,c : 偏回帰係数 について、残差平方和 {Σ(Yi - ( aXi + bWi + cZi ))}^2を最小にするa,b,cを求めたいのです。残差平方和に対し、a,b,cで偏微分するといいのだ・・・などという理論は概ねわかりますが、私の数学力では、実際に計算過程を書き表すことができません。 説明変数が2つで、原点を通らない重回帰式の偏回帰係数の計算方法については、たとえば、以下のURLに書き表した例があります。 http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg1.html このような書き表しの例で、説明変数が3つで、原点を通る重回帰式の偏回帰係数の計算方法をご紹介、またはご提示いただけないでしょうか。 どうかよろしくお願いいたします。

  • 重回帰式の応用

    重回帰分析の結果と回帰式の使い方、応用の方法について質問です。相関係数0.85、決定係数0.72と出たのですが、全部で7つの説明変数のうち6つは有意ではありませんでした。多重共通性の問題に該当する説明変数を省き、再度分析したのですが結果として有意と判断されるのは1つの要因のみでした。そこで、その1つの要因に対して単純回帰分析を行うと相関係数0.72、決定係数0.51と重回帰分析よりも数値が低下してしまいました。この場合有意性の問題を無視し、はじめの重回帰式を用いて被説明変数を求めること(有意ではない説明変数を多く使うことで、被説明変数の誤差を少なくすること)に何かしらの問題はありますでしょうか? 素人のため質問内容がわかりにくかったら申し訳ありません。よろしくお願いします。

  • 回帰 説明変数について

    いつもお世話になっております。 ある論文を読んでいて不思議に感じたので,そのことに関して伺いたく存じます。 時系列回帰にてある推定期間を用いてy=a+bx1+cx2という回帰式でa,bおよびcの推定します。 それらのa,b,cを用いて,y=a+bx1+c(x2+x3)と説明変数の一部を変更してyの期待値を算出していました。 このように回帰式で用いた説明変数を加工して、期待値を算出することには問題はないのでしょうか? ご存知の方がいらっしゃいましたら,ご教示のほどよろしくお願いいたします。 なお、係数にハットを付さなければならない箇所がありますが,^を用いれば指数とミスリードする可能性があるので割愛しております。

  • 回帰分析の説明変数

    回帰分析を行っています。 説明変数を設定する際に、分析対象の財務諸表から得られるそのままの数値ではなく、増加率に加工して回帰分析しています。 なぜ、この加工を施したかということを説明しなくてはなりません。 どこかで、そのままの数値を使用しない方がいいとうことを書いてあるのを読んでそのような加工を施したのですがらどこで読んだかを忘れてしまいました。 合理的な説明をしなくてはならないため、とても困っています。どなたか助けていたただけないでしょうか。よろしくお願いいたします。

  • 統計エクセル 量的データと質的データの回帰分析

    エクセル2013を使用している、エクセル統計勉強中の者です。 量的データ(説明変数)と質的データ(予測したいデータ)があり、 質的データを、可能な限り詳細な数値に置き換え、相関関係を調べてみました。 すると、相関係数が0.05という、相関関係がないという結果になりました。 この時点で、回帰分析や予測などは、断念すべきなのでしょうか? 相関がないと考えられた場合の、別の対応方法などがあるのであれば、ご教授お願いいたします。

  • 直線回帰の変数(再質問)

    ある二つの未知数を含む関数があり、その式をさまざまな形に変形し、データの値の代入方法を変えて(たとえば圧力Pと体積Vのデータが得られた場合、(X,Y)=(1/P,V/P)=(P,P/V)などP,Vの形を変えた変数を選ぶ)それぞれ直線回帰しようとしたとき、縦軸と横軸の変数の形はどのような基準で選ぶべきなのでしょうか? また、得られたデータは同じで変数に含まれる要素も同じなのに、選ぶ変数の形により直線性に違いが出てしまうのはなぜですか? 実験データの処理で困ってます。再質問なのですが、いまいちよくわからなかったので、よろしくお願いします。