統計学 重回帰分析についての問題

このQ&Aのポイント
  • 統計学の重回帰分析についての問題です。
  • 米国の大気汚染に関するデータを用いて、重回帰分析を行います。
  • 分析結果から示される回帰式の性能についても考察します。
回答を見る
  • ベストアンサー

統計学 重回帰分析についての問題

米国における大気汚染に関するデータについて,以下の問いに答えよ.但し, 表中の7 つの変数の意味は以下のとおり. SO2 大気中の二酸化硫黄の含有量[マイクログラム/立方メートル] Temp 年間平均気温(華氏) [度] Manuf 20 人以上を雇用する製造業者の数 Pop 住民数(1970 年の国勢調査に基づく) [千人単位] Wind 年間平均風速[マイル/時間] Precip 年間平均降水量[インチ] Days 降水のあった日数の年間平均[日] (1) R 上でSO2 を目的変数,残りの6 つを説明変数とする重回帰分析を実行せよ. (2) (1) で求められる重回帰式を記せ. (3) (1) における自由度調整済み寄与率を求めよ.また,この値から,(1) で求めら れた回帰式の性能について何が言えるか. この問題について、とりあえずRで実行したのですが… NAって何かよくわからないのですが、数値が出ていないので間違っていると思うのですが… どうすればいいですか?? > usair<-read.table("clipboard",header=TRUE) ♯Excel上で範囲指定したデータを読み込む > usair City SO2 Temp Manuf Pop Wind Precip Days 1 Phoenix 10 70.3 213 582 6.0 7.05 36 2 LittleRock 13 61.0 91 132 8.2 48.52 100 3 SanFrancisco 12 56.7 453 716 8.7 20.66 67 4 Denver 17 51.9 454 515 9.0 12.95 86 5 Hartford 56 49.1 412 158 9.0 43.37 127 6 Wilmington 36 54.0 80 80 9.0 40.25 114 7 Washington 29 57.3 434 757 9.3 38.89 111 8 Jacksonville 14 68.4 136 529 8.8 54.47 116 9 Miami 10 75.5 207 335 9.0 59.80 128 10 Atlanta 24 61.5 368 497 9.1 48.34 115 11 Chicago 110 50.6 3344 3369 10.4 34.44 122 12 Indianapolis 28 52.3 361 746 9.7 38.74 121 13 DesMoines 17 49.0 104 201 11.2 30.85 103 > attach(usair) > lm1<-lm(SO2~.,data=usair)  > summary(lm1) Call: lm(formula = SO2 ~ ., data = usair) Residuals: ALL 13 residuals are 0: no residual degrees of freedom! Coefficients: (6 not defined because of singularities) Estimate Std. Error t value Pr(>|t|) (Intercept) 24 NA NA NA CityChicago 86 NA NA NA CityDenver -7 NA NA NA CityDesMoines -7 NA NA NA CityHartford 32 NA NA NA CityIndianapolis 4 NA NA NA CityJacksonville -10 NA NA NA CityLittleRock -11 NA NA NA CityMiami -14 NA NA NA CityPhoenix -14 NA NA NA CitySanFrancisco -12 NA NA NA CityWashington 5 NA NA NA CityWilmington 12 NA NA NA Temp NA NA NA NA Manuf NA NA NA NA Pop NA NA NA NA Wind NA NA NA NA Precip NA NA NA NA Days NA NA NA NA Residual standard error: NaN on 0 degrees of freedom Multiple R-squared: 1, Adjusted R-squared: NaN F-statistic: NaN on 12 and 0 DF, p-value: NA 回答よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.2

> > slm1<-step(lm1) > とすると回帰診断ができますがこれはいらないですかね?? 変数選択をしたいわけではないので不要です。 > (2)、(3)もなんなのかよくわからないです。 というのは、問題の意味がわからないのでしょうか? それとも、意味はわかるけど解析結果から読み取れないということでしょうか? 前者なら基本から勉強しなおしましょう。 とりあえず、ヒントをだしますと、 > (2) (1) で求められる重回帰式を記せ. 重回帰式とはこの問題でいえば SO2 = a + b×Temp + c×Manuf + d×Pop + e×Wind + f×Precip + g×Days という関係式のことです。 係数のa~gは「Coefficients:」の「Estimate」に書いてあります。 > (3) (1) における自由度調整済み寄与率を求めよ.また,この値から,(1) で求められた回帰式の性能について何が言えるか. 自由度調整済み寄与率は、「Adjusted R-squared:」にあります。 寄与率は1に近いほどよい回帰式が得られたことになります。

gsb57529
質問者

お礼

回答ありがとうございます。 (2)について… 「Coefficients:」の「Estimate」がそれぞれの係数であることはわかるのですが、どのように答えればよいのかが分からなくて… ただ単に(1)のRの結果より、SO2=a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? (3)について・・・ 自由度調整済み寄与率は「Adjusted R-squared:」より、0.9095 であることはわかるのですが、この値から(1)で求められた回帰式の性能について言えることが何なのかわからなかったのです。 >寄与率は1に近いほどよい回帰式が得られたことになります。 とのことですが、どのような基準で近いとかの判断をすればよいのでしょうか?? あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? ご指導よろしくお願いします。

その他の回答 (4)

noname#227064
noname#227064
回答No.5

> 「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね?? 勿論そうなのですが、 > 「Residuals」の5つの数値は何を意味してるのでしょうか?? > 「Coefficients」は4種の数値がありますが、これはすべて係数を意味してるのでしょうか?? このあたりは、基本的なところなので参考書等を見ましょう。 とはいえ、これだけで終わるのもなんですので、簡単に説明をしておきましょう。 Residualsは残差、standard errorは標準誤差、F-statisticはF統計量、p-valueはp値のことです。 残差は「従属変数の値-重回帰式による予測値」であり、標準誤差は求めた係数がどこまで信頼できるか、F統計量はその回帰式が意味のあるものかどうかの判定に使われ、p値は従属変数が独立変数とは無関係で合った場合に、得られたF統計量より極端な値が得られる確率を意味します。

gsb57529
質問者

お礼

回答ありがとうございました!! 正直英語の意味が分からず困っていました…。 親切な回答、大変勉強になりました。 ありがとうございました。

noname#227064
noname#227064
回答No.4

> …こんな感じで解答しようと思うのですが、どうでしょうか?? いいと思います。

gsb57529
質問者

お礼

ご指導ありがとうございました!! 問題は解決したのですが… 「Residuals」の5つの数値は何を意味してるのでしょうか?? 「Coefficients」は4種の数値がありますが、これはすべて係数を意味してるのでしょうか??「Estimate」は「係数の最小2乗推定値」であることはわかるのですが… 「Residual standard error:」、「F-statistic:」、「p-value: 」の値も、 > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) において、重回帰分析を実行し、以下、実行結果の要約となっているので、「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね??

noname#227064
noname#227064
回答No.3

> (2)について… > ただ単に(1)のRの結果より、SO2=a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? 行列式とはいいませんが、それだけで良いですよ。 > (3)について・・・ > どのような基準で近いとかの判断をすればよいのでしょうか?? 寄与率(自由度調整済も含み)は従属変数の変動をどれだけ説明しているかの目安で、分野や解析者によって判定基準が異なるので一概には言えませんが、0.9以上あれば十分よいといえると思います。 > あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? 寄与率は変数を加えると必ず大きくなります。 例え、全く意味のない変数だとしても大きくなってしまい、それを防ぐために自由度で調整しています。

gsb57529
質問者

お礼

回答ありがとうございました。 (2)について… 行列式なんて変なことを言ってすみません!! 解決しました!! (3)について… 自由度調整済み寄与率は、「Adjusted R-squared:」にあるから、 0.9095 である。 寄与率は 1 に近いほどよい回帰式が得られたことになる(なぜならば、寄与率は目的変数の変動のうちの回帰による変動の割合を示しているから)から、およそよい回帰式が得られたと考えられる。 …こんな感じで解答しようと思うのですが、どうでしょうか?? 回帰式の性能について不足せずに答えられているでしょうか?? ご指導よろしくお願いします。

noname#227064
noname#227064
回答No.1

> NAって何かよくわからないのですが、数値が出ていないので間違っていると思うのですが… > どうすればいいですか?? 理由は簡単で > SO2 を目的変数,残りの6 つを説明変数 とあるように、指定されていないCityまで入れてしまい、ダミー変数が増え、データ数より変数が多くなってしまったからです。 Cityははずしましょう。 ちなみにNAの意味はNot Availableで利用できないという意味です。

gsb57529
質問者

お礼

回答ありがとうございます。 説明変数を指定して対処しました!! > usair<-read.table("clipboard",header=TRUE) > usair City SO2 Temp Manuf Pop Wind Precip Days 1 Phoenix 10 70.3 213 582 6.0 7.05 36 ・・・ 13 DesMoines 17 49.0 104 201 11.2 30.85 103 > attach(usair) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) > summary(lm1) Call: lm(formula = SO2 ~ Temp + Manuf + Pop + Wind + Precip + Days, data = usair) Residuals: Min 1Q Median 3Q Max -11.603 -2.867 1.186 4.603 7.254 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 119.617244 54.950275 2.177 0.0724 . Temp -1.160788 0.593868 -1.955 0.0984 . Manuf 0.036889 0.016176 2.281 0.0628 . Pop -0.010830 0.016201 -0.668 0.5287 Wind -8.634580 3.804757 -2.269 0.0637 . Precip 0.007181 0.503908 0.014 0.9891 Days 0.414861 0.313471 1.323 0.2339 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.303 on 6 degrees of freedom Multiple R-squared: 0.9548, Adjusted R-squared: 0.9095 F-statistic: 21.11 on 6 and 6 DF, p-value: 0.0008637 こんな感じになりました!! あとこの後に > slm1<-step(lm1) とすると回帰診断ができますがこれはいらないですかね?? そして例題みたいなものをもとにとりあえずRでやってみたのですが意味がよくわからないので(2)、(3)もなんなのかよくわからないです。 なのでいろいろ指導していただきたいです!!

関連するQ&A

  • 統計学 重回帰分析についての問題

    問題 目的関数をy、説明変数を他の二つとして重回帰分析を行え。 この問題をRで実行し、※は自分がつけた補足です。 以下は間違ったことを言っていないか見てほしいです。 よろしくお願いします。 > condo<- read.table("clipboard",header=TRUE) ※Excel上で範囲指定したデータを読み込む > condo x1 x2 y 1 12 4 22 2 12 3 24 3 11 3 21 4 7 1 19 5 8 3 19 6 9 2 22 7 14 5 24 8 11 4 23 > attach(condo) > lm1<- lm(y~.,data =condo)  ※yを目的変数、他のすべての変数を説明変数として線形重回帰分析を実行 > summary(lm1) ※実行結果の要約 Call: lm(formula = y ~ ., data = condo) Residuals: ※残差の8数要約 1 2 3 4 5 6 7 8 -0.7477 0.6682 -1.3259 -0.4708 -0.3084 1.1016 -0.1752 1.2582 Coefficients: ※係数の最小二乗推定値と対応t値など Estimate Std. Error t value Pr(>|t|) (Intercept) 13.0140 2.1917 5.938 0.00193 ** ※β_0 x1 1.0058 0.3465 2.903 0.03369 * ※β_1 x2 -0.5841 0.6478 -0.902 0.40854 ※β_2 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.087 on 5 degrees of freedom Multiple R-squared: 0.7852, Adjusted R-squared: 0.6992 ※寄与率、自由度調整済み寄与率 F-statistic: 9.137 on 2 and 5 DF, p-value: 0.02139 最後の行は、母集団において、得られた回帰式 y= β_0+ β_1 x_1+ β_2 x_2+ ε_i が全くあてにならないという仮説(H0: β_1= β_2= 0 )を分散分析で検証している。検定統計量 F=S_R・(n-p-1)/ S_e・p ( n:標本数、p:説明変数の数、S_R:回帰による平方和、S_e:残差平方和 ) が自由度(p,n-p-1)のF分布に従うことを用いている。上記では、p値が0.02139と極めて小さいので、有意水準0.05で仮説H0は棄却され、母集団においてもこの式はあてになるという結論に至る。 ・・回答よろしくお願いします。

  • 統計学 線形重回帰分析についての問題

    問題 高校生22名の物理の学力yと、物理の興味x_1、数学の学力x_2、知能偏差値x_3との関係を調べたデータ(100点満点で点数化)(22record.xls)に関して、yのx_1,x_2,x_3に対する線形重回帰分析を行え。 以下は、この問題について、R上で実行した結果と、※は自分が補足した部分です。これについて、間違ったことを言っていないか見てほしいです。 よろしくお願いします。 > record<- read.table("clipboard",header=TRUE) ※Excel上で範囲指定したデータを読み込む > record y x_1 x_2 x_3 1 43 35 50 55 2 62 44 50 70 3 15 20 10 32 4 23 32 15 45 5 84 70 88 80 6 90 76 90 92 7 67 58 82 54 8 45 37 52 45 9 75 85 92 60 10 13 10 15 25 11 56 52 58 73 12 86 62 83 89 13 24 30 24 60 14 18 22 20 32 15 52 60 46 42 16 80 50 72 86 17 70 92 63 76 18 32 38 25 17 19 37 45 30 25 20 50 46 55 73 21 60 63 59 73 22 72 43 70 72 > lm1<- lm(y~.,data=record)  ※yを目的関数、他のすべての変数を説明変数として線形重回帰分析を実行 > summary(lm1) ※実行結果の要約 Call: lm(formula = y ~ ., data = record) Residuals: ※残差の5数要約 Min 1Q Median 3Q Max -8.871 -4.041 -0.737 5.087 8.921 Coefficients: ※係数の最小二乗推定値と対応t値など Estimate Std. Error t value Pr(>|t|)   (Intercept) -1.95005 3.95936 -0.493 0.6283  ※β_0 x_1 0.17629 0.10686 1.650 0.1163  ※β_1 x_2 0.61691 0.10483 5.885 1.43e-05 *** ※β_2 x_3 0.23466 0.09315 2.519 0.0214 *  ※β_3 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 5.976 on 18 degrees of freedom Multiple R-squared: 0.9485, Adjusted R-squared: 0.94 ※寄与率、自由度調整済み寄与率 F-statistic: 110.6 on 3 and 18 DF, p-value: 8.711e-12 ※回帰式に関する分散分析 > slm<- step(lm1) ※変数選択実行 Start: AIC=82.25 ※AIC(Akaike's Information Criterion);赤池情報量規準 y ~ x_1 + x_2 + x_3 Df Sum of Sq RSS AIC <none> 642.83 82.25 - x_1 1 97.21 740.04 83.34 ※AIC最小 - x_3 1 226.66 869.49 86.89 - x_2 1 1236.70 1879.53 103.85 上記では、AIC法による変数選択を行っている。この方法では、AICの値が小さいほど良いモデルとされる。 独立正規誤差を仮定する場合: AIC=2p+n/2+n/2log(2πσ^2) (p:説明変数の数、n:標本数、σ:誤差分散の不偏推定量) ・・回答よろしくお願いします。

  • 統計ソフトRの初心者です。

    統計ソフトRの初心者です。 今、回帰分析について勉強しているんですけど わからないことがあるので教えてください!! 問題としては平均の信頼区間と予測区間を散布図上にプロットせよ。 と言う問題です。ここまでの問題で書いたプログラムは以下のとおりです。平均の信頼区間、予測区間自体は求めることができたんですけど それを散布図上にプロットするやり方がわかりません。 詳しい方お願いします!! > boats=c(447,460,481,498,512,513,526,559,585,614,645,675,711,719,727) > manatee=c(13,21,24,16,24,20,15,34,33,33,39,43,50,47,54) > plot(boats,manatee) > cor(boats,manatee) [1] 0.9512923 > out=lm(boats~manatee) > summary(out) Call: lm(formula = boats ~ manatee) Residuals: Min 1Q Median 3Q Max -48.069 -13.850 1.090 18.110 59.692 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 361.9077 21.0430 17.20 2.53e-10 *** manatee 6.9601 0.6256 11.13 5.15e-08 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 31.25 on 13 degrees of freedom Multiple R-Squared: 0.905, Adjusted R-squared: 0.8976 F-statistic: 123.8 on 1 and 13 DF, p-value: 5.15e-08 > abline(lsfit(boats,manatee)$coef) > anova(out) Analysis of Variance Table Response: boats Df Sum Sq Mean Sq F value Pr(>F) manatee 1 120860 120860 123.78 5.15e-08 *** Residuals 13 12693 976 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > boats.new=1 > predict1=predict(out,data.frame(boats=boats.new),interval="predict",level=0.95) Warning message: 'newdata' had 1 rows but variable(s) found have 15 rows > predict1 fit lwr upr 1 452.3884 378.5162 526.2606 2 508.0688 437.0336 579.1041 3 528.9490 458.5776 599.3203 4 473.2685 400.6356 545.9015 5 528.9490 458.5776 599.3203 6 501.1088 429.8023 572.4152 7 466.3085 393.2852 539.3318 8 598.5495 528.7167 668.3823 9 591.5894 521.8203 661.3586 10 591.5894 521.8203 661.3586 11 633.3497 562.8099 703.8896 12 661.1900 589.6287 732.7512 13 709.9103 635.6428 784.1779 14 689.0302 616.0602 762.0001 15 737.7505 661.4514 814.0497 > predict2=predict(out,data.frame(boats=boats.new),interval="confidence",level=0.95) Warning message: 'newdata' had 1 rows but variable(s) found have 15 rows > predict2 fit lwr upr 1 452.3884 422.3884 482.3884 2 508.0688 485.9576 530.1800 3 528.9490 509.0738 548.8241 4 473.2685 446.4648 500.0723 5 528.9490 509.0738 548.8241 6 501.1088 478.1413 524.0762 7 466.3085 438.4642 494.1528 8 598.5495 580.6743 616.4247 9 591.5894 573.9646 609.2142 10 591.5894 573.9646 609.2142 11 633.3497 612.8860 653.8135 12 661.1900 637.4431 684.9368 13 709.9103 678.9496 740.8711 14 689.0302 661.3261 716.7342 15 737.7505 702.1914 773.3097

  • 統計、回帰分析の問題です

    統計の問題です。 データが与えられたうえで、病院の病床数と必要人員の関係について、 y=107+3.59x (y=人員、x=病床数) というregression modelがあるとき、病床1床追加するのに必要な人員数の95% confidence intervalを求めよ、という問題の解法の考え方について知りたいです。何卒よろしくお願いします。

  • 重回帰分析の問題

    添付してあるテーブルを元にb0, b1, b2の値を求めなさいという問題です。答えは、b1=0.6084, b2=0.0017, b0=-1.0087なのですが、このテーブルのどの数字から算出した数字なのかが分かりません。お詳しい方がいらっしゃいましたら、公式は結構ですので、テーブルにある具体的な数字を例に計算式を教えていただけませんでしょうか?よろしくお願い致します。ちなみに、b1, b2は偏回帰係数、b0は定数項のことだと理解しています。 http://www.fastpic.jp/images.php?file=8382734787.jpg

  • 統計学の重回帰について

    重回帰のときの変数選択の重要性というのはどうゆうものがあるのでしょうか?なるべく沢山のことを知りたいので教えてください。

  • 重回帰分析について

    重回帰分析を研究に用いたいのですが、アンケート結果をクロス表にまとめ、その表を重回帰分析に利用することは可能でしょうか? 重回帰分析は最近知ったばかりで、分からないことだらけです。 皆さんのご意見をお聞かせください。よろしくお願いします。

  • 重回帰分析で

    「エクセル多変量解析」というソフトを使って重回帰分析を行おうとして、データの範囲を指定したのですが、「サンプル数(時期数)が足りません!」というメッセージが出て計算ができませんでした。重回帰分析に最低限必要なサンプル数というものがあるのでしょうか。  私は文系の学生で数学的なことは良く分かりませんが、よろしくお願いいたします。

  • 重回帰分析について

    現在海外の大学で、今学期社会調査のコースをとっています。 先日、重回帰分析を学んだのですが、頭がついていかず、まったくわかりませんでした。どなたか、わかりやすく説明していただけないでしょうか? 日本語のサイトをさらってみたのですが、まだよくわかりません。 重回帰分析は、複数の従属変数dependent variablesと独立変数dependent variableの相関を調べるためにあるのだと解釈しています。 例にだされた、モデルが以下のようなものとなっています。 二酸化炭素の排出量に関するもでるです。               モデル1  モデル2  モデル3 定数            -0,019 -0,244 -0.790 電気消費   2.315*** 2.296*** 2.293*** 都市よりかどうか        0.004 0.007 人口の伸び 0.349 R-squared 0.908 0.910 0.911 *Siginificant at p< .05 **Siginificant at p< .01 ***Siginificant at p< .001 この表の場合、二酸化炭素消費が従属変数になり、電気消費・都市よりかどうか・人口成長率が従属変数になるのだと思います。 相関度が強いのは、モデル1、2、3いずれも電気消費となっているのだと思います。 R-squaredを調べてみたところ、決定係数/寄与率と説明してありましたが、よくわかりません。また、モデル1、2、3とありますが、どのようにモデルは決定されるのでしょうか? 英語を翻訳して記しているので、多少ニュアンスの間違い等あると思います。また、グラフがずれて表示されよみにくくなっているかもしれません。すみません。 よろしくお願いします。

  • 重回帰分析について

    重回帰分析についての質問です *学生本人、その父親・母親の身長および性別 身長  性別(X) 父の身長(X2) 母の身長(X3) 176 1     174      166 173 1     169      160  ・  ・      ・        ・  ・  ・      ・        ・  ・  ・      ・        ・ というデータがあるとします。説明関数xが性別のダミー変数で男なら1女なら0の値をとる。変回帰分析係数β^1の値からどの様なことが読み取れますか?