統計学　重回帰分析についての問題

2010/01/24 17:50

このQ&Aのポイント

統計学の重回帰分析についての問題です。
米国の大気汚染に関するデータを用いて、重回帰分析を行います。
分析結果から示される回帰式の性能についても考察します。

統計学　重回帰分析についての問題

米国における大気汚染に関するデータについて，以下の問いに答えよ．但し，表中の7 つの変数の意味は以下のとおり． SO2 大気中の二酸化硫黄の含有量[マイクログラム/立方メートル] Temp 年間平均気温(華氏) [度] Manuf 20 人以上を雇用する製造業者の数 Pop 住民数(1970 年の国勢調査に基づく) [千人単位] Wind 年間平均風速[マイル/時間] Precip 年間平均降水量[インチ] Days 降水のあった日数の年間平均[日] (1) R 上でSO2 を目的変数，残りの6 つを説明変数とする重回帰分析を実行せよ． (2) (1) で求められる重回帰式を記せ． (3) (1) における自由度調整済み寄与率を求めよ．また，この値から，(1) で求められた回帰式の性能について何が言えるか．この問題について、とりあえずRで実行したのですが… NAって何かよくわからないのですが、数値が出ていないので間違っていると思うのですが… どうすればいいですか?? > usair<-read.table("clipboard",header=TRUE)　♯Excel上で範囲指定したデータを読み込む > usair City SO2 Temp Manuf Pop Wind Precip Days 1 Phoenix 10 70.3 213 582 6.0 7.05 36 2 LittleRock 13 61.0 91 132 8.2 48.52 100 3 SanFrancisco 12 56.7 453 716 8.7 20.66 67 4 Denver 17 51.9 454 515 9.0 12.95 86 5 Hartford 56 49.1 412 158 9.0 43.37 127 6 Wilmington 36 54.0 80 80 9.0 40.25 114 7 Washington 29 57.3 434 757 9.3 38.89 111 8 Jacksonville 14 68.4 136 529 8.8 54.47 116 9 Miami 10 75.5 207 335 9.0 59.80 128 10 Atlanta 24 61.5 368 497 9.1 48.34 115 11 Chicago 110 50.6 3344 3369 10.4 34.44 122 12 Indianapolis 28 52.3 361 746 9.7 38.74 121 13 DesMoines 17 49.0 104 201 11.2 30.85 103 > attach(usair) > lm1<-lm(SO2~.,data=usair)　 > summary(lm1) Call: lm(formula = SO2 ~ ., data = usair) Residuals: ALL 13 residuals are 0: no residual degrees of freedom! Coefficients: (6 not defined because of singularities) Estimate Std. Error t value Pr(>|t|) (Intercept) 24 NA NA NA CityChicago 86 NA NA NA CityDenver -7 NA NA NA CityDesMoines -7 NA NA NA CityHartford 32 NA NA NA CityIndianapolis 4 NA NA NA CityJacksonville -10 NA NA NA CityLittleRock -11 NA NA NA CityMiami -14 NA NA NA CityPhoenix -14 NA NA NA CitySanFrancisco -12 NA NA NA CityWashington 5 NA NA NA CityWilmington 12 NA NA NA Temp NA NA NA NA Manuf NA NA NA NA Pop NA NA NA NA Wind NA NA NA NA Precip NA NA NA NA Days NA NA NA NA Residual standard error: NaN on 0 degrees of freedom Multiple R-squared: 1, Adjusted R-squared: NaN F-statistic: NaN on 12 and 0 DF, p-value: NA 回答よろしくお願いします。

gsb57529
お礼率41% (243/579)

数学・算数
回答数5
ありがとう数8

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

noname#227064

2010/01/28 22:30 回答No.2

> > slm1<-step(lm1) > とすると回帰診断ができますがこれはいらないですかね?? 変数選択をしたいわけではないので不要です。 > （２）、（３）もなんなのかよくわからないです。というのは、問題の意味がわからないのでしょうか？それとも、意味はわかるけど解析結果から読み取れないということでしょうか？前者なら基本から勉強しなおしましょう。とりあえず、ヒントをだしますと、 > (2) (1) で求められる重回帰式を記せ．重回帰式とはこの問題でいえば SO2 = a + b×Temp + c×Manuf + d×Pop + e×Wind + f×Precip + g×Days という関係式のことです。係数のa～gは「Coefficients:」の「Estimate」に書いてあります。 > (3) (1) における自由度調整済み寄与率を求めよ．また，この値から，(1) で求められた回帰式の性能について何が言えるか．自由度調整済み寄与率は、「Adjusted R-squared:」にあります。寄与率は1に近いほどよい回帰式が得られたことになります。

質問者

お礼 2010/01/30 15:36

回答ありがとうございます。（２）について… 「Coefficients:」の「Estimate」がそれぞれの係数であることはわかるのですが、どのように答えればよいのかが分からなくて… ただ単に（１）のRの結果より、SO2＝a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? （３）について・・・自由度調整済み寄与率は「Adjusted　R－squared:」より、0.9095 であることはわかるのですが、この値から（１）で求められた回帰式の性能について言えることが何なのかわからなかったのです。＞寄与率は１に近いほどよい回帰式が得られたことになります。とのことですが、どのような基準で近いとかの判断をすればよいのでしょうか?? あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? ご指導よろしくお願いします。

その他の回答 (4)

noname#227064

2010/02/06 00:22 回答No.5

> 「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね?? 勿論そうなのですが、 > 「Residuals」の５つの数値は何を意味してるのでしょうか?? > 「Coefficients」は４種の数値がありますが、これはすべて係数を意味してるのでしょうか?? このあたりは、基本的なところなので参考書等を見ましょう。とはいえ、これだけで終わるのもなんですので、簡単に説明をしておきましょう。 Residualsは残差、standard errorは標準誤差、F-statisticはF統計量、p-valueはp値のことです。残差は「従属変数の値-重回帰式による予測値」であり、標準誤差は求めた係数がどこまで信頼できるか、F統計量はその回帰式が意味のあるものかどうかの判定に使われ、p値は従属変数が独立変数とは無関係で合った場合に、得られたF統計量より極端な値が得られる確率を意味します。

質問者

お礼 2010/02/06 17:04

回答ありがとうございました!! 正直英語の意味が分からず困っていました…。親切な回答、大変勉強になりました。ありがとうございました。

noname#227064

2010/02/01 20:46 回答No.4

> …こんな感じで解答しようと思うのですが、どうでしょうか?? いいと思います。

質問者

お礼 2010/02/03 21:03

ご指導ありがとうございました!! 問題は解決したのですが… 「Residuals」の５つの数値は何を意味してるのでしょうか?? 「Coefficients」は４種の数値がありますが、これはすべて係数を意味してるのでしょうか??「Estimate」は「係数の最小２乗推定値」であることはわかるのですが… 「Residual standard error：」、「F-statistic:」、「p-value: 」の値も、 > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) において、重回帰分析を実行し、以下、実行結果の要約となっているので、「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね??

noname#227064

2010/01/31 16:23 回答No.3

> （２）について… > ただ単に（１）のRの結果より、SO2＝a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? 行列式とはいいませんが、それだけで良いですよ。 > （３）について・・・ > どのような基準で近いとかの判断をすればよいのでしょうか?? 寄与率（自由度調整済も含み）は従属変数の変動をどれだけ説明しているかの目安で、分野や解析者によって判定基準が異なるので一概には言えませんが、0.9以上あれば十分よいといえると思います。 > あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? 寄与率は変数を加えると必ず大きくなります。例え、全く意味のない変数だとしても大きくなってしまい、それを防ぐために自由度で調整しています。

質問者

お礼 2010/01/31 21:10

回答ありがとうございました。（２）について… 行列式なんて変なことを言ってすみません!! 解決しました!! （３）について… 自由度調整済み寄与率は、「Adjusted R-squared：」にあるから、 0.9095 である。寄与率は 1 に近いほどよい回帰式が得られたことになる（なぜならば、寄与率は目的変数の変動のうちの回帰による変動の割合を示しているから）から、およそよい回帰式が得られたと考えられる。 …こんな感じで解答しようと思うのですが、どうでしょうか?? 回帰式の性能について不足せずに答えられているでしょうか?? ご指導よろしくお願いします。

noname#227064

2010/01/26 22:44 回答No.1

> NAって何かよくわからないのですが、数値が出ていないので間違っていると思うのですが… > どうすればいいですか?? 理由は簡単で > SO2 を目的変数，残りの6 つを説明変数とあるように、指定されていないCityまで入れてしまい、ダミー変数が増え、データ数より変数が多くなってしまったからです。 Cityははずしましょう。ちなみにNAの意味はNot Availableで利用できないという意味です。

質問者

お礼 2010/01/28 18:43

回答ありがとうございます。説明変数を指定して対処しました!! > usair<-read.table("clipboard",header=TRUE) > usair City SO2 Temp Manuf Pop Wind Precip Days 1 Phoenix 10 70.3 213 582 6.0 7.05 36 ・・・ 13 DesMoines 17 49.0 104 201 11.2 30.85 103 > attach(usair) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) > summary(lm1) Call: lm(formula = SO2 ~ Temp + Manuf + Pop + Wind + Precip + Days, data = usair) Residuals: Min 1Q Median 3Q Max -11.603 -2.867 1.186 4.603 7.254 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 119.617244 54.950275 2.177 0.0724 . Temp -1.160788 0.593868 -1.955 0.0984 . Manuf 0.036889 0.016176 2.281 0.0628 . Pop -0.010830 0.016201 -0.668 0.5287 Wind -8.634580 3.804757 -2.269 0.0637 . Precip 0.007181 0.503908 0.014 0.9891 Days 0.414861 0.313471 1.323 0.2339 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.303 on 6 degrees of freedom Multiple R-squared: 0.9548, Adjusted R-squared: 0.9095 F-statistic: 21.11 on 6 and 6 DF, p-value: 0.0008637 こんな感じになりました!! あとこの後に > slm1<-step(lm1) とすると回帰診断ができますがこれはいらないですかね?? そして例題みたいなものをもとにとりあえずRでやってみたのですが意味がよくわからないので（２）、（３）もなんなのかよくわからないです。なのでいろいろ指導していただきたいです!!

統計学　重回帰分析についての問題

統計学　重回帰分析についての問題