自由度及び平均平方について(統計解析)

このQ&Aのポイント
  • 統計解析における自由度と平均平方について解説します。
  • 平均平方はばらつきを表す指標であり、自由度で割ることで算出されます。
  • 自由度は統計解析においてデータが自由に変動できる度合いを示す指標です。
回答を見る
  • ベストアンサー

自由度及び平均平方について(統計解析)

お世話になります。 初歩的なことかと存じますが、ご回答いただきたくお願いいたします。 統計解析で ”平均平方=(平方和)/(自由度)”とあり、私は ”平方和”・・・ばらつきを表す指標 と理解していますが、「”平方和”を自由度で割る」ことが、何を表す 指標になるのか、理解できません。 自由度の意味を、根本的に理解できていないからかもしれません。 自由度及び平均平方について解説いただきたく、お願いいたします。 以下例題の分散分析表の、平均平方から、F値、p値へ進むに当たり 平均平方の部分で、つまづいています。 例) 要因  平方和  自由度 平均平方 F比  p値     回帰  1000.35   5    200.07  65.17  0.000    残差   78.17   26      3.01  よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

なんとなく用語について混乱してるんじゃないかなって気がしてきた. その「平均平方」って, 実は (母集団から取り出した標本に対する) 不偏 (×普遍) 分散なんだよ. 大きさ n の標本から不偏分散を計算するときには分母を n-1 にするんだけど, この n-1 がこの場合の自由度そのもの. ちなみに. 平方和を「ばらつきを表す指標」と理解しているんだったら, 「どちらがよりばらついているか」と聞かれたときに不偏分散を計算するのは不自然だと思う. なんで平方和で評価しないの?

hinatakeaya
質問者

お礼

ありがとうございます。返答遅くなり申し訳ありません。 まず、誤字のの訂正ありがとうございます。 一つずつ回答させていただきます。 Q)なんで平方和で評価しないの? A)これまで、ばらつきの評価として、不偏分散を適用してきました。   今回もそれに従いました。   いただいた設問のようなケース等、平方和はデータの大小に影響される   ので、異なるデータを比較する場合は、不偏分散とする必要がある、   と理解しています。 c)n-1 がこの場合の自由度そのもの. A)これは、認識ありませんでした。ありがとうございます。   母集団からの標本から、母集団の分散を推定する場合、分母をn-1とする   と、機械的に適用してきました。 c)用語について混乱してるんじゃないかなって A)そうかもしれません。もう少しご教示願いたく。   概念的に解説願えないでしょうか?わがまま言って申し訳ありません。   ・なぜ、自由度で割るのでしょうか? よろしくお願いいたします。       

その他の回答 (1)

  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.1

次の 2つの例を考えてみてください: 1. -1, 0, 1 が 1個ずつあるデータ 2. -1, 0, 1 が 1000個ずつあるデータ どちらがより「ばらついている」でしょうか?

hinatakeaya
質問者

お礼

ありがとうございます。 例題に関しては、以下の通りと考えます。 1. 普遍分散V(1)=1 (偏差平方和/(n-1)) 2. 普遍分散V(1000)=0.667 (偏差平方和/(n-1)) V(1)>V(1000)より、「1.」のほうがばらついている、と 考えます。 よろしくお願いします。  

関連するQ&A

  • 統計学における自由度

    統計を勉強し始めたものです。 統計学における自由度の定義がイマイチわかりません。 なるほど!、と思う説明に出会えないでいます。 よく自由度は「自由に動ける変数の数」だと教科書に書いてあるのですが 例えば、2標本問題(e.g.男女の身長)で標本平均の差の標本分布を求める際、男子の標本の大きさをm、女子の標本の大きさをnとした時(互いに独立)の自由度はm+n-2となることが理解できません。 この場合、 「男子の平均」ー「女子の平均」 の分布を考えるので自由度(自由に動ける変数の数)はm+n-1でもいい気がしてしまいます。 教科書には「2つの標本平均を使って偏差の平方和を計算するから、自由度が2失われる」と書いてあるのですがなかなかこの説明が頭に入りません。 勉強不足で申し訳ありませんが、自由度を定性的に理解できる説明を教えて下さい。 よろしくお願い致します。

  • 分散分析の結果の見方を教えて頂けませんか??

    生データをエクセルで二元配置分散分析しましたが、結果が出ましたが、結果の見方が分からなくて、困ります。結果としては以下になりますが 因子A(発音)の平方和84.7568自由、度1、平均平方84.7568、F値24.7145、P値0.00000 因子B(意味)平方和0.2432、自由度1、平均平方18.2703、F値0.0709、P値0.7904 この結果の見方や分析し方が分かりませんが、誰かをお教えて頂けませんか。この結果を考察後もう一つのデータ結果と比較します。そのデータは以下にあります。 因子A:平方和4.1771、自由度1平均平方4.1171、F値12,6188、P値0.0007、 因子B:平方和1.0863、自由度1、平均平方1.8063、F値5.5358、P値0.0215 日本語は変なところもあるかもしれませんが、よろしくお願いします。

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 分散の求め方

    はじめまして。分散の求め方で質問があります。 おわかりになる方、書き込みをお願いします。 測定値1,2,3,4,5について。 (1) 平均値=3、自乗の平均値=11より    分散=自乗の平均値-平均値の自乗より      =11-(3×3)=11-9=2 (2) 平方和=(1×1+2×2+3×3+4×4+5×5)-5×3×3      =10   自由度=5-1=4   分散=平方和÷自由度より     =10÷4=2.5 (1)、(2) どちらが正しいのでしょうか。 よろしくお願いします。

  • 統計学 重回帰分析についての問題

    問題 目的関数をy、説明変数を他の二つとして重回帰分析を行え。 この問題をRで実行し、※は自分がつけた補足です。 以下は間違ったことを言っていないか見てほしいです。 よろしくお願いします。 > condo<- read.table("clipboard",header=TRUE) ※Excel上で範囲指定したデータを読み込む > condo x1 x2 y 1 12 4 22 2 12 3 24 3 11 3 21 4 7 1 19 5 8 3 19 6 9 2 22 7 14 5 24 8 11 4 23 > attach(condo) > lm1<- lm(y~.,data =condo)  ※yを目的変数、他のすべての変数を説明変数として線形重回帰分析を実行 > summary(lm1) ※実行結果の要約 Call: lm(formula = y ~ ., data = condo) Residuals: ※残差の8数要約 1 2 3 4 5 6 7 8 -0.7477 0.6682 -1.3259 -0.4708 -0.3084 1.1016 -0.1752 1.2582 Coefficients: ※係数の最小二乗推定値と対応t値など Estimate Std. Error t value Pr(>|t|) (Intercept) 13.0140 2.1917 5.938 0.00193 ** ※β_0 x1 1.0058 0.3465 2.903 0.03369 * ※β_1 x2 -0.5841 0.6478 -0.902 0.40854 ※β_2 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.087 on 5 degrees of freedom Multiple R-squared: 0.7852, Adjusted R-squared: 0.6992 ※寄与率、自由度調整済み寄与率 F-statistic: 9.137 on 2 and 5 DF, p-value: 0.02139 最後の行は、母集団において、得られた回帰式 y= β_0+ β_1 x_1+ β_2 x_2+ ε_i が全くあてにならないという仮説(H0: β_1= β_2= 0 )を分散分析で検証している。検定統計量 F=S_R・(n-p-1)/ S_e・p ( n:標本数、p:説明変数の数、S_R:回帰による平方和、S_e:残差平方和 ) が自由度(p,n-p-1)のF分布に従うことを用いている。上記では、p値が0.02139と極めて小さいので、有意水準0.05で仮説H0は棄却され、母集団においてもこの式はあてになるという結論に至る。 ・・回答よろしくお願いします。

  • 【統計学基礎】自由度とは?

    【統計学基礎】自由度とは? 以下の問題で自由度について答えさせられるのですが自由度とはなんでしょうか?自分はただ自由度=標本の大きさ-パラメータと考えていたのですが色々パラメータがどれを指すかによってかわってきて混乱してきています。 平均u=5、分散σ^2=4 の正規母集団より大きさn=16の無作為標本を抽出する。このときy=(n-1)s^2/σ^2は以下省略…また‐xを標準化したZは正規標準分布にしたがい、‐Xとs^2は統計的に有意であることから、z/√y/15は自由度???のt分布に従う。 という問題です。まずそもそもz/√y/15の式の意味もよくわからないのですがご回答お願いします。

  • 残差*従属変数の総和、最小二乗法(重回帰)にて

    最小二乗法(重回帰)にて、 個別残差=個別予測値ー個別従属変数であり、 Σ(個別残差×個別従属変数)=0…(1) になるのです。 (回帰の平方和+残差の平方和)=全体の平方和 という定義(?)を疑問に思い、 解いていくと、上記(1)にたどり着きました。 なんとなくなりそうな気もするんですが、 どなたかすっきりと理由を教えては頂けないでしょうか。

  • エクセルでの重回帰分析が上手くいきません

    エクセルにて重回帰分析を行っています。下記の状況になりますが何が原因か、また、対策はどうすべきかご教授ください。 <元データ> ・説明変数16個 <エクセルの統計データ機能を使用した結果> 回帰統計 重相関 R 1 重決定 R2 1 補正 R2 65535 標準誤差 0 観測数 3 分散分析表   自由度 変動     分散    観測された分散比 有意 F 回帰 16  1.646666667 0.823333333 #NUM!     #NUM! 残差  0    0     65535 合計  16 1.646666667 t値 65535 P値 #NUM! 以上です。 どうぞよろしくお願い致します。

  • 教えて下さい!!!

    心理学で治療効果を求める例題が出たのですが、まだ1年で、そんなに多くのことを知らないせいもあり、何がなんだかさっぱりわかりません。困り度は3なんてものではない状態です。用語の解説など、初心者に詳しく教えていただけないでしょうか。 例題は、 1、データ 精神分析療法 5人のクライエントの得点を 2,3,4,5,6 行動療法 5人のクライエントの得点を 4,5,6,7,8 とする。 平均値を求める 精神…4.00 行動…6.00 全体…5.00 分散を求める 精神…2.00 行動…2.00 全体…3.00 と、ここまではわかるのですが、次から初めて聞く専門用語が 沢山でてきてわからないのです。用語の意味を教えて下さい!! データの分散を分解する {(精神~の平均-全体の平均)を二乗}}×データ数+行動~の分 ={(4.00-5.00)二乗}×5+{(6.00-5.00)二乗}×5 =10 ←要因分散 データの分散=治療効果の分散+個人の分散 従って 30=10+x x=20 (個人の全分散) 自由度 データ数-1 (10-1) 要因(2-1) ここの”要因”と”2”はどの2なのかがわからないんです… 9=(2-1)+x x=8 F値を算出する(F=平均平方和÷誤差平方和) さっぱりです… 10÷1=10 20÷8=2.5 F=4.00 以上です。長くて申し訳ありませんが、教えてください。

  • (統計学) 偏差平方和について

    偏差平方和とは、、、、対象データの平均と各データの差を2乗した値の合計 これはどういう意味があり、どういう時に使うものなのでしょうか? 分散とも似ているように感じるのですが、いまいち使い分けの方法がわかりません。 お詳しい方、ご教授お願いいたします。