- ベストアンサー
相関係数の解釈
ピアソンの相関係数の解釈について基本的なことを教えてください。 サンプルの大きさが160個ほどで、市町村の人口規模(最大124万人, 最低3千人)を 20万人以上 10万人以上20万人未満 10万人未満 の3つのカテゴリーに分け、また各市町村毎のある水質汚濁の程度を1,2,3,4(ここでは1を最悪とする)の4段階に分けて表を作りました。 その結果、 MS-EXCELのcorrel(配列,配列)を使って数値を出しますと、 人口20万人以上の市町村------------ -0.2840... 人口10万人以上20万人未満の市町村-- 0.0389... 人口10万人未満の市町村------------ -0.3939... という結果が得られました。すなわち、人口10万人以上20万人未満の市町村についてだけが正の数で、人口20万人以上の市町村と人口10万人未満の市町村については負の数になりました。 またサンプル全体では、-0.1716の数値を得ました。 この結果をどう解釈すればよいのか教えてください。 例えば、人口20万人以上の市町村では、その数値 -0.2840...を以って「人口が多いため、ある程度水質も悪い」または「人口が多いため、水質の改善が進みにくい」と解釈すべきなのでしょうか? (逆に、人口10万人未満の市町村については、その数値 0.3939...を以って「小規模な人口が幸いし、ある程度水質も良い」または「人口が少ないことが幸いし、水質改善で成果が上がっている」と解釈すべきなのでしょうか?) それとも、「絶対値がこの程度の数値では、はっきりとした傾向が認められない」と考えるべきでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
面白い着目点だと思います。 有意な相関を見出すのは、連続したものでないと、困難です。サンプルの数が160であっても、横軸は3段階、縦軸は、4段階しかないので、3×4=12に分けたブロックのどこかに入ってしまいます。これでは、有意な相関をだすのは容易ではありません。 人口については、連続した数値になるはずなので、階層化(段階に分ける)べきではありません。また、水質汚濁についても、階層化するべきではありません。水質汚濁の指標は、BODまたはCODが一般的なので、これも連続的な数値が利用できるはずです。 階層化しない場合は、どうなりますか。 階層化には、いつくかの問題点があります。まず、階層化した場合の数値が、2は1の2倍なのか、3は3倍なのか、をクリアするのかが困難です。 次に、階層化すると数値の幅が狭くなります。数値の幅が狭いと、有意な相関は見出しにくくなります。 >この結果をどう解釈すればよいのか教えてください。 人口が原因で、水質に影響するか、ということでしょうか。そうすると、時間性、密接性、特異性、普遍性、合理性を満たす必要があります。 普遍性というのは、いつでもどこでも同じ関係(同様の相関係数と回帰式が成立する)ということです。人口20万以上では成立するが、他の区分では成立しない、というのでは普遍性に反します。ただ、区分にすると、このように普遍性に反する場合は少なくありません。それは、区分すること自体が相関性の分析に反します。 相関は、直線だけでなく、対数、べき乗などの別の回帰式にすると成立する場合もあります。二次式や三次式または特殊な関数だとフィットする場合もあります。実際のグラフを描いて、直線なり曲線なりが引けそうかを判断するのが先決です。 着想はユニークなのですが、実際の水質を汚濁する量は、一人当たりではそれほど差が無いのでは。また、処理量も一人当たりでは差が無いのであれば、人口とは無関係になります。 さらに、水質汚濁は、人口よりも、下水道の整備に大きく依存します。その流域の下水処理の対象の人口割合にも直目されてはどうでしょうか。 瀬戸内海の水がかなりきれいになっているのは、下水処理の普及によると考えられています。
その他の回答 (1)
- dora1
- ベストアンサー率50% (263/518)
人口と水質汚濁の程度との間の相関を見ているんですね? で,人口規模の大小ごとに別々にこの相関をとってみたと. Excelでは相関に関してどのような機能があるのか,知らないのですが,一般的なことだけお伝えします. ・相関係数は,-0.2~0.2程度まではほぼ相関なしと考えます.0.2~0.4程度は弱い相関があると考えます.どのぐらい弱いかというと,相関係数を二乗してみた数字(説明率などと呼びます)が,この相関によって決まるデータの%に相当する,ぐらい弱いです.相関係数が0.2だとすると,二乗で0.04ですから,全体の4%程度の都市では人口規模が大きくなるとそれに比例して汚濁がひどくなる,と推定される.というわけです. ・「人口が多いため、ある程度水質も悪い」または「人口が多いため、水質の改善が進みにくい」 「小規模な人口が幸いし、ある程度水質も良い」または「人口が少ないことが幸いし、水質改善で成果が上がっている」 この解釈の意味がよく分かりませんでした.相関の解釈とは,「相関があったかなかったか」という以上のものではないはずです.つまり, 「人口20万以上の都市では,人口が多いほど水質が悪いという傾向が,弱いながらも認められた」「人口10万以下の都市でも...(同じ)」というだけなのではないでしょうか?そこから,どういったことが導かれるのか,これは相関の次の段階の推測ですよね.「水質改善の成果があったかどうか」というのは経時的に何度か汚濁をモニターしないとわからないですよね.1回測っただけなんですよね? ちなみに,人口10万~20万で相関がないのは,この区間は人口の変動の幅が小さいから,というだけのような気がしますね.グラフを書いてみて適切な区間設定をしてみたらいかがでしょうか?(あえて3つに分ける必要はないのでは?) それと,この結果は人口20万以上と10万以下との間を比べているわけではありませんよね.ですから,人口が多いから,少ないからというのは違います.これに関しては,全都市で相関をとったら,相関がなかったのですから,関係ないということになっています. ・さて,普通の相関係数というのは,直線相関をみてます.つまり,人口規模によって,汚濁が直線的に進むかどうかを見ているに過ぎません.でも,そのときに使っている指標が,水のきれいさの程度(1~4)という4段階ではこれはへんですね.きれいさの程度1のときその場所のきれいさは,きれいさが2の場所の半分のきれいさである,3の場所に比べると1/3のきれいさであるというわけではないでしょう?つまり,この1~4という数字は,倍にしたり,半分にしたりするような計算ができる数字ではなく,段階分け,階級にすぎませんから,ここでやっているような普通の相関係数を求めても意味のある数字はでないです.つまり,普通の相関係数を求めて,仮に相関がない,という結果が出たとしても,それでわかるのは,人口が増えるにつれて,「直線的に」4→1と変化していくわけではないだろうということだけです. 比較したいデータが実際の数字でなく,1~4段階などの階級の場合に使う相関係数は,ピアソンではなく,「順位相関係数」です.スピアマンの順位相関などが有名ですので,調べてみて下さい.
お礼
早速大変ご丁寧なご回答をありがとうございました。 ご回答いただきました内容を拝見し、よく沸かない部分がありましたら、お尋ねいたしたいと存じます。
お礼
ご回答に対する御礼が遅れましたことをお詫びいたします。 まだ統計に関しては良くわからないことだらけです。 ご指摘のありました点をよく考えてみます。 ありがとうございました。