• ベストアンサー

相関係数の解釈

ピアソンの相関係数の解釈について基本的なことを教えてください。 サンプルの大きさが160個ほどで、市町村の人口規模(最大124万人, 最低3千人)を 20万人以上 10万人以上20万人未満 10万人未満 の3つのカテゴリーに分け、また各市町村毎のある水質汚濁の程度を1,2,3,4(ここでは1を最悪とする)の4段階に分けて表を作りました。 その結果、 MS-EXCELのcorrel(配列,配列)を使って数値を出しますと、 人口20万人以上の市町村------------ -0.2840... 人口10万人以上20万人未満の市町村--  0.0389... 人口10万人未満の市町村------------ -0.3939... という結果が得られました。すなわち、人口10万人以上20万人未満の市町村についてだけが正の数で、人口20万人以上の市町村と人口10万人未満の市町村については負の数になりました。 またサンプル全体では、-0.1716の数値を得ました。 この結果をどう解釈すればよいのか教えてください。 例えば、人口20万人以上の市町村では、その数値  -0.2840...を以って「人口が多いため、ある程度水質も悪い」または「人口が多いため、水質の改善が進みにくい」と解釈すべきなのでしょうか?  (逆に、人口10万人未満の市町村については、その数値  0.3939...を以って「小規模な人口が幸いし、ある程度水質も良い」または「人口が少ないことが幸いし、水質改善で成果が上がっている」と解釈すべきなのでしょうか?) それとも、「絶対値がこの程度の数値では、はっきりとした傾向が認められない」と考えるべきでしょうか?

  • ESME
  • お礼率87% (303/347)

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

 面白い着目点だと思います。  有意な相関を見出すのは、連続したものでないと、困難です。サンプルの数が160であっても、横軸は3段階、縦軸は、4段階しかないので、3×4=12に分けたブロックのどこかに入ってしまいます。これでは、有意な相関をだすのは容易ではありません。  人口については、連続した数値になるはずなので、階層化(段階に分ける)べきではありません。また、水質汚濁についても、階層化するべきではありません。水質汚濁の指標は、BODまたはCODが一般的なので、これも連続的な数値が利用できるはずです。  階層化しない場合は、どうなりますか。  階層化には、いつくかの問題点があります。まず、階層化した場合の数値が、2は1の2倍なのか、3は3倍なのか、をクリアするのかが困難です。  次に、階層化すると数値の幅が狭くなります。数値の幅が狭いと、有意な相関は見出しにくくなります。 >この結果をどう解釈すればよいのか教えてください。 人口が原因で、水質に影響するか、ということでしょうか。そうすると、時間性、密接性、特異性、普遍性、合理性を満たす必要があります。  普遍性というのは、いつでもどこでも同じ関係(同様の相関係数と回帰式が成立する)ということです。人口20万以上では成立するが、他の区分では成立しない、というのでは普遍性に反します。ただ、区分にすると、このように普遍性に反する場合は少なくありません。それは、区分すること自体が相関性の分析に反します。  相関は、直線だけでなく、対数、べき乗などの別の回帰式にすると成立する場合もあります。二次式や三次式または特殊な関数だとフィットする場合もあります。実際のグラフを描いて、直線なり曲線なりが引けそうかを判断するのが先決です。  着想はユニークなのですが、実際の水質を汚濁する量は、一人当たりではそれほど差が無いのでは。また、処理量も一人当たりでは差が無いのであれば、人口とは無関係になります。  さらに、水質汚濁は、人口よりも、下水道の整備に大きく依存します。その流域の下水処理の対象の人口割合にも直目されてはどうでしょうか。  瀬戸内海の水がかなりきれいになっているのは、下水処理の普及によると考えられています。

ESME
質問者

お礼

ご回答に対する御礼が遅れましたことをお詫びいたします。 まだ統計に関しては良くわからないことだらけです。 ご指摘のありました点をよく考えてみます。 ありがとうございました。

その他の回答 (1)

  • dora1
  • ベストアンサー率50% (263/518)
回答No.1

人口と水質汚濁の程度との間の相関を見ているんですね? で,人口規模の大小ごとに別々にこの相関をとってみたと. Excelでは相関に関してどのような機能があるのか,知らないのですが,一般的なことだけお伝えします. ・相関係数は,-0.2~0.2程度まではほぼ相関なしと考えます.0.2~0.4程度は弱い相関があると考えます.どのぐらい弱いかというと,相関係数を二乗してみた数字(説明率などと呼びます)が,この相関によって決まるデータの%に相当する,ぐらい弱いです.相関係数が0.2だとすると,二乗で0.04ですから,全体の4%程度の都市では人口規模が大きくなるとそれに比例して汚濁がひどくなる,と推定される.というわけです. ・「人口が多いため、ある程度水質も悪い」または「人口が多いため、水質の改善が進みにくい」 「小規模な人口が幸いし、ある程度水質も良い」または「人口が少ないことが幸いし、水質改善で成果が上がっている」 この解釈の意味がよく分かりませんでした.相関の解釈とは,「相関があったかなかったか」という以上のものではないはずです.つまり, 「人口20万以上の都市では,人口が多いほど水質が悪いという傾向が,弱いながらも認められた」「人口10万以下の都市でも...(同じ)」というだけなのではないでしょうか?そこから,どういったことが導かれるのか,これは相関の次の段階の推測ですよね.「水質改善の成果があったかどうか」というのは経時的に何度か汚濁をモニターしないとわからないですよね.1回測っただけなんですよね? ちなみに,人口10万~20万で相関がないのは,この区間は人口の変動の幅が小さいから,というだけのような気がしますね.グラフを書いてみて適切な区間設定をしてみたらいかがでしょうか?(あえて3つに分ける必要はないのでは?) それと,この結果は人口20万以上と10万以下との間を比べているわけではありませんよね.ですから,人口が多いから,少ないからというのは違います.これに関しては,全都市で相関をとったら,相関がなかったのですから,関係ないということになっています. ・さて,普通の相関係数というのは,直線相関をみてます.つまり,人口規模によって,汚濁が直線的に進むかどうかを見ているに過ぎません.でも,そのときに使っている指標が,水のきれいさの程度(1~4)という4段階ではこれはへんですね.きれいさの程度1のときその場所のきれいさは,きれいさが2の場所の半分のきれいさである,3の場所に比べると1/3のきれいさであるというわけではないでしょう?つまり,この1~4という数字は,倍にしたり,半分にしたりするような計算ができる数字ではなく,段階分け,階級にすぎませんから,ここでやっているような普通の相関係数を求めても意味のある数字はでないです.つまり,普通の相関係数を求めて,仮に相関がない,という結果が出たとしても,それでわかるのは,人口が増えるにつれて,「直線的に」4→1と変化していくわけではないだろうということだけです.  比較したいデータが実際の数字でなく,1~4段階などの階級の場合に使う相関係数は,ピアソンではなく,「順位相関係数」です.スピアマンの順位相関などが有名ですので,調べてみて下さい.

ESME
質問者

お礼

早速大変ご丁寧なご回答をありがとうございました。 ご回答いただきました内容を拝見し、よく沸かない部分がありましたら、お尋ねいたしたいと存じます。

関連するQ&A

  • 相関係数の表現について

    相関係数をコトバで表す場合に、下記のようになるとあります。 ±0.7~±1 強い相関がある ±0.4~±0.7 中程度の相関がある ±0.2~±0.4 弱い相関がある ±0~±0.2 ほとんど相関がない このような、”~”を使った範囲の場合、例えば、0.2、0.4、0.7の数値は、どの範囲となるのでしょうか。出来ましたら「以上」「以下」「未満」「越え」で説明すると、どのように表現されるのかを教えて下さい。

  • エクセルの相関関数について

    ある地域の町名別(A列)の売上高(B列)と、女性人口割合(C列)、高齢者人口割合(D列)などなど・・・の相関を見るため、エクセルの相関関数(CORREL)を使用しました。 A列 B列 C列 D列・・・ あ町 100  43% 25% い町 500  49% 23% う町  30  44% 19% え町  80  48% 21% そうしたところ結果として「0.01811」「0.03617」「0.05229」「-0.0585」のような数値が導かれました。 相関関数は「1」に近づくほど相関がある、とされていますが、 (1)これらの数値の差「0.01」「0.02」の差をどのレベルとして受け止めればよいのでしょうか?「わずか差」なのか「大きな差」なのか? (2)また、マイナスの結果はどのような意味があるのでしょうか?反比例の相関なのでしょうか? どちらかというと統計学の範疇かもしれませんが、すみませんが、よろしくお願いします。

  • ランダム数値を連番と比べて足りない数値を取り出す

    ランダム数値を連番と比べて足りない数値を取り出したいのですが どのようにすれば取り出せるのか教えていただけませんでしょうか? //事情により配列の一番最初は「$sample_num[0]」ではなく「$sample_num[1]」です。 //必ず、小さい数字-大きい数字で配列に入っています。 $sample_num[1]=1; $sample_num[2]=3; $sample_num[3]=6; $sample_num[4]=8; //1から10まで足りない数字を取得したい //欲しい結果 2 4 5 7 9 10

    • ベストアンサー
    • PHP
  • 法的規制値の有効数字の解釈について

    標題の件でご教示頂けると幸いです。 1. 法規制の中で、有効数字や計測値の丸め方が明示されていない場合に、解釈に困ることがあります。そういう場合の解釈方法の統一的なガイドラインのようなものはありますでしょうか。 例えば、「Aの含有量が5%未満である」と書かれている時に、計測値4.51%は5%未満なのか5%以上なのか、ということです。 2. 具体的に今つまづいている問題があります。 食品表示基準(内閣府令第10号)の別表第19の乾めん類の項目で、 • そば粉の配合割合が30%未満の干しそばについて • そば粉の配合割合を、実配合割合を上回らない数値により「2割」、「20%」等と表示する云々 とあります。それでは、そば粉配合割合が19.5%の時に、そば粉の配合割合を「2割」、「20%」等と表示するのはダメなのでしょうか?(ダメというのが一般的解釈のようですが、ひねくれ者の私にはどうもすっきりしません。) 以上について、どうか宜しくお願い致します。 (計測の不確かさは考慮頂いてもどちらでも結構です)

  • WAIS-IIIの解釈をお願いします。

    30歳女性です。 先日WAIS-IIIを受け結果をもらいましたが、どう解釈したらよいのかよくわかりません。 言語性 101 動作性 95 全検査 98 言語理解 99 知覚統合 85 作動記憶 126 処理速度 118 単語 10 類似 9 知識 10 理解 6 算数 14 数唱 12 語音 17 配列 9 完成 6 積木 9 行列 8 符号 15 記号 12 組合 8 以上のような結果になりました。 自分の特徴を知りたいです。(得意不得意、どんなことが向いているのか、など) どなたか解釈に詳しい方がいらっしゃいましたら教えてください。 よろしくお願いします。

  • 水質浄化方法

    流量が6000t/日と凄く少ない河川において何かよい水質改善策のアイデアはないでしょうか?生活雑排水による有機汚濁でBODは20mg/l程度です。今考えているのは「接触材+ばっ気」なんですが、これで効果は期待できるのでしょうか?河川の状況が分かりにくいと思いますが、どんな方法でもHPでも本でもいいので情報をください。

  • waisの解釈をお願い致します。。

    発達障害(ADHD)疑いでWAIS iii を受け、結果がでました。数値や内容に関して細かい説明がなかったのですが、詳しい方がいらっしゃいましたら、解釈をお願いしたいです。。 全IQ101 言語性IQ95 動作性IQ109 言語理解93 知覚統合112 作動記憶117 処理速度102 下位検査 言語性 単語12 類似7 知識7 理解4 算数8 数唱17 語音14 動作性 配列9 完成10 積木13 行列13 符号12 記号9 組合11 医師にはADHDと診断されました

  • 相関がないのに相関係数が1???

    相関係数の意味を考えていて、理解できないことが出てきたので教えて下さい。 変数Xと変数Yの相関係数の求め方は、データ数がnの時、  1.変数X,Yの平均値を求める。ここでは、X^、Y^と書くことにします。  2.変数X,Yの標準偏差を求める。ここでは、σx、σyと書くことにします。  3.変数X,Yを基準化する。     基準化したX=(X-X^)/σx、 基準化したY=(Y-Y^)/σy  4.基準化したX,Yの積の平均が相関係数である。     r=1/n・Σ{(基準化したX)・(基準化したY)} となります。 基準化したXと基準化したYの積が全て1のデータの場合、 例えば、(1,1)、(0.5,2)、(0.4,2.5)、(0.1,10)、(0.01,100)、(-1,-1)、(-0.5,-2)、(-0.4,-2.5)、(-0.1,-10)、(-0.01,-100)‥‥‥ 双曲線になりますが、平均値と標準偏差で元のデータに戻しても、双曲線みたいなデータの散布図になります。つまりXが大きければYも大きいという関係がないにもかかわらす相関係数は1になってしまいます(というか1になるようにデータを選んだ)。 考え方に間違いがありますか。

  • Excel CORREL関数で2値データを解析

    CORREL関数は、2値(TRUE/FALSE)の目的で0か1を入れた値の配列に対しても有意な結果を返すでしょうか? 添付の表は、回答者の好物(複数選択可)を表したものですが、この中で、カレー好きとラーメン好きの相関関係を求めるのに、CORREL関数を使うことは意味があるでしょうか? よく見かけるサンプルでは英語と数学の得点を比べるものがあり、これは明らかに数字の比較ですが、こちらではTRUEかFALSEの代わりに1、0を使っているので、果たして本来の相関係数が求められるのか疑問です。双方を全て相反する値にすると、相関関数は-1となるので合っているようですが。 関連して、よろしければ教えてください。 カレーまたはラーメンの列全体を全て同じ値にした場合、#DIV/0! を返しますが、どの様な理屈でこうなるのでしょうか?回答者全員がカレー好きという状況はあると思いますが、計算上NGになる理屈が分かりません。

  • WAIS-IIIの結果、解釈を教えてください

    約7年ほど前、14歳の時にADHD、広汎性発達障害と診断された今年22歳の女です。 先日WAIS-III、ウェクスラー成人知能検査を受けて結果を渡されたのですが、臨床心理士さんにも主治医にも解釈の説明を求めても、簡単な事しか教えてもらえず、忙しいのか詳しい解説を伺うことはできませんでした。 自分で調べようと思い、色々な書籍や資料を探してみたもののよく分からず… WAIS-IIIに詳しい方がいらっしゃいましたら、解釈の説明をお願いできないでしょうか? IQ73 境界知能 言語性 73 動作性 106 全検査 87 言語理解 76 知覚統合 103 作動記憶 72 処理速度 75 単語 8 類似 6 知識 3 理解 5 算数 7 数唱 7 語音 3 配列 15 完成 12 積木 7 行列 13 符号 8 記号 3 組合 8 主治医に「私の劣っているところと、秀でているところを教えて欲しい。劣っているところをカバーしつつ、秀でているところをうまく使って上手く生活していきたい」と伝えて解釈の説明を求めたのですが、「これが正常な人の数値。ここは天才、こっちは小学生レベルだね。」と言われただけで、なにがなんだか分からず困っています。 こんな質問で申し訳ありませんが、どなたか詳しい方、解釈をお願いします。 よろしくお願い致します。