- ベストアンサー
最も妥当な相関関係の判断は?
相関係数を使って相関関係の有り無しを判断するのに、基礎統計の本によってその基準はマチマチです。ある本によればr=0.5なら弱いながらも相関はあるとの判断基準でした。ところがある人の話では実務上「相関関係あり」と判断するのは、R^2>=0.5のときなのだそうです。これを単相関係数に直せばr>=0.7ですから上記内容とはかなり数値の乖離があるように思います。絶対的な正解はないと思いますが、このことについてどのような判断をするのが一番妥当なのでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
サンプル(x,y)の個数が10個でR=0.5というのと、サンプル数10000個でR=0.5というのでは、全然話が違いますよね。Rの値にどのぐらいの誤差があるかをチェックするのが検定です。最も簡単なのは、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」を計算する検定。(Happy_Hackさんが仰ってるのはこのへんの話です。) さて、サンプル数が十分多くて、それでもR=0.5だとします。あるいはR=0.7でもいいや。ともかくRの値はかなり正確であるとする。 その値がどういう意味を持つのかをご質問になっているんだと思いますが、これは、仰るとおり「絶対的な正解はない」。相関をどう利用したいのかに依るんですよ。 大抵の応用は:「xを見ただけで、yを推定したい。」というもの。 この意味では大抵、R=0.7程度では全然使い物になりません。R=0.95から先がやっと使える感じ。R=0.5なんて無相関と言い切ってしまいたい位のものです。R=0.5の散布図を見てご覧なさい。R=0の場合と幾らも違わない。それで推定したyはほとんどでたらめに近いんですよ。 それでも「yをごくおおざっぱに知りたい。」という応用もないとは限らない。これだったらR=0.7程度でも無意味とまでは言えない。 さらに、「個々の推定値がまるで間違っていても良いから、統計的に多少とも良い推定であれば可。」たとえば賭を繰り返す場合の有利な張り方の研究、みたいなもの。そういう時には、0.5でも0.05でも平均して勝率が少しでも上がるんだから、意味があるでしょう。 なお、「xはyに多少とも影響を与えているのか?」という問いに答えるのが目的なら、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」こそが極めて重要ですよね。相関係数そのものは、ついでに出してみましたみたいなもの。どうだって良い。 同様に、「x,yのどっちが、zに対してより大きい影響を与えているのか」という場合、しかしそればかりかxとyの間にも相関がありうるので、多変量解析(因子分析)として扱うべきですね。その一部として相関係数が現れます。それだけ。
その他の回答 (1)
- Happy_Hack
- ベストアンサー率20% (2/10)
t検定を勉強しましょう そうすれば、「有意性」について分るようになります。 お勧めは 松原望 著の 『わかりやすい統計学』丸善 です。 東大生のほとんどの人は 彼の統計学を1年次に学びます。
お礼
レス有難うございました。 ご推奨のありました本については早速、購入したいと思います。
お礼
非常に分かり易い説明を有難うございました。 恥ずかしながら私、統計に関してはド素人です。今回の質問はキチンと筋道を立てて勉強すれば理解できるはずのことでしたが実務家の性で、手っ取り早く「実」を取りたかったのです。その意味におきまして質問に対し的確に応えて頂いたことに感謝します。しかしHappy_Hackさんも仰るように「有意性」について知っておかないと、どうやらその「実務」自体に支障がありそうですね。t検定を勉強します。