• ベストアンサー

最も妥当な相関関係の判断は?

相関係数を使って相関関係の有り無しを判断するのに、基礎統計の本によってその基準はマチマチです。ある本によればr=0.5なら弱いながらも相関はあるとの判断基準でした。ところがある人の話では実務上「相関関係あり」と判断するのは、R^2>=0.5のときなのだそうです。これを単相関係数に直せばr>=0.7ですから上記内容とはかなり数値の乖離があるように思います。絶対的な正解はないと思いますが、このことについてどのような判断をするのが一番妥当なのでしょうか?

noname#2829
noname#2829

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

サンプル(x,y)の個数が10個でR=0.5というのと、サンプル数10000個でR=0.5というのでは、全然話が違いますよね。Rの値にどのぐらいの誤差があるかをチェックするのが検定です。最も簡単なのは、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」を計算する検定。(Happy_Hackさんが仰ってるのはこのへんの話です。) さて、サンプル数が十分多くて、それでもR=0.5だとします。あるいはR=0.7でもいいや。ともかくRの値はかなり正確であるとする。 その値がどういう意味を持つのかをご質問になっているんだと思いますが、これは、仰るとおり「絶対的な正解はない」。相関をどう利用したいのかに依るんですよ。  大抵の応用は:「xを見ただけで、yを推定したい。」というもの。  この意味では大抵、R=0.7程度では全然使い物になりません。R=0.95から先がやっと使える感じ。R=0.5なんて無相関と言い切ってしまいたい位のものです。R=0.5の散布図を見てご覧なさい。R=0の場合と幾らも違わない。それで推定したyはほとんどでたらめに近いんですよ。  それでも「yをごくおおざっぱに知りたい。」という応用もないとは限らない。これだったらR=0.7程度でも無意味とまでは言えない。  さらに、「個々の推定値がまるで間違っていても良いから、統計的に多少とも良い推定であれば可。」たとえば賭を繰り返す場合の有利な張り方の研究、みたいなもの。そういう時には、0.5でも0.05でも平均して勝率が少しでも上がるんだから、意味があるでしょう。  なお、「xはyに多少とも影響を与えているのか?」という問いに答えるのが目的なら、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」こそが極めて重要ですよね。相関係数そのものは、ついでに出してみましたみたいなもの。どうだって良い。  同様に、「x,yのどっちが、zに対してより大きい影響を与えているのか」という場合、しかしそればかりかxとyの間にも相関がありうるので、多変量解析(因子分析)として扱うべきですね。その一部として相関係数が現れます。それだけ。

noname#2829
質問者

お礼

非常に分かり易い説明を有難うございました。 恥ずかしながら私、統計に関してはド素人です。今回の質問はキチンと筋道を立てて勉強すれば理解できるはずのことでしたが実務家の性で、手っ取り早く「実」を取りたかったのです。その意味におきまして質問に対し的確に応えて頂いたことに感謝します。しかしHappy_Hackさんも仰るように「有意性」について知っておかないと、どうやらその「実務」自体に支障がありそうですね。t検定を勉強します。

その他の回答 (1)

回答No.1

t検定を勉強しましょう そうすれば、「有意性」について分るようになります。 お勧めは 松原望 著の 『わかりやすい統計学』丸善 です。 東大生のほとんどの人は 彼の統計学を1年次に学びます。

noname#2829
質問者

お礼

レス有難うございました。 ご推奨のありました本については早速、購入したいと思います。

関連するQ&A

  • 相関関係を示すには、何を求めればよいでしょう?

    こんにちは 相関関係を求める方法を教えてください。お願いします。 ある2つのデータがあるとします。この2つのデータに相関があるかどうかは、どう求めればよいでしょうか? 相関係数を求めるということはわかるのですが、例えばこれが一定数以上あれば、それだけ『この2つのデータは相関がある』と言ってしまっても統計的に良いものでしょうか? 自分でもいろいろ調べてはみたのですが、人によって『t検定を行わなければダメ』『相関係数の優位性の検定をしないとダメ』『回帰直線まで求めないとダメ』など、言っていることが疎らで、よくわかりません。 私の調べたいことは、2つのデータに相関があるかどうかだけです。 浅薄な質問で、大変申し訳ありませんが、どなたかお答えいただけるようお願い致します。

  • SPSSにて相関係数rを出したのですが、評価の仕方がわからない。

    かなり基本的な質問で申し訳ないのですが、 相関係数rについて教えて頂きたいです。 ヒトの体重(kg)とエンゲル係数をデータとして、 統計ソフトSPSSに入力し、相関係数rを出力しました。 すると、r=0.56とでました。 相関係数rは1に近ければ近いほど相関が高いことくらいしかわかりません。 相関係数r=0.56の場合、相関があるといってよいのでしょうか? 評価方法が初学者にも勉強できる本などあれば、教えて頂けますでしょうか? どうぞ宜しくお願い致します。

  • 相関係数について

    相関係数(ピアソンの積率相関係数)のp値とは何ですか? 文献の解釈をする上で、このことが分からなくて困っています。統計学の本などを調べてみたのですが、分かりませんでした。回答お願いします。

  • 相関の強さの表し方

    2点質問があります。文系人間ですので、簡単に表現してくれると有り難いです。 1.2つの変数の相関関係の強さがどれくらいかを、説明する場合にどのような方法があるのでしょうか。 2.某サイトで相関関係の強さについて、「相関係数の絶対値の大きさが0.7~1.0だと強い相関、0.4~0.7だとやや相関あり、0.2~0.4だと弱い相関あり、0~0.2だとほとんど相関なし」というものを見つけたのですが、これは統計学的に一般的に言われていることなのでしょうか。何か確認できる書物などをご存知でしたら教えてください。  

  • 相関係数,寄与率の記号について教えてください.

    単相関係数はr,寄与率はr2,重相関係数はR,寄与率はR2で示すものと考えていました.エクセルの分析ツールにおいて,回帰分析を行うと,結果の欄には一次回帰分析の場合にも重相関係数R,寄与率R2と示されているのですが,なぜでしょうか.

  • 相関がないのに相関係数が1???

    相関係数の意味を考えていて、理解できないことが出てきたので教えて下さい。 変数Xと変数Yの相関係数の求め方は、データ数がnの時、  1.変数X,Yの平均値を求める。ここでは、X^、Y^と書くことにします。  2.変数X,Yの標準偏差を求める。ここでは、σx、σyと書くことにします。  3.変数X,Yを基準化する。     基準化したX=(X-X^)/σx、 基準化したY=(Y-Y^)/σy  4.基準化したX,Yの積の平均が相関係数である。     r=1/n・Σ{(基準化したX)・(基準化したY)} となります。 基準化したXと基準化したYの積が全て1のデータの場合、 例えば、(1,1)、(0.5,2)、(0.4,2.5)、(0.1,10)、(0.01,100)、(-1,-1)、(-0.5,-2)、(-0.4,-2.5)、(-0.1,-10)、(-0.01,-100)‥‥‥ 双曲線になりますが、平均値と標準偏差で元のデータに戻しても、双曲線みたいなデータの散布図になります。つまりXが大きければYも大きいという関係がないにもかかわらす相関係数は1になってしまいます(というか1になるようにデータを選んだ)。 考え方に間違いがありますか。

  • 相関を求める時の、はずれ値のはずし方

    こんにちは 現在、ある2つのデータの相関関係を調べています。 そのデータを散布図にしたところ、数個はずれ値が確認できました。 これのはずし方をご質問させてください。 はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか? 私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。 しかし、統計的におかしはことはしたくありません。 そこで、話の流れとして、 『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』  ↓ 『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』  ↓ 『いずれにせよ、相関はある』 はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。 けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

  • 相関係数のRについて

    英語論文を作成する際に相関係数をTableに載せようと思っています。 その際、相関係数を表すのに、 「R」のみ 「R」の正式名称 「R」を使わずに「correlation coefficient」 のどれを用いるのが妥当でしょうか? 「R」のみの表記でも大丈夫なのでしょうか? 「R」がなにかの略で正式名称で載せたほうがよいかもしれないとおもったのですが、何の略なのかわからないので、 もしわかる方いらっしゃいましたら教えてください。

  • 相関関係の計算結果 p値=0.70のとき

    相関関係の解釈に関して質問です。 エクセルにいれたアドインソフト(4steps)を用いてN=8で2項目の相関関係を、ピアソンの相関係数を用いて求めました。 r=0.6860 p=0.70といった結果がでました。 統計に関してかなり疎いのですが、r値はどうも意見がまちまちですが「多少正の相関がある」といったところかと考えました。 しかし、今回の結果だと、p>0.05でした。自分でいろいろ調べた限りではp値から有意なデータと言えないという意味だと解釈しました。 ところで、研究発表などで、0.05<p<0.10のときに有意差はなかったが、傾向があったとする発現を耳にします。 では、かなり苦しいかもしれませんが、今回のデータを「有意な結果とは言えないが、正の相関を示す傾向にあった」と解釈するのは可能でしょうか?

  • 共分散と相関係数の、単位による影響

    統計学の次のような問題について質問があります。 「ゾウの体重(トン)と体高(m)を調べ、共分散が2.56、相関係数が 0.789という数値が得られた。もし体重をkg、体高をcmで計算し直すと 共分散と相関係数はどのような値をとるか?」 といったものです。 相関係数はそのまま0.789で良いと思うのですが、共分散の計算が わかりません。2.56×1000×100 =256000で良いのでしょうか? よろしくお願いいたします。