• 締切済み

相関を求める時の、はずれ値のはずし方

こんにちは 現在、ある2つのデータの相関関係を調べています。 そのデータを散布図にしたところ、数個はずれ値が確認できました。 これのはずし方をご質問させてください。 はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか? 私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。 しかし、統計的におかしはことはしたくありません。 そこで、話の流れとして、 『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』  ↓ 『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』  ↓ 『いずれにせよ、相関はある』 はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。 けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

みんなの回答

回答No.2

外すかはずさないかは、主観しかありません。 直線から○○以上ズレていたら、何らかの原因で壊れている可能性が高いので、はずすことにする。ただ、予想されるトラブルとしては「実は壊れているのではなく、こういう特性だった」事が判明することです。 ただしこの場合「外してもやっぱり相関はあった」は通用しません。相関から外れたのを削除するのだから、当たり前です。相関が強まるように操作しているのだから。 「相関直線を作成したが、明らかに外れている値を除外することで直線の精度を上げる」事は可能です。

noname#212058
noname#212058
回答No.1

削除する『明確で妥当な理由』があるなら外せます。例えば、 計測器が壊れてたとか突然停電して正しく測れたのか不明とか。 その場合は当然、その理由に当てはまる「一見正しそうなデー タ」も全て外す必要がありますが。 『飛んでるデータを選択して外す』というのは絶対にナシです。 それは『不正なデータ操作』に他なりません。これをした瞬間、 質問者さんのデータは全く信用できないモノになりますよ。

関連するQ&A

  • (数I)相関係数について

    相関係数の性質について質問します。 ●一方の変量がもう一方の変量に比例するとき、相関係数は1である ●2つの変量のどちらを散布図の横軸・縦軸にするかで、相関係数の値は変わる ●もとのデータの一方の変量に定数を加えても、相関係数の値は変わらない すべて正しいのでしょうか? 宜しくお願いします。

  • 相関係数

    相関係数について質問させて頂きます。 EXCEL関数の"CORREL"で求められる相関係数と同じデータをしようして散布図を作成した際のR2乗値が異なるのはなぜなのでしょうか?

  • 相関がないのに相関係数が1???

    相関係数の意味を考えていて、理解できないことが出てきたので教えて下さい。 変数Xと変数Yの相関係数の求め方は、データ数がnの時、  1.変数X,Yの平均値を求める。ここでは、X^、Y^と書くことにします。  2.変数X,Yの標準偏差を求める。ここでは、σx、σyと書くことにします。  3.変数X,Yを基準化する。     基準化したX=(X-X^)/σx、 基準化したY=(Y-Y^)/σy  4.基準化したX,Yの積の平均が相関係数である。     r=1/n・Σ{(基準化したX)・(基準化したY)} となります。 基準化したXと基準化したYの積が全て1のデータの場合、 例えば、(1,1)、(0.5,2)、(0.4,2.5)、(0.1,10)、(0.01,100)、(-1,-1)、(-0.5,-2)、(-0.4,-2.5)、(-0.1,-10)、(-0.01,-100)‥‥‥ 双曲線になりますが、平均値と標準偏差で元のデータに戻しても、双曲線みたいなデータの散布図になります。つまりXが大きければYも大きいという関係がないにもかかわらす相関係数は1になってしまいます(というか1になるようにデータを選んだ)。 考え方に間違いがありますか。

  • 相関係数を指定して二変量データを作成する

    相関係数、平均、標準偏差を指定して二変量データを作成しようとしていますが、なかなかうまくいきません。 http://oshiete1.goo.ne.jp/qa2413827.html こちらの回答を参考にしてエクセルで試してみたのですが、出力されたデータの相関係数、平均、標準偏差を調べて見るとどの値も微妙にずれてしまいます。

  • AMOS 相関係数が1を超えます

    今ひとつ統計の知識が疎かなまま,AMOSを使わなければならず,ご教示いただきたくお願いします。 ある仮説による尺度を用いて,あるグループにおこなったデータを検証的因子分析で検討しようとしています。 その結果,標準化推定値を求めたところ,ある2つの因子(潜在変数)間の相関係数が1.05となり,1を超えました。 相関係数はー1≦ α ≦ 1の値を取ると思うのですが,この原因や対処法などありましたら教えていただけませんでしょうか。 データを取った集団は,35名と小規模で,無作為に抽出した集団ではなく,比較的似通った回答をしているかもしれませんが,こういったことが一因なのでしょうか。

  • 相関について

    相関係数があらかじめ出ているものがあるんですが、 いくつかある数値をグラフにしたいんですが何のグラフを使ったらよいでしょうか? もう係数が出ているので散布図にするのも変というかうまくグラフにできませんし・・・。 どなたかお願いします。

  • 相関係数の使い方

    およそ関係のなさそうな2つの統計量の相関係数を計算した時に、値として’相関がある’という結果が出たのですが、これは信用すべきなのでしょうか、それともこの計算および分析が成立するのには何か条件があり使ってはいけない場面で使ってしまっているのでしょうか、詳しい方ご教示ください。

  • 相関係数に関わる話

    相関係数というのはどういうときに使う統計手法なんでしょうか?そこから何が分かって、何は言えないのでしょうか? 教えてもらえませんか。。?

  • 相関係数の違いについて

    はじめまして、maro77と申します。 現在、学生と社会人に関する公共政策に対する意識調査のアンケートを各1000通づつ、2000通回収し、そのデータ分析をしております。 具体的には、属性(年齢、性別、職業〔学部〕など)と各設問の関係性を分析したり、設問の回答結果同士の関係性を分析しております。 現在、相関関係をみようと思っているのですが、ちょっと調べてみたところ、いろんな分析手法があり、困っております。 そこで、相関係数について質問があります。相関係数には、ピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数のほか、クラメールの連関係数、ファイ係数、コンティンジェンシー係数、ケンドールのタウなどいろいろあることを知りました。 ピアソンの相関係数については、2変数が、数字のもの(年齢、年収、身長、体重など)の数値ではないと、求めていけないことを知りました。 しかし、そのほかの分析方法については、あまりよく違いがわかりません。 アンケート結果で得られたカテゴリーデータと順位データがある場合は、どの分析方法を使うのが正しいのでしょうか。また、これらは、どうゆう基準で使いわければよいのでしょうか?いろいろ調べたのですが、いまいち、頭の中のモヤモヤが晴れません。 お手数ですが、ご教示頂ければ幸いです。 宜しくお願い致します。

  • エクセルの相関係数

    以前から疑問に思っていたのですが、 エクセルの散布図で近似曲線を追加するとき、R二乗のboxがあります。 ここをcheckするとR二乗の値が表示されますが、この値が所謂“相関係数”を表しているのでしょうか? はたまた、違う量を表しているのでしょうか? 個人的には平方根をとったものが相関係数のような気がするのですが。