• 締切済み

正規分布していないデータの相関を見たいです。

せっかくテスト3つを作成して信頼性の方は大丈夫でしたが集まったデータがグラフで見ても正規分布していません。このよおうな3つのテストの相関を見るとき、ピアソンではまずいでしょうか?スピアマンに切り替える基準みたいなものはあるのでしょうか?どのくらいまで正規分布していると見なされるのでしょうか? また正規分布していないデータで回帰分析にかけると問題がおこるでしょうか?

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

相関係数を計算するために、そのデータ(の母分布)が正規分布に従うかどうかは関係ありませんよ。両者の違いは尺度水準が順序尺度であるか、それとも間隔尺度以上の尺度水準であるかということです。 母集団のデータが明らかに正規分布に従わないようなデータに対して回帰分析を行うのは不適切です。例えば、2値データや計数データに対して回帰分析を行うのは、明らかな間違いです。

yoshihero
質問者

補足

回答ありがとうございます。 ただ、統計の教科書にはピアソンの場合は正規分布が前提で、正規分布していなければスピアマンを使うように書かれています。ですので正規分布しているかどうかの判断はグラフによる直感以外にあるのかをお聞きしたかったのでした。 また2つの要因を重回帰分析にかけるときに、その2つのデータのうち片方または両方が正規分布していなさそうなとき(例えば何かのテストの得点)に、そのまま分析にかけてよいのか、教科書には回帰分析の時にデータの正規分布の前提が書かれていませんでしたので確かめたかったのです。重回帰分析の時には、誤差何とかが、正規分布していることが前提とあったのですが、何のことか分からず不安になったのです。 以上できましたらよろしくご回答下さい。

関連するQ&A

  • 正規分布でないときピアソンの相関係数を使いたいのですが。

    文献には、ピアソンの相関係数は ・連続変数 ・正規分布に従う。 時に使い、それ以外はスピアマンの順位相関係数を使うとありますが、正規分布をとらないときピアソンの相関係数を使うと問題がありますか?心理学では正規分布の条件は無視した論文もあると聞いたことがあるのですが。どうしてもピアソンで行いたいので、もし、無視できるくぐりぬけかたがあれば教えてください。 都市の「汚染物質排出量」と「イオン濃度」のあいだで相関係数を調べました。 サンプル数は29で「イオン濃度」はおおまかに正規分布をとるのですが「汚染物質排出量」では中央が少なく正規分布をとりませんでした。 相関係数はそれぞれ、ピアソンは、0.67で、スピアマンでは0.56です。 ともにp<0.01水準で有意でした。 どうか、分かる方がいましたら教えてください。お願いします。

  • 正規分布とピアソン相関

    正規分布がピアソンの相関分析の条件だと聞きましたが、「正規分布」とみなして良いかどうかは、どうやって見分けるのですか?グラフで直感では分かりますが、何か本当は検定すべきなのでしょうか?

  • 2つのスピアマン順位相関係数の差の有意差検定

    データが正規分布していない2つの相関係数の間に有意差があるかどうかを調べたいのですが、2つのスピアマン順位相関係数の間に有意差があるかどうかを調べる検定というものは存在しますか?ピアソンのがあることは教えて頂いたのですがスピアマンのことは見つかりませんでした。よろしくお願いします。 (SPSSは手元にあります。)

  • Statcel2を用いたデータの正規性の検定

    Statcel2を用いたデータの正規性の検定について教えてください。 私の解釈は合っていますでしょうか。 ある計数データの正規性の有無を調べるため、Statcel2を用いてx^2検定で検定を行いました。 p値が仮に0.04だった場合、p<0.05のため、正規分布であるとは言えない。 加えて自由度が1の場合、x^2(0.95)は3.84であるから、x^2値が4.07ならば、正規分布であるとは言えない。p値で判定してもx^2値で判定しても構わないのでしょうか。 その後、計数データが、ある因子に相関があるか評価したいのですが、さきほど正規分布であるとは言えないと判定された場合は、ピアソンの相関係数ではなく、スピアマンの相関係数といったノンパラメトリックな手法で検定を行うべきでしょうか。その場合もp<0.05ならば「有意な」相関だと判断して良いでしょうか。 統計学は論文作成のために独学で行ったため、自信がありません。 乱文で申し訳ありませんが、ご教授ください。よろしくお願いいたします。

  • 相関がある2つの正規分布

     確率統計の試験の過去問題で分からない問題があったため質問させていただきました。問題分の内容は以下になっています。 (問題) Xは平均1、分散4の正規分布に従い、Yは標準正規分布に従う確率変数である。またXとYの相関係数は0.5である。X+Yが0以下になる確立を求めなさい。    互いに独立な時は正規分布の再生性よりX+YがN(1,4)に従うのですが相関があるときにどうすればよいかが分かりません。 宜しくお願い致します。  

  • 回帰分析と正規分布

    回帰分析にかけるデータはそれぞれ正規分布していないとダメですか?

  • 熟達度テストと正規分布

    熟達度テストで上位群と下位群に分けて、相関分析などの統計を行うと、当然それぞれのグループは正規分布しなくなっていると思いますが問題ないのでしょうか?

  • 相関係数の違いについて

    はじめまして、maro77と申します。 現在、学生と社会人に関する公共政策に対する意識調査のアンケートを各1000通づつ、2000通回収し、そのデータ分析をしております。 具体的には、属性(年齢、性別、職業〔学部〕など)と各設問の関係性を分析したり、設問の回答結果同士の関係性を分析しております。 現在、相関関係をみようと思っているのですが、ちょっと調べてみたところ、いろんな分析手法があり、困っております。 そこで、相関係数について質問があります。相関係数には、ピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数のほか、クラメールの連関係数、ファイ係数、コンティンジェンシー係数、ケンドールのタウなどいろいろあることを知りました。 ピアソンの相関係数については、2変数が、数字のもの(年齢、年収、身長、体重など)の数値ではないと、求めていけないことを知りました。 しかし、そのほかの分析方法については、あまりよく違いがわかりません。 アンケート結果で得られたカテゴリーデータと順位データがある場合は、どの分析方法を使うのが正しいのでしょうか。また、これらは、どうゆう基準で使いわければよいのでしょうか?いろいろ調べたのですが、いまいち、頭の中のモヤモヤが晴れません。 お手数ですが、ご教示頂ければ幸いです。 宜しくお願い致します。

  • 相関分析のデータについて

    大学のエクセルの授業にて、インターネット上のデータを利用して、それを相関分析のグラフにせよという課題が出されました。 しかし、私はまだエクセルに慣れておらず、何を利用していいかさっぱり分かっていません。 授業では、野球のデータを使ったのですが、先生の説明も早いので、良く聞き取れませんでした。 エクセルでグラフを作成することに関しては、分かります。 相関分析の何かWEB上から取れるいいデータはないでしょうか? 回答よろしくお願いします。

  • 正規分布とヒストグラムのグラフの書き方

    エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。 しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。 具体的に書いていきたいと思います。 正規分布になるとほぼ確信しているデータがあります。 サンプル数は50、平均7.8、標準偏差2.9のデータです。 データ区間 頻度 0       0 1       1 2       1 3       2 4       2 5       5 6       6 7       6 8       6 9       8 10      5 11      2 12      3 13      1 14      2 15      0 というデータです。 そして、データ区間に対応する正規分布の値を NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE) を使用して、求めます。 そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。 (ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?) 上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが) また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。 以上の作業で、求めていたグラフは書けました。 視覚的に予想通り正規分布のグラフに近いことが分かりました。 さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。 そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。 度数分布表は以下のようになります。 データ区間 頻度 1       1 3       3 5       7 7       12 9       14 11      7 13      4 15      2 17      0 ここから、前回同様の作業でヒストグラムは容易に描けます。 正規分布のグラフはどのように書けば良いのでしょうか? 前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。 正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。 データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。 すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。 しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。 このようにして得られてグラフに問題は無いでしょうか。 また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。 数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。 どのように考えればよいのでしょうか。 質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。 お手数をおかけしますが、よろしくお願いします。