• ベストアンサー

質的データと量的データの相関について

例えば性別のような質的なデータとテストの点数などの連続変数からなる量的データの間の相関をみるということは出来るのでしょうか??統計の本には相関の結果が書いてあるのですが、結果の読み取り方と計算の仕方がわかりません。基本的な質問ですみませんが、どなたか教えていただけませんか?? 宜しくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

で・き・ま・す!!! こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが) さて、本題。 ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。 <例1> 2者(男と女)での性質の違いを調べたいとき →数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。 <例2> 3者のものを比べたいとき(男、女、オ○マの3種類とか) →次の3通りについて、全部相関を調べればよいです。 ・A群を1、B・C群を2    →これで相関が出ればAに属するか否かによって性質が違うということが言えます。 ・B群を1、A・C群を2 → 以下同文 ・C群を1、A・B群を2 →  〃 Excelとかだと、「相関係数」が容易に関数として求めることができるので、ちょー簡単に分析できますよ。 相関係数というものは-1から+1までの値をとります。絶対値が1に近いほど相関あり、0に近いほど相関なしです。相関係数の絶対値だけが問題なので、男を1、女を2としても、その逆にしてもよいわけです。 私、日ごろ、当たり前のように、応用してますよ。 <実用例> パンを焼く機械が3台ある工場で、製造不良数と使用機械との間に相関がないかどうか調べる。 この結果、特定の機械でつくったパンだけに不良が多い傾向が認められれば、その機械に対して対策を打つ・あるいは使用禁止にして、残り2台のみ稼動とする など。 以下、補足です。 このような3者以上の時って、結果的に相関係数が最大になるように、それぞれに対する「数値」を微妙に調整していくと理想的ですね。(←試行錯誤的な繰り返しになると思いますが) 例えば、3つの中でナンバー1がどれでワースト1がどれと決まり、さらには、両者の中間のは、どちらかというと他の2つのどちらに近いか、といったことまで判ります。だけど、ここまで分析するのは複雑だし時間がかかるので、私は実用的にはやっていません。前記のように3種類を2種類ずつ3通りに分けるだけで十分と思います。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (2)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.3

こんにちは. 質問者さんは,質的データ変数と量的データ変数の組合せから何らかの類似性の指標を求めたいわけですね? Excelの関数で実行できる「相関係数」を使うのであればNo1さんが示されているようなやり方もあるかもしれません. ここでは,それぞれの変数の組合せで使用される,より適切な類似性指標を紹介したいと思います. ある変数とある変数の類似性を示す数値を求める場合には,その変数が量的データなのか,質的データなのかによって異なる指標を使わなければなりませんね. 量的×量的→ピアソンの相関係数(いわゆる相関係数) 量的×質的→相関比 質的×質的→クラメールの連関係数 ※他にもスピアマンの順序連関係数,φ係数などありますが略. ※上記三つがももっとも汎用的でしょう. 量的変数と質的変数との組合せから,このような類似性の指標を使うようにアドバイスを出すことができます. さて,質問者さんが求めたいデータの組合せは,上の分類によると「相関比」となります.一般には相関比の計算法や結果解釈法などは書かれていません(というよりは相関比そのものがマイナーです). 計算法なのですが……質問者さんは「分散分析」の計算法は御存知ですか? 求めたいデータに対して,いわゆる「対応なし(被験者間/連関なし)一要因」分散分析を実行してください(Excelでも「分析ツール」を使えば実行できます).すなわち性別による要因によって量的変数の数値(の平均値)に差があるかどうかを調べる形になります. その結果から,要因Aによる変動の平方和「SSA」と全体Totalの変動の平方和「SST」の数値を抜き出して,           SSA(要因Aによる変動平方和)  相関比の二乗=─────────────────            SST(全体の変動平方和) この相関比を計算してください. この計算原理を見ると分かるように,質的×量的データの類似性とは,質的変数の種類(男性,女性)によって量的変数の平均値に違いがあるか,もし質的変数によって違いがあるということは,質的変数の種類1と平均値1とが関連がある,質的変数の種類2と平均値2とに関連がある,ということを見ているわけです. 相関比(η)の二乗はの範囲は0≦ηの二乗≦1となり,1に近いほど関連ありとなります.また,相関比の二乗をルート計算で相関比そのものを出してもかまいませんね.相関比の場合も同様に0≦η≦1の範囲をとり,1に近いほど関連ありと判断します. 相関比そのものの場合は,大雑把な目安ですが,相関係数と同様に以下のような判断を下せます.  0.0≦η≦0.2:ほとんど関連性なし  0.2<η≦0.4:弱い関連性あり  0.4<η≦0.7:比較的強い関連性あり  0.7<η≦1.0:強い関連性あり

全文を見る
すると、全ての回答が全文表示されます。
noname#6201
noname#6201
回答No.2

相関があるかということですが、この場合の関心は「グループ(例えば男女)に違いがあるか」というでしょうから、闇雲に強引な相関を求めるよりも、グループごとの違いを見る方が重要なのでは? ということで最もわかりやすいのは質的データに1,2,3などの値を割りふり散布図を描くことではないでしょうか。(それぞれのヒストグラムを描いて比較してもいいですが) 統計的なことを用いたいのでしたら、グループごとの平均に関する検定(分散分析)経験的な上位、中位、下位の階級などを決めて集計したもののカイ2乗検定などを実施するのがよいのでは。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 相関係数の計算について質問です。EXCELにCORREL関数というのが

    相関係数の計算について質問です。EXCELにCORREL関数というのがあり、2つの変数の相関係数を計算できることを聞きました。一種の回帰分析のような計算をすることのようです。計算式(EXCELの関数)は=CORREL($A1...$A100,$B1...$B100)というような式のようです(この場合、同一変数のA列の1から100行までのデータと、相関をみる別の変数のB列の1から100行までのデータの相関を計算し、A列の変数とB列の変数の相関値(答えはひとつ)を出すということのようです。そこで質問なのですが、この100のデータの個々の相関係数(つまり、データひとつひとつをこの関数(CORREL)で計算した相関値をあとでその総和としての100のデータの相関値にする計算はできるのでしょうか。つまり、この100のデータの分類(同種の仲間として分析したい)をやる場合、その同種の分類の数だけこの関数計算をしなければならないので、先に個々のデータごとに必要な分析結果を出しておいて、後で同分類ごとに集計(総和)した結果を出したほうが早いと思ったので、この質問をしています。そもそも、この考え方のほうが結果が早く出るのかということも含めて、どなたかよくご存知の方、おしえてください。お願いします。

  • 離散的なデータの相関

     たとえば、ある2つのテーマ(例えば 物覚えと熟睡度)について 4 大変良い  3 良い  2 悪い  1 ひどく悪い から選んでもらうアンケートがあるとします。真ん中(例えば 普通)はわざと入れていません。この2つのテーマについて明らかに相関があるように思え、項目の番号を値と見て相関があるか調べるため相関係数を求めてみたら、たいした数値になりませんでした。  その原因はあまりに離散的だったからだと思うのですが、こういう場合はどのように相関を調べればいいでしょうか。  同じことで、英語のテストと数学のテストの点数の相関にしても、 5 80点以上  4 60点以上  3 40点以上  2 20点以上  1 20点未満 という集計の仕方をすると、どのように相関を調べればいいでしょうか。

  • 相関の強さの表し方

    2点質問があります。文系人間ですので、簡単に表現してくれると有り難いです。 1.2つの変数の相関関係の強さがどれくらいかを、説明する場合にどのような方法があるのでしょうか。 2.某サイトで相関関係の強さについて、「相関係数の絶対値の大きさが0.7~1.0だと強い相関、0.4~0.7だとやや相関あり、0.2~0.4だと弱い相関あり、0~0.2だとほとんど相関なし」というものを見つけたのですが、これは統計学的に一般的に言われていることなのでしょうか。何か確認できる書物などをご存知でしたら教えてください。  

  • 相関係数と回帰直線の使い分け

    相関係数は2つの変数とも無作為型であること、回帰直線は片方の変数は固定型であること・・・ということが、統計の本には書いてあります。 なぜでしょう? 片方の変数が固定型であった場合、相関係数を求めてはいけないのでしょうか?

  • 相関係数の使い方

    およそ関係のなさそうな2つの統計量の相関係数を計算した時に、値として’相関がある’という結果が出たのですが、これは信用すべきなのでしょうか、それともこの計算および分析が成立するのには何か条件があり使ってはいけない場面で使ってしまっているのでしょうか、詳しい方ご教示ください。

  • スピアマンの順位相関係数について教えてください

    論文を書いておりますがスピアマンの順位相関係数での相関のあるなしが次のデータから言って良いのかどうかを教えてください 実際のものとは違いますが、たとえば 変数1を身長として、変数2を最近体のだるさがないを「0」すこしあるを「1」かなりあるを「2」とした時に「身長と体のだるさ」に相関があるかどうかをスピアマンの順位相関係数で言えるのかどうか? このデータで 変数1を身長、変数2をだるさなし群を「0」少しでもあるとかなりあるをあわせて症状がある群を「1」として、対応のないt検定をおこなったところ優位な差がでなかったので他の統計処理を行えば差がでるのか知りたいです。 統計は初心者中の初心者です。 t検定もyou tubeに出てた方法をそのままエクセル2010でおこなっただけです。 これがスピアマンや他の統計処理ができそうなら大学の図書館の統計処理ソフトで行う考えです。

  • 相関係数について

    お世話になっております。 統計初心者で、質問の内容もそもそも,おかしいかもしれませんが、 質問させてください。 以下のような、関連性のない2変数に関して、 両変数間の総合的な類似度を計算する方法に、 ピアソンの積率相関係数及び、スピアマンの順位相関係数を 使用したいと思っております。 変数X |変数Y 177.67 |171.539 156.3 |154.415 143.72 |140.236 141.41 |135.375 127.74 |126.492 127.09 |125.916 125 |116.326 119.99 |116.211 67.24 |62.222 52.59 |47.566 47.31 |45.37 41.47 |35.294 24.85 22.79 21.78 現在は、外れ値がない場合は、ピアソンの積率相関係数を使用しており、 ある程度類似度が算出できています。 スピアマンの順位相関係数に関しては、まだ使用できておりません。 以下、疑問点になります。 (1)そもそも2変数間の類似度を算出するのに相関係数は有用か (2)項目数が違うものに関して、両相関係数は適用可能か (3)両変数間に対応がなく、既に大きさ順に並んでいるものに、スピアマンの順位相関係数は適用可能か また、2変数間の総合的な類似度を算出するのに有用な方法などありましたら、 ご紹介頂ければ幸いです。 何卒、宜しくお願い致します。

  • 変数AとBは相関あり、BとCも相関あり…のときにAとCに相関がないというのはどう解釈すれば良いでしょうか。

    3つの変数があり、変数Aと変数Bの間には有意な正の相関がありました(P<0.01)。BとCの間にも同様に正の相関がありました(P<0.05)。 しかし変数AとCの間で回帰分析をすると、有意な相関は認められませんでした(P=0.23)。 この様な結果になることは理論上あるのでしょうか。また、理論上あり得るとしても、結果の解釈が難しくて困っています。Aは、Cと相関のあるBと相関がある以上、AとCの間は全く無関係と言い切れるのでしょうか。 ご回答・アドバイスをお待ちしております。

  • 相関係数??

    あるアンケートの集計の方法について質問です。 質問1~10について、1~20点の点数をつける。 これを100人に行いました。 この場合の、質問1~10の関連性を見るのは相関係数というのでよいのでしょうか? たとえば、質問1で点数が高い人は、質問5でも点数が高い、逆に質問3の点数は低い、という傾向がある・・・というようなことを調べたいのです。 ちなみに統計ソフトはSPSSを使用しています。 SPSSの中の相関分析というのを使用すればよいのでしょうか? 初心者なので簡単な言葉でお願いします。。

  • 相関を求める時の、はずれ値のはずし方

    こんにちは 現在、ある2つのデータの相関関係を調べています。 そのデータを散布図にしたところ、数個はずれ値が確認できました。 これのはずし方をご質問させてください。 はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか? 私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。 しかし、統計的におかしはことはしたくありません。 そこで、話の流れとして、 『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』  ↓ 『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』  ↓ 『いずれにせよ、相関はある』 はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。 けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。