• 締切済み

クロス集計の数量データによる相関などの分析

公表されている調査結果報告書から相関分析等をすることによって、構造を把握したい。 例えば、x、y、zについて満足、普通、不満足という回答を得て、それぞれに3点、2点、1点を配点して、 それを地区別に集計して平均した数値と、被説明変数についても地区別に集計して平均した数値が、表1として 公表されていた場合。 (もちろん個別のサンプルについての生データを得ることが難しいので、このような公表データで分析をして、 その構造を把握するとともに、今後の改善に役立てたいと思っています。) x、y、z間の単相関係数の状況 被説明変数とx、y、zの相関の状況 および重回帰分析 を試みたいと思っています。 この場合の、相関分析、重回帰分析などの統計分析を行う場合の問題点、課題、解決方法、留意点などについて、教えてください。 また、このようなことについて、いい本があれば教えてください。 調査結果報告書 表1 *************************************************************** * 項目 * 被説明変数 * x満足度 * y満足度 * z満足度 * 調査者数 * *************************************************************** *A地区*  15    *  3.5  * 2.1 * 1.3 * 60 * *************************************************************** *B地区*  13   *  2.5  * 2.9 * 3.3 * 30 * *************************************************************** *C地区*   8   *  1.5  * 2.0 * 2.3 * 10 * *************************************************************** データに基づく現状分析と改善方策の策定を目指す、文系の統計初心者(経営コンサルタント)より

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

> サンプル数は幾つ以上あれば説得力があるのでしょうか。 これはパワーアナリシスについて学ばなければならない内容で、一概に「~という場合に**だ」ということはいえないのです。ただ、サンプルサイズが大きければ(例えば100とか200とか)だと、たとえ小さな相関係数であっても「統計的には有意である」という結論が得られます。重要なことは検定の結果である前に、実質的な価値があるかどうかです。r=0.10で有意だったとしても、相関関係はないわけですからね。 > クロス集計データを使う場合の留意点は何か。 質問にあるのはクロス集計表といえなくもありませんが、単なる表ですね。通常とか普通というのが難しい表現ですが、クロス集計といったら普通は計数データがセルに入力されているようなものをいいます。 これは単に平均をまとめているだけですから、ここからできるのは平均がどうかという考察だけでしょう。 重回帰分析をはじめとする多変量解析のサンプルサイズについては色々と議論されていますが、100件くらいでも十分なこともありますし、50件でも、20件でも問題にならないこともあります。要するに一義的に決まるものでもなく、これだけあれば十分というガイドライン的な助言はそう簡単にできるものではないのです(少なくともそれはリサーチデザインの問題)。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

このようなデータから相関係数を計算することも、重回帰分析することも無意味に近いでしょう(無意味というのは、実質的に重要な知見が得られないということです)。もっとも地区が少なくとも20地区とかあるのであれば、相関係数や重回帰分析をしてもいいでしょうが、たった3つのデータでは。。。 データをプロットしてみて、そこから何か考察するくらいしかないでしょう(^_^;)

ushi_8
質問者

お礼

backsさん 回答ありがとうございます。 問題は、サンプル数がどれだけあればよいか、ということですね。調査結果報告書にはいくつかの表が示されています。どの程度のサンプル数のもの使ってみるかということでしょうか。 統計に詳しい方にお聞きしたいのは、より深くお尋ねしたいことは、 (1) サンプル数は少なくとも、相関分析をした結果において、有意差あり( * または ** と判定)とされればよいとも言えるとも思いますが、サンプル数は幾つ以上あれば説得力があるのでしょうか。統計学的には。単相関分析においては。 (2) 表1のような数量クロス集計データを使う場合の留意点は何か。 (3) (私が持っている統計に関する本を調べてみると)重回帰分析にする場合には、サンプル数は、説明変数の数+2以上が必要であるとありました。(その本では、実際上は+3以上のサンプル数では重回帰分析をするとありました。)それに該当する表について分析すればよいと思いますが、留意点、課題等について。 当初の質問に加えて、教えていただければ幸いです。 よろしくお願いします。

関連するQ&A

  • 単回帰分析と重回帰分析の結果の違い

    論文を読んでいて疑問に思うことがありました.よろしくお願いします. 私は,回帰分析とは変数Yを、p個の変数X1,X2 ,… Xpにより説明したり予測するための統計的手法であり,p=1のときは単回帰分析,p>1のときは重回帰分析と呼ぶ,と解釈しています. 今,ある施設のサービス改善についての調査論文を読んでおります.そこではアンケート調査でその施設のサービスの総合評価Yと,8個の各サービス毎の評価(x1~x8)を調べ,総合評価Yを従属変数, x1~x8を説明変数として重回帰分析にかけます.そして出た相関係数から施設の総合評価に対する各サービスの重要度を求め,改善につなげようとしています. 結果,重要度は x1>x2>x6>x3>x7>x8>x4>x5 という結果になりました.ここまではわかるんです. ですが次に総合評価Yを従属変数,x1を説明変数として単回帰分析,また総合評価Yを従属変数,x2を説明変数として単回帰分析,また総合評価Yを従属変数,x3を説明変数として単回帰分析・・・というようにこの操作をx8まで続け,出た相関係数を比較しています.結果は x1>x2>x4>x8>x3>x5>x7=x6 となっており,重回帰分析の結果と照らしあわせると最初のx1とx2は合致しているものの,あとはバラバラです.x6にいたっては最後にきています.なぜでしょうか.論文は「どのサービスも総合満足度に重要な影響を与えており,特にx1,x2,x3,x4を改善するのがよい」 と締めくくっています. 質問は3点です. (1)なぜ重回帰分析の結果と単回帰分析の結果が異なるのか (2)どのサービスも総合満足度に重要な影響があるとして,それは重回帰分析の結果だけで言えるのではないか(重回帰でも相関係数は出ているし,単回帰分析をする意味はあるのか) 稚文ですみません. 当方あまりオツムがよろしくないのでできるだけわかりやすくよろしくお願いします.

  • 相関分析と重回帰分析

    大学3回生で、来年度の卒論のために先行研究を読んでいます。 私が書く卒論では統計分析が必要なのですが、 先行研究を読んでいて疑問に思ったことがあるので、質問させてください。 ある論文で、変数間の相関を分析した後、重回帰分析を行っていました。 ところが、相関分析において相関の出ていない変数に対しても重回帰分析を行っており、 その結果、 「相関分析では有意な相関が見られない」にも関わらず、「重回帰分析では有意な結果が見られる」 というような書き方がなされていました。 また、この論文における考察部では、相関分析と重回帰分析をまとめて考察しており、 ほとんど重回帰分析の結果についてしか触れられていませんでした。 相関分析と重回帰分析を両方行う場合、相関がない変数についても重回帰分析を行うべきなんでしょうか? ゼミに教授に質問しにいっても、現4回生の卒論などで忙しいのか、 今度にしてくれ、と言われてしまいましたので、こちらで質問させていただきました。 不勉強で、重回帰分析の仕組みが良くわかっておらず、大変心苦しいのですが、 宜しければ回答していただけると、とても助かります。

  • 重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが

    重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが、重回帰分析は、目的変数(Y)を、説明変数 X1, X2, X3, X4.....X20などに影響されるか否かを検討しますよね。ここで、私がしようとしている統計学的処理と類似した研究の論文などを読んだりとかしていると、YとX1, YとX2, YとX3, YとX4.....YとX20の単回帰分析を各々行い、ここで有意な相関があったものを取り上げて(例えば、X1, X4, X7, X12, X18, X20の6個など)、この6個について、重回帰分析を施行して、ここで、X4, X18は有意でないといった結果が出たなら、Y=aX1+bX7+cX12+dX20という重回帰式を作成し、標準偏回帰係数を算出し、どの説明係数が最も目的変数に影響を与えているのか解析しているのですが、これが正しい方法(進め方)なのでしょうか? いきなり、YとX1~X20を重回帰分析したのは、どうでしょうか?これはダメなのでしょうか?単回帰分析では相関が有意にでない(他の説明変数の影響のために)けれども、重回帰分析では有意な結果となるような説明変数が無視されるような結果になるように思うのですが、どうでしょうか? 非常に低レベルな話しで申し訳ないのですが、お教え下さい。

  • 相関分析や回帰分析について

    相関分析や回帰分析についての記述が正しいのかわかりません。 間違っていたらどこが違うのか理由も教えていただけると幸いです! (1)ある特性、例えば、身長についてゴールドンのいう第二世代(子)の平均への回帰が観測される(b<1)のとき説明変数と被説明変数を逆にした回帰計算をしてもいわば、おやの平均への回帰が観測される可能性はない。(親と子の身長には、正の相関があると考えてよい) (2)第二世代(子)が平均へと回帰するのならば、将来は、個人のもつ身長その他、さまざまな諸特性がすべて一様な社会になってしまう。(ある経済学者はそう考えた) (3)重回帰の場合、通常の決定係数を使用すると、説明変数の増加のよるあてはまりのよさの改善を誇張してしまうので、修正済み決定係数(自由度調整済み決定係数)を使用するのが普通である。もいろん、単純回帰については、決定係数と修正済み決定係数は同じものになる。 (4)決定係数は、マイナスになることはないが、修正済み係数はマイナスになりうる。 (5)回帰分析を因果関係と結びつける(説明変数を原因、被説明変数を結果と見る)ことは、記述統計の範囲を逸脱している。 よろしくお願いいたします!!!

  • 相関分析と回帰分析をしたいのですが

    ある雑誌のランキング数値(企業のCSRや環境度に関するもの)と株価および会計数値との相関分析と回帰分析を行いたいと思っています。 雑誌に掲載されているものは1~200位までなので、これを基に相関分析を行おうと思うのですが、対象企業は1000社ほどあるようなのです。1~200位だけでもサンプルとして妥当でしょうか? また上記の条件で回帰分析を行うこともできるのでしょうか? 統計分析初心者なため、どのように分析すれば良いのか分かりません。もし参考文献などご存じでしたらよろしくお願いします。

  • 回帰 独立性

    こんにちは。生物を学んでいるのですが、統計学が必要なので勉強し始めました。単回帰について、質問があります。 2変数xとyとのあいだのピアソン相関係数や決定係数を求める際、 たとえばy=x-zのようにyがx自体の関数として表せる場合、単純に求めた相関係数や決定係数は意味がありますか ? (ここでzはxの関数であるかもしれないし、そうでないかもしれなく、つまり、具体的な関数の形はわかっていないと考えてください) 友人に、zの具体的な関数の形はさておき、yはとにかくxの関数であり、xとyは独立ではないので、上記の統計はあまり意味がないと言われました。でもそれはおかしいと思ったのです。なぜなら、仮にaとbが独立だとして、回帰分析後に相互に相関があるとわかった場合、結局bはaに依存している(あるいはその逆)という結論が導きだされ、それはaとbは独立でなかったことを意味し、よってその統計に意味がなかったとされ、aとbを比べるということ(すなわち回帰分析自体)が意味がないということになってしまいます。 つまり、独立かどうかの判断が、統計を行う前になされるか後になされるかの問題にすぎず、aとbとの間の相関を見つけるために回帰分析をしたい人にとっては、永久に相関を見つけることができないということになります(なぜなら相関を見つけるということは、aとbが独立でなかったことを示す事他ならないからです) よろしくおねがいします。

  • 統計エクセル 量的データと質的データの回帰分析

    エクセル2013を使用している、エクセル統計勉強中の者です。 量的データ(説明変数)と質的データ(予測したいデータ)があり、 質的データを、可能な限り詳細な数値に置き換え、相関関係を調べてみました。 すると、相関係数が0.05という、相関関係がないという結果になりました。 この時点で、回帰分析や予測などは、断念すべきなのでしょうか? 相関がないと考えられた場合の、別の対応方法などがあるのであれば、ご教授お願いいたします。

  • 残差に自己相関がある時系列データy(1),y(2),y(3),...,

    残差に自己相関がある時系列データy(1),y(2),y(3),...,y(n) に対して上昇トレンド(線形)が有意に存在することを 統計的検定で示したい場合はどのようにすればよいのでしょうか? 単にデータ 時刻(x) 値(y) 1 1.512472 2 1.594956 3 1.636873 4 1.711896 5 1.570067 6 1.440109 7 1.550716 8 1.55284 9 1.372756 ・・・ ・・・ に対して単回帰分析(y=a+b*x)を行い、初級の統計で習うように 係数aの仮説検定H0:a=0 H1:a!=0に対応するp値を見ようとも 最初は思ったのですが、どうも系列相関を 無視して分析しているのが気になっていまいちすっきりしません。 適切な方法がわかる方がいたら、ご教示いただければ幸いです。

  • データマイニングのように区間クロス集計を自動的に!

    以下のようなクロス集計を自動的に行ってくれるフリーツールはないでしょうか? ・ある変数が高い数値(例えば店舗の利益が高い)は、どのような変数の条件(気温や広告や経済状態など)の場合かを抽出したい。 データの例 ・日付: ・目的変数:(例えば、店舗の利益) ・属性A:(その日の気温) ・属性B:(その日の湿度) ・属性C:(その日の株価) ・属性D:(前日とその日の株価の変動幅) ・属性E:(曜日) ・属性F:(店舗のスタッフの人数) ・属性G:(駅前でのビラ配布枚数) ・属性H:(店前でのビラ配布枚数) など属性30種類ぐらい・・・・ これらのデータが1000件程度あります。 分析結果として、 ・属性xが(x~xx)且つ、属性yが(y~yy)、且つ属性zが(z~zz)、の場合は利益が高い。(属性の組み合わせ数は任意) という結論が欲しいのです。 (さらに欲を言えば、日付データを考慮して、最近の傾向として、効果の高い属性はxxである、という結果も導き出したい) Excelで全組み合わせのクロス集計をすれば見えてくるのですが手間がかかります。 単純な相関や線形回帰や、数値の上下で2分していく決定木では出来なさそうと考えています。 WEKAやCallegeAnalysisなどを触ってみたのですが 思ったような結果が出ません。 もし上記ツールで出来るなら、 パラメータなどの設定の仕方を教えて頂けないでしょうか。 または他のツールを教えて頂けないでしょうか。 何卒よろしくお願いします。

  • 重回帰分析と相関分析の結果の差異について

    都内4年制大学に通う学生です。 現在、学校の課題で統計処理を行っているのですが、困っている事があります。 変数Aと変数Bとの関係において、2変量の相関分析では有意ではなかった(r=-.05,p>0.1)にも関わらず、重回帰分析では独立変数Aが従属変数Bに対して負の影響を与えているという事が明らかになり(β=-.30,p<0.05)、これを他の人にどう説明してよいか分からないのです。 この場合、独立変数Aは抑制変数と呼ばれるものになるのでしょうか? まだまだ統計の知識も浅い未熟者なので、できるだけ易しく教えて頂けると助かります。 何卒よろしくお願いします。