統計初級者が適切な統計手法を選択する方法

このQ&Aのポイント
  • 統計初級者が適切な統計手法を選択するためには、質問の本題であるB.平均生活満足度×家族の分析方法を考える必要があります。
  • 具体的には、サンプルサイズが異なる場合にどのような処理を行うか、検定手法の選び方などについて検討する必要があります。
  • また、データの分布なども考慮しながら適切な統計手法を選択することが重要です。統計初級者には、統計学の基礎を理解しているだけでなく、実際のデータに対して適切な分析手法を選択する能力が求められます。
回答を見る
  • ベストアンサー

次のような場合に適した統計手法を教えてください

統計初級者?ぐらいの者です。 基礎的な回帰、重回帰分析ぐらいまでならいちおう(クリック統計学レベルで…)理解しているのですが、いろいろと実作業をやっていて、わからなくなったので質問させていただきます。 さて、 調査の中身自体は全く違いますが、実際に次のような分布のデータがとれました。 -------------------------------- 【取得できたデータの概要】 -------------------------------- 家族の人数と、現在の生活に対する平均満足度に対するアンケートを5000人に行ったとして、 ■A. 生活満足度×家族の人数の相関  まず、家族の人数と、生活満足度を、シンプルにピアソンの相関係数で測った場合、-0.16程度しか出てきませんでした。5000人で、-0.16であれば、弱い相関は確実にあり、p値も、0.001以下になりました。  ただ、調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。 ■B. 平均生活満足度×家族の人数の相関  また、少しデータの見方を変えて、家族人数が1人の時、2人の時、でそれぞれ、生活満足度の平均をとってやったとします。(この場合の「平均」はシンプルに算術平均をとりました。) 1人の時の平均生活満足度:4.5 (n=1500) 2人の時:4.4 (n=1000) 3人の時:4.3 (n=1400) 4人の時:4.2 (n=600) 5人の時:4.1 (n=300) 6人の時:4.0 (n=200) 7人の時:3.9 (n=100) というようなことが、わかりました。 このとき、 「平均生活満足度」と、「家族の人数」で、 相関をとればキレイに「-1」になるかと思います。 回帰曲線も、キレイな線が引けます。 ---------------------------- 【質問の本題】 ---------------------------- 質問の本題は、B.平均生活満足度×家族 の分析のほうになります。 B.の分析で、確かにキレイな数字は出てくるのですが、 こういった形で、分析をしてしまうと、 実際には、5000人のデータを取得しているにも関わらず、 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。 それぞれのサンプル数が、500人いる場合とで、 サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、 この場合、どのような処理を行うのが適切なのでしょうか。 ご指導お願い出きましたら幸いです。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.1

> 実際には、5000人のデータを取得しているにも関わらず、 > 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。 同じ平均が出てきたら、確かに同じ回帰曲線が得られるでしょうが、人数が多いなりの価値があります。 例えば、家族人数が一人のときの生活満足度の分布が平均がμ、分散がσ^2とします。 家族人数が一人の場合で5000人のデータが集まれば、平均生活満足度の分布の分散は(σ^2)/5000ですし、300人のデータなら(σ^2)/300です。 平均生活満足度の信頼性はそれだけ上がります。 (調査のコストに見合うかどうかは別にしてます) > それぞれのサンプル数が、500人いる場合とで、 > サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、 > この場合、どのような処理を行うのが適切なのでしょうか。 サンプル数というよりサンプルサイズ(標本の大きさ)というべきですが、サンプルサイズが大きい場合は正規分布等に近似できることがありますので、その結果、検定方法が異なるように見えるだけです。

compequal
質問者

お礼

お礼遅くなりました。   非常によくわかりました。(そして、自分が何をわかっていなかったかがわかりました…!) ありがとうございます。

その他の回答 (2)

  • ramayana
  • ベストアンサー率75% (215/285)
回答No.3

以下は、回答でありません。回答は、 ANo.1 さんや ANo.2 さんでほぼ完結していると思います。ただ、ご質問にいくつか気になることがあったので、突っ込ませてください。統計は、数学以上に常識的感覚が重要なので。 なお、「調査の中身自体は全く違いますが」とあるので、本当は生活満足度と家族人数の調査でないのかもしれませんが、生活満足度と家族人数の話とします。調査の中身を抜きにして適切な分析手法を語るのは難しいです。 1 「調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。」について この評価には、違和感があります。生活満足度を規定する要因は様々で、仮に家族人数が要因の1つだったとしても、説明力が小さいだろうということは、容易に想像されます。その前提で眺めると、相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。 なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。 2 分析手法について 「生活満足度と家族人数に関係があるか?」という問題意識ならば、回帰分析が普通の手法だと思います。説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。 また、回帰分析を行うにしても、直線的な関係でないかも知れないので、家族人数そのものを説明変数にするのでなく、家族人数2人、家族人数3人、家族人数4人以上のそれぞれに応じたダミー変数を説明変数にするのがよさそうです(多重共線を防ぐため家族人数1人に対応するダミー変数は使わない)。サンプルサイズが 5,000 もあるので、説明変数を 1 個から 3 個に増やしても、たいした支障はないでしょう。 3 Bのデータについて このデータは、かなり怪しいです。こんな綺麗なデータなら、どんな検定方法を使っても、ほぼ確実に有意と判定されるでしょう。統計的に有意と判定される典型的なケースとして、次のものがあります。 (1) 生活満足度と家族人数に何らかの関係がある。 (2) 偶然性を壊す何らかの恣意的操作が行われた。 B については、 (2) が疑われます。「生活満足度」は具体的にどんな文言で質問したのか、それが定性的な回答を求めていたのならどのように数値化したのか、どんなサンプリングをしたのか、捏造はないか、等をチェックする必要がありそうです。 4 年齢等をコントロールする必要 チェックの上で生活満足度と家族人数に統計上の関係が確認されたとしても、因果関係があるなどという結論に飛びついてはいけません。一般に、生活満足度も家族人数も年齢と相関があることが知られています。最低限、年齢をコントロールした分析が望まれます(年齢も説明変数に加えるなど)。できれば、仕事、収入、資産、健康状況、配偶関係、居住地などもコントロールすべきでしょう。

compequal
質問者

お礼

統計に未熟な人間に対する、とても丁寧なコメントをいただき感謝です。 >調査の中身を抜きにして適切な分析手法を語るのは難しいです。 仰るとおりです。いろいろと、前提の話を変えてしまって申し訳ありません。 >相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。 なるほど。調査自体はまったく違うのですが、同じ内容の調査だとすれば、おっしゃられることはその通りだと感じました。 >なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。 申し訳ありません… ただ、統計学び中の身分ですと、そもそも、「知りたいことが最もよく分かる」ための統計手法に何と何があるか、というバリエーションも十分理解できていない状況ですので、正攻法のバリエーションと、邪道な分析手法のいじり方の差もわかっていない段階です。 >説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。 ありがとうございます! そうなんですね。勉強になります。 >それぞれに応じたダミー変数を説明変数にするのがよさそう おお!ダミー変数ですか…!使ったことがないのですが、ダミー変数はよくよく考えて使わないと、それこそ、邪道っぽい感じがするのですが…、よくよく調べてやってみたいと思います!ありがとうございます。 >3 Bのデータについて あー、これはわざわざツッコミをいただいてすみません。 話をわかりやすくするために、数値をやたらときれいにしてしまいました。 実際のデータは、きれいな右下がりのデータではあるのですが、もうちょっとバラけています。 サンプリングには、かなり気をつけて無作為抽出に近づけるようにしたのですが、それでもサンプリングバイアスがいくつか問題があることがわかり、どのぐらいサンプリングバイアスがきつくかかっているかどうかを、確認中です。 その上で… >4 年齢等をコントロールする必要 なのですが、他にも説明変数を取得していますので、事後的になってしまいますがですが、統制群をつくって処理することができそうです。 というか、ご指摘をいただいて、そうだよな、本当にそのとおりだよな…と思いながら、再度、処理をしようと思えてきました。 ご指摘あらためて感謝です。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式   y = ax + b による回帰分析をしてみて下さいな。(これならA, Bの区別は無用ですし、x=1の場合とx=7の場合のnの違いもきちんと織り込まれます。)そして、係数a, bが従う分布の分散を計算します。  次に、5000個あるデータのうちから50個をランダムに抽出して、同じことをやってみます。すると、サンプルが多いとaやbの分散が小さくなることが分かるでしょう。  いや、もっと簡単な例で考えるのが良いかな?  同じモノの重さをn回測定したデータt[j](j=1,2,…,n)があるとします。ただしt[j]は測定ごとに独立で、平均m, 標準偏差σの正規分布に従うものとします。0次式   t = c を使って回帰分析をすると、もちろん   c = (tの平均値) という答が出る訳ですが、このcがmに等しいわけではない。係数cも正規分布に従い、その分散は1/nに比例します。つまり、nが大きいほど、cの精度が高くなる訳です。

compequal
質問者

お礼

ありがとうございます!

関連するQ&A

  • SPSSによる統計処理について

    喫煙の有無と満足度には関連があるか調べたいと考えています。 喫煙の有無と満足度(得点が高いほど満足度が高い)についてダミー変数を使い重回帰分析をしたいと考えています。ちなみにn=827です。 しかし、統計初心者で、この分析方法でよいのかわかりません。 また、分析のやりかたを教えてください。 どなたか教えていただけないでしょうか。

  • 統計エクセル 量的データと質的データの回帰分析

    エクセル2013を使用している、エクセル統計勉強中の者です。 量的データ(説明変数)と質的データ(予測したいデータ)があり、 質的データを、可能な限り詳細な数値に置き換え、相関関係を調べてみました。 すると、相関係数が0.05という、相関関係がないという結果になりました。 この時点で、回帰分析や予測などは、断念すべきなのでしょうか? 相関がないと考えられた場合の、別の対応方法などがあるのであれば、ご教授お願いいたします。

  • 統計学の質問です@

    統計学の質問です.一つの目的変数と複数の説明変数の重回帰分析で求まった決定係数が0.5より低いと目的変数と説明変数の間には相関関係がほとんどないということですか? あとt値は何を表しているのですか?

  • 統計学について

    統計学の無相関検定について 無相関検定について理解ができておらず、 どなたか教えてください。 理解できていない場所を理解したいので、 非常にまとまりがありませんが、箇条書きとしました。 番号ごとに箇条書きしたので、 番号に対応するように回答を頂けると幸いです。 よろしくお願いします。 (1)無相関検定により、帰無仮説が採択されると、相関係数の数値の大小に関係なく、一律で統計結果自体を無効にする。 (2)統計結果自体の無効とは、すなわち相関係数ゼロのことを指す。 (3)相関係数ゼロとは、すなわち無相関のことを指す。 (4)「相関の強さ」と「有意」は別個の考え方である。 (5)「相関が強いこと」=「相関係数が1または-1に近いこと」である。 (6)相関が強い場合でも、有意でない場合は、「統計自体が無効だった」ということになる。 言い換えれば、「統計結果は無相関だった」という解釈になるのだろうか? (7)相関が弱い場合で、かつ有意である場合は、「弱い相関があった」ということになる。 (8)「統計自体が無効だったこと」=無相関なのか? (9)「相関の強さが弱過ぎる」=無相関なのか? (10)相関があるという仮説の数は無限であり、相関が無いという仮説の数は1つである。 11.相関係数がゼロであることは、無相関検定をやること以外の方法では生じない。 つまり、変数が2つのとき「偏差積の平均÷標準偏差X÷標準偏差Y」の計算結果によって、相関係数がゼロという答えが出ることはない。(無相関検定をやる前から無相関であるという答えが導き出されることはない) 非常にまとまりが無くて申し訳ありませんが、よろしくお願いします!

  • 統計の問題がわかりません。どうかわかる方いたらお願いします。

    回帰分析を行うもの、独立変数を使って従属変数を求めるものがまとめのデータがあります。 その求める前に、全ての変数についての相関係数を出しています。 この相関係数のところからわかったところにはAとBとCの相関は高い、DとEの相関は低いなど書かれています。 独立変数や従属変数間の相関などはなにか高いと悪い、低いと駄目などがあるんでしょうか?

  • SPSSの標準化係数について教えてください

    SPSSでアンケート分析をしています。重回帰で、相関係数を調べたいのですが、 以下の場合ですと、非標準化係数と標準化係数のどちらが適切なのでしょうか? 「店舗の総合満足度」に対して、「店員の態度」「価格」「品揃え」「立地」「営業時間」のどれが相関係数が高いのかを知りたいのです。それぞれの評価方法は満足度を聞く5段階評価なので、単位?はそろっています。 いろいろなサイトで調べてみると、「単位が揃っていない場合は標準化係数を見る」とありますが、今回は5段階評価でが揃っているので、非標準化係数を見たほうが良いのでしょうか? 統計の知識がなく困っています。どうぞよろしくお願いいたします。

  • 相関分析や回帰分析について

    相関分析や回帰分析についての記述が正しいのかわかりません。 間違っていたらどこが違うのか理由も教えていただけると幸いです! (1)ある特性、例えば、身長についてゴールドンのいう第二世代(子)の平均への回帰が観測される(b<1)のとき説明変数と被説明変数を逆にした回帰計算をしてもいわば、おやの平均への回帰が観測される可能性はない。(親と子の身長には、正の相関があると考えてよい) (2)第二世代(子)が平均へと回帰するのならば、将来は、個人のもつ身長その他、さまざまな諸特性がすべて一様な社会になってしまう。(ある経済学者はそう考えた) (3)重回帰の場合、通常の決定係数を使用すると、説明変数の増加のよるあてはまりのよさの改善を誇張してしまうので、修正済み決定係数(自由度調整済み決定係数)を使用するのが普通である。もいろん、単純回帰については、決定係数と修正済み決定係数は同じものになる。 (4)決定係数は、マイナスになることはないが、修正済み係数はマイナスになりうる。 (5)回帰分析を因果関係と結びつける(説明変数を原因、被説明変数を結果と見る)ことは、記述統計の範囲を逸脱している。 よろしくお願いいたします!!!

  • 相関係数を教えてください。

    n≧50の相関係数を求めたい。xの平均とy平均、相関係数と、相関図表をかき、回帰直線の方程式を求めて、相関係数を論じてください。お願いします。

  • 統計学についてお聞きしたいです.

    現在,統計ソフトRを使って,プログラムを書いています. 内容は多重共線性問題のあるデータを主成分回帰分析を使って,解決するということをやっています. データはRを使って,変数を数個を発生させ,その中の3つの変数を足すと0になるというデータを使っています.相関関係が高い場合のみの多重共線性のデータは自分のプログラムでうまくできたのですが,線形関係をつくると多重共線性のある変数が0に近づいてしまいます.実際は1に近づくはずなのですが.それがなぜだかが分かりません.どなたかご教授お願いします.線形関係の作り方は平均1, 分散0のデータを発生させ,そのデータをエクセルを使って,並び替えて作ります.その時データは平均1,分散0のままです.また,ヒントとなるようなプログラムやコマンドなどでも全然構いませんのでお願いします.今,3カ月かかってできません.本当に困っているのでお願いします.

  • 統計学の課題で困っています

          A  B 北海道   5.5  4.7 青森    4.5  4.7 岩手    4   4.1 というA,B二つのデータがあるとき 1、2つのデータをそれぞれ標準化しなさい。 2、2つのデータ間の共分散を求めなさい。 3、標準化した2つのデータ間の共分散を求めなさい。 4、一方のデータを説明変数、他方のデータを被説明変数とする回帰式と決定係数を求めなさい。また、被説明変数の理論値と残差を求めなさい。 5、上記2及び4の計算結果について、標準化、共分散、相関係数の意味を説明しつつ、分析・考察を加えなさい。 6、回帰式を求める際の基本的考え方と決定係数の意味を説明しつつ、計算して得られた回帰式、決定係数について分析と考察を加えなさい。 7、残差において正または負の大きな値が出た地域について、なぜそのように大きな値が出たと考えられるか、地域の特徴を考慮しつつ思いつくことを述べなさい。 という課題が出された時どのようにして解けばいいのですか?