- 締切済み
t検定・Χ二乗検定について t検定は平均年齢の差の検定ができますか?
仕事で検定が必要ですが、知識がなく困っています。 以下の場合はt検定でしょうか?Χ二乗検定でしょうか?それとも違う検定でしょうか? 【2005と2006の運動習慣ありとなし、性別、年齢別にそれぞれ層別化して、統計処理する。】 行動変容を起こさせるための資料を作るのが目的です。 (1)クロス集計をしてΧ二乗検定かな、と思うのですが、どのように層別化すればよいかわかりません。 (2)2005と2006の運動習慣ありとなし、性別、年齢をクロス集計して平均年齢をt検定すればよいのでしょうか? (3)t検定は平均年齢の差の検定もできるのでしょうか? どの検定をどうように使ったらよいかわからない状態です。 統計の本を読んだり、ネットで検索しましたが、いまいち理解できません。 エクセル、spssが使える環境です。 統計初心者のため、詳しくご教授いただけるとうれしいです。 よろしくお願い致します。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- ssmarugoo
- ベストアンサー率47% (84/176)
わかりました。では、t検定から説明します。 これは2群の平均値に差があるかどうかを検定する場合に使います。 データは、エクセルに入力されているものをSPSSへコピペで大丈夫です。互換性があるのでOKなのです。 SPSSの【データビュー】のところへ、数値が入ったはずです。【変数ビュー】で名前などをつけてください。 ※【変数ビュー】の横列は【データビュー】の縦列に対応しているのを確認してください。 そして、【分析】→【平均の比較】→【独立したサンプルのt検定】をクリックします。(独立2群の平均値の比較をする場合ですね) そして、ダイアログボックスが出てくるので、(検定変数)には例えば年齢などを入れましょう。(グループ化変数)には例えば性別の変数を入れたりします。(グループの定義)を押します。そして1、2など性別に用いたカテゴリカルデータを入力します。 →【続行】→【OK】 数秒後に出力がでます。 ルビン検定(等分散の検定)でF値と有意確率が出ていますね。この有意確率が0.05より大なら上の段を見てください。0.05より小なら下の段を見てください。 そして2つの平均値の差の検定のt値や有意確率(両側)が出ていますね。その有意確率(両側)がいわゆるP値(p value)です。 この有意確率(両側)が0.05より小だと2つの母平均に差があるということになります。0.05より大だと差があるとはいえないという結果となります。(有意水準0.05の場合) ※このt検定は正規分布を仮定できる場合にのみ有効です。正規分布を仮定できない場合はノンパラメトリック検定をしてください。 正規性の検定は【分析】→【ノンパラメトリック検定】→【1サンプルによるK-S検定】→(検定変数リスト)へ年齢などの変数名を入れる。→【OK】 数秒後の出力がでますね。コルモゴルフ・スミノルフ検定ですが、有意確率が0.05より大だと正規分布を仮定できます。そうでないなら、正規分布を仮定できないのでノンパラメトリック検定でマンホイットニーのU検定をするべきです。
- backs
- ベストアンサー率50% (410/818)
> 統計初心者のため、詳しくご教授いただけるとうれしいです。 No.1さんのいうようにロジスティック回帰分析という分析を適用するのが適切でしょう。ただ全く多変量解析に触れたことのない場合は少々,骨が折れます。 目的変数を行動変容の有り無し(Y)とし,説明変数を運動習慣(X1),性別(X2),年齢(X3)としてY = a*X1 + b*X2 + c*X3というモデルを考えるわけです。ここで説明変数の偏回帰係数a,b,cの値を求めるのですが,これはコンピュータに任せればよいです。 Excelは使い物になりませんし,SPSSは使い方が分からんので手助けできませんが,Rという無料の統計ソフトを使えば簡単にできます。以下の例の通りにするだけです。 Y <- c(1,1,1,0,0,1,0,0,0,1) #行動変容(有り=0,無し=1) X1 <- c(0,0,1,0,1,1,0,1,0,0) #運動習慣(有り=0,無し=1) X2 <- c(1,1,1,0,1,1,0,1,1,0) #性別(男性=0,女性=1) X3 <- c(23,30,46,44,50,24,28,31,49,34) #年齢 my.dat <- data.frame(x1=X1,x2=X2,x3=X3,y=Y) > res <- glm(y ~ x1+x2+x3,my.dat,family=binomial) > res ##### 以下は結果の一部 ##### Coefficients: (Intercept) x1 x2 x3 3.0662 -0.4650 1.5248 -0.1090 最終的にY = 3.0662 - 0.4650*X1 + 1.5248*X2 - 0.1090*X3というも出る式が得られたわけです。
- ssmarugoo
- ベストアンサー率47% (84/176)
新人看護師です。研究内容が医療系みたいですね。 エクセル、統計ソフトSPSSが使用できる環境ということなので厳密に回答します。 まず、t検定とは2群の母平均の差の検定のことです。カイ二乗検定とは、独立性の検定(関係があるかどうかを調べる)です。 >【2005と2006の運動習慣ありとなし、性別、年齢別にそれぞれ層別化して、統計処理する。】行動変容を起こさせるための資料を作るのが目的です。 もっと目的を絞る必要があると思います。運動習慣のある・なしと何の関係を明らかにするのかを決めることです。そうでなければ、それ以上の解説ができません。 だから、ここから先は私のアイデアで回答します。 年齢・性などは、基本的な対象者の属性(特徴)なので当然必要なデータですね。 おそらく運動習慣がないと生活習慣病のリスクが高まるという仮説があると思います。そうでなければ行動変容のための説明資料になりえないと思いますね。 だから、運動習慣と生活習慣病との関連をみることが重要だと感じます。 生活習慣病に関してもいろいろな疾患がありますが、例えば糖尿病の有無・高血脂症(LDLやHDLのコレステロール値)・血圧・骨粗鬆症(骨密度)・うつ状態の有無(または主観的な気分の程度)については生活習慣病との関連が認められています。だから、これら生活習慣と関係のあるものと運動習慣との関係を統計学的に分析すればいいと思います。 具体的には、【ロジスティック回帰】【重回帰分析】という多変量解析をSPSSで行います。コレステロール値・気分の状態を点数化してスケール値などをそれぞれ従属変数とします。(従属変数が2値ならロジスティック回帰で連続数値なら重回帰です)運動習慣のある・なしを独立変数にして、年齢・性などの基本属性も独立変数とします。また、例えば従属変数にコレステロール値を使用するときは他の危険因子も交絡因子として独立変数に適用します。 そうすれば、ロジスティック回帰の場合は各独立変数の従属変数に対する相対危険の推定値が算出されます。その値はオッズ比で出ます。例えば運動習慣のない方があるより糖尿病のオッズ比が3.5などで95%CIが(2.3-5.8)とか。それぞれの調整オッズ比と95%CIが出ます。※95%CIに1を含んでいないならそれは有意です。 また、重回帰分析の場合は、例えば従属変数をLDL値として、同様に年齢・性・他の危険因子を独立変数にすれば、そのそれぞれの標準偏回帰係数が算出されます。この係数が正だとLDLが上昇しますね。そして他の交絡因子と比較された係数なのでどの程度LDLの上昇と関係があるのかがわかります。 ※ちなみに、多変量解析を行う前にカイ二乗検定で運動習慣と糖尿病の有無などの関係の有無を確かめておくことも重要です。
お礼
新人看護師さま お返事ありがとうございます。 詳しく教えていただきまして参考になりました。 ご指摘いただいた研究内容のようなことは他の研究員が行っています。 今回の質問は、あくまで統計ソフトの使い方と、t検定・Χ二乗検定に関することです。 初歩的過ぎて、職場では聞けないのでお伺いしたいです。 研究内容の質問ではありません。 引き続きよろしくお願い致します。