統計分析の方法と意味

このQ&Aのポイント
  • 統計分析におけるA区とB区の比較には、一元配置の分散分析と単回帰分析を利用しました。しかし、単回帰分析の結果が理解できないため、正しい分析方法を教えて欲しいです。
  • 具体的には、A区とB区の値を5日ごとに記録しました。一元配置の分散分析では有意差がなく、単回帰分析では5%水準で有意差があると結論されましたが、この結果に疑問を感じています。
  • 統計に詳しくないため、専門用語を使わずに説明して欲しいです。分析はエクセルで行っています。
回答を見る
  • ベストアンサー

統計分析の方法と意味

下記(1),(2)は5日ごとにA区とB区の値を示したもので、 A区とB区の間に有意差があるのかを調べたいのです。 時間的経過があるので単純に一元配置の分散分析では、おかしいと思い、単回帰分析を行ったところ、理解できない結果が出てきました。結果の意味が十分出来ていないのか、そもそもこのような分析に単回帰分析を用いること自体が間違っているのでしょうか。間違っているなら、正しい分析を教えてください。分析はエクセルで行っています(エクセル統計も入っています)。 統計について全く知識がありませんので、専門用語をあまり使わず、教えてください。 (1)A区 50.4,44.1,34.1,15.8   B区 67.5,46.8,39.5,16.6  一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は正しい気がする。 (2)A区 12.6,4.2,1.9,1.4   B区 12.0,5.9,2.0,1.0 一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は変な気がする(有意差がないのが正しいのでは)

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.1

> 時間的経過があるので単純に一元配置の分散分析では、おかしいと思い (1)と(2)のどちらも同じ列にある数値が同じ日の観測値である((1)の場合なら50.4と67.5が同じ日の観測値)ならば、この判断は正しいと思いますが、 > 単回帰分析を行ったところ というのは、どういう解析を行ったのでしょうか? 単回帰分析をどう行ったのかはわかりませんが、母集団が正規分布に従うとして良いなら、対応のある平均値の差の検定を行うのが普通でしょう。 Rを使って検定してみると、どちらも有意水準5%では有意差は認められませんでした。 (1)は、サンプルサイズを大きくすれば(もっとデータの数を増やせば)有意差が認められるかもしれませんね。 > x A B 1 50.4 67.5 2 44.1 46.8 3 34.1 39.5 4 15.8 16.6 > t.test(x$A, x$B, paired = TRUE) Paired t-test data: x$A and x$B t = -1.7773, df = 3, p-value = 0.1736 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -18.138794 5.138794 sample estimates: mean of the differences -6.5 > y A B 1 12.6 12.0 2 4.2 5.9 3 1.9 2.0 4 1.4 1.0 > t.test(y$A, y$B, paired = TRUE) Paired t-test data: y$A and y$B t = -0.3837, df = 3, p-value = 0.7268 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.858744 1.458744 sample estimates: mean of the differences -0.2 具体的な検定方法は参考URLを見ていただくとして、簡単に説明してみましょう。 例えば、A区の方がB区よりも高い値が得られるとします。 しかし、日によって値はどちらの値も上がったり下がったりするとします。 ただし、その上がり具合や下がり具合はA区とB区で違いはないとします。 誤差がない場合は 日   A区 B区  1  10   8  6   6   4 11  13  11 16   9   7 として、これに誤差を足して、 日    A区     B区  1   9.868316  7.752282  6   5.590540  2.566576 11  12.250299  9.961466 16   9.742208  7.814065 というようなデータで考えてみます。 このデータはA区の方がB区より2高いので有意差が認められて欲しいのですが、残念ながら、普通に対応のない平均値の差の検定を行っても、有意水準5%では有意差は認められません。 > t.test(z$A, z$B, paired = FALSE, var.equal = TRUE) Two Sample t-test data: z$A and z$B t = 1.1171, df = 6, p-value = 0.3067 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.784638 7.463125 sample estimates: mean of x mean of y 9.362840 7.023597 しかし、対応のある平均値の差の検定を行うと、有意水準5%で有意差が認められました。 > t.test(z$A, z$B, paired = TRUE) Paired t-test data: z$A and z$B t = 9.7538, df = 3, p-value = 0.00229 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.576003 3.102484 sample estimates: mean of the differences 2.339243 この違いは、対応のある場合はAとBの差をとることで、日の変動を消し、 日   A区-B区  1  2.116034  6  3.023964 11  2.288833 16  1.928143 として、A区-B区が0かどうかを検定することで、検出力が上がったためです。

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/Average/paired-t-test.html
dh0918
質問者

補足

丁寧な説明ありがとうございます。 ただ、母集団が正規分布に従う場合は良いのですが、サンプル数が少なく、正規分布にならない場合はどうしたらよいのでしょうか。 エクセル統計を見るとウィルコクソンの符号順位和検定なるものがあるのですが、これを使えばよろしいのでしょうか。 また、各日にそれぞれの区に反復がある場合は、繰り返しのある2元配置で行えばよろしいのでしょうか。

その他の回答 (1)

noname#227064
noname#227064
回答No.2

回答:No.1補足 > ただ、母集団が正規分布に従う場合は良いのですが、サンプル数が少なく、正規分布にならない場合はどうしたらよいのでしょうか。 多分、貴方のいうところの「サンプル数」はサンプルサイズのことだと思います。 サンプル数とサンプルサイズは異なります。 ご質問の場合、どちらもサンプル数は2でサンプルサイズはそれぞれ4です。 と、細かいことはさておき、正規分布にならない場合はどうするかですが。 > エクセル統計を見るとウィルコクソンの符号順位和検定なるものがあるのですが、これを使えばよろしいのでしょうか。 対応がある場合はこの検定方法でOKです。 しかし、サンプルサイズが4ずつ、つまり4組のデータでは有意水準5%での検定ができません。 サンプルサイズは5以上必要です。 > また、各日にそれぞれの区に反復がある場合は、繰り返しのある2元配置で行えばよろしいのでしょうか。 日と区のそれぞれの組み合わせで十分な反復があるとか、正規分布に従う母集団であるならば、繰り返しのある二元配置分散分析で良いです。 駄目な場合は、繰り返しのある二元配置分散分析のノンパラメトリック版はないようなので、 ・日ごとにA区とB区を比較する(検定の多重性が問題になりますが) ・区と日の組み合わせごとに平均等を求めてA区とB区の比較を行う ・有意水準が設定よりも異なることを覚悟して分散分析を行う のどれかしかないのではと思います。

dh0918
質問者

お礼

非常にわかりやすく回答していただきましてありがとうございました。早速、お教え頂いたことを利用して解析してみます。

関連するQ&A

  • 有意差について

    統計分析をしています。 LSD法で5%水準で有意差なしと判断したのですが、エクセルの分散分析でみると1%水準で有意な結果となります。 統計ソフトがないので、LSD法は自分でエクセルに式を入力しました。 LSD法と分散分析で解析結果が異なるようなことはありうるのでしょうか? 統計について勉強が十分でないもので、戸惑っています。 どなたかご教示いただきたく思います。 よろしくお願い致します。

  • 心理学統計の分析方法についての質問です。

    〔至急、お願いします。〕 「Aが高いものは、Cが低くなる。しかしAが高いものでもBが低くなれば、Cは高くなる」といった仮説をたてました。 そこで、A高B高、A高B低、A低B高、A低B低の四群を独立変数、Cを従属変数として、1要因4水準の分散分析を行ったのち、 Aが高い者のみBがCに負の寄与を及ぼしており、Aが低い者はBがCに寄与していない。そしてAはBに正の寄与を及ぼしている。という重回帰分析を行おうと思っています。 わからない点があります。 重回帰分析がどういうものなのかはざっくりと理解できていますが、実際に行ったことはなく、Aが高い者と低い者で群分けした上で分析することは可能なのでしょうか。 また、統計の知識が不十分であり、ツールなどを利用して行ったこともわずかしかないので、これで実際に分析が出来て、結果を得られるかどうかも自信を持てません。 どうかお力添えをお願いいたします。

  • [統計]エクセルでの分散分析表の再現方法について

    質問を見ていただきまして有難うございます。 ただ今、分散分析表について勉強を始めたものです。 下記のURLに大変わかりやすい分散分析の説明があり、 それをエクセルで再現しようと思ったのですが、どうしても出来なかったため 質問させて頂きます。 <東北大学大学院農学研究科内HP> http://www.agri.tohoku.ac.jp/iden/toukei7.html 具体的には、URL内に2つの分散分析表があり、 1つ目の一元配置分散分析の表については、全く同じ結果が再現できたのですが、 2つ目の二元配置分散分析の表が再現できないのです。 エクセルは2010を使用しており、「分析ツール」から 「分散分析:繰り返しのある二元配置」と「分散分析:繰り返しのない二元配置」で 色々と試したのですが駄目でした。 要因が「趣味」と「学校の水準」と二つあるので、これをどのように 入力するかがポイントだと考えてはおるのですが、、、、 ご教示頂ければ大変ありがたいです。 何卒、宜しくお願い致します。

  • 【SPSS】等分散性の検定

    SPSS(バージョン14.0)を使って勉強しています。 わからないことだらけです。 そこで誰かに教えていただきたいのですが…。 4水準(グループA、B、C、D)で一元配置の分散分析を実行したところ、 「等分散性の検定」で ・Levene 統計量 3.205 ・有意確率 0.023 と結果が出ました。 有意確率が0.05より小さいので等分散とはみなせないと参考書に書いてあるのですが、それでは、グループA、B、C、Dのどのグループ間で分布が違っているのかは、どうやって確かめればよいのでしょうか? 初心者ですので質問自体が的外れなのかもしれませんが、よろしくお願いします。

  • 分散分析について

    分散分析について簡単な事で良いので教えてください A:P値>有意水準α B:P値<有意水準α のとき、t検定では、Aでは判定保留、BではH1を棄却となったと思うんですが、これが3つの場合、分散分析の場合だとどうなりますか? 単純に、Aは判定保留、Bは全てに差があるのでH1を棄却でいいですか? もう一つ、少なくとも2つには差があるけど、1つは分からない場合ってのもあると思います、その場合はどのような関係式になりますか? よろしくお願いします

  • エクセル統計を用いた統計方法についてです。

    エクセル統計を用いて統計解析を行っているのですが、苦戦しています。分散分析を用いて一元配置分析を行っています。3群間の比較をしたいのですが、それぞれの群の数が異なる場合、どのようにしたらよいのかわかりません。それぞれの群の数が同じ場合はできるのですが・・・。基本的なことかもしれませんが御存知のかたいらっしゃいましたら教えていただければ幸いです。どうぞよろしく御願い致します。

  • 統計解析についての質問です。

    品質管理部門に所属している者ですが、統計解析について質問です。一元配置による分散分析を行い、F分布表5%水準でグループ内に有意差を認めない場合の検出力とはどの程度でしょうか。 また、母集団の不良率を正規分布表により推定し不良率が0.5%以下というのは、具体的にどの程度になるのでしょうか?

  • 統計学

     統計学の問題なんですけれども、解る方がいましたら、教えてください。よろしくおねがいします。 問題 年齢と輪投げの能力を見る為に、子供を3歳、4歳、5歳の3グループに分けた。それぞれの子供に10個ずつ輪を持たせて、輪投げをさせた結果、以下のような成績が得られた。 3歳(7人);0個、3個、4個、3個、5個、4個、7個 4歳(6人);4個、5個、4個、6個、6個、7個 5歳(5人);6個、7個、8個、6個、7個 年齢グループによる輪投げの能力に有意差があるかどうか、有意水準5%で分散分析をしなさい。

  • 分散分析で有意差が確認された場合、データの水準を解析範囲から外して再解析を行うことは駄目ですか?

    統計初心者の一人です。ご指導宜しくお願いします。基本的な質問で恐縮ですが、2元配置の分散分析で有意差が確認された場合、他と異なるデータの水準を解析範囲から外して再解析を行うことは統計上問題ですか? 分散統計で要因の一つを操作因子、もう一つは濃度因子にした2元配置の分散分析を行なっております。その結果、操作因子並びに濃度因子共に「有意差」が確認されました。 このため、元のデータの範囲設定を変更し、影響のありそうな操作因子や濃度水準を分散分析の計算範囲から除外して再計算を行なってみました。そうしたところ「有意差ありとはいえない」との結果が得られました。当然、信頼限界を計算してそれから有意な濃度範囲を求めることも行っています。 この結果をもとに報告書に実験の操作要因と影響する濃度の範囲として考察に加えようと考えていますが、この考えは統計的な観点からは邪道な考えでしょうか?もともと実験計画はR.Aフッシャーの3原則の一つである実験番号の割り当ての無作為化(ランダムに実験番号を割り付ける)が基本であるので、この様な解析はその考え方から逸脱するため意味を持たないかとも思っていますが、本当に駄目なのでしょうか? 理由を含めご教授願いたく宜しくお願い致します。レベルを下げて具体的にご教授願えれば幸いです。 <例> Data 水準-1 水準-2 水準-3 SampleA n=1 24 24 22 n=2 25 24 22 n=3 25 24 22 SampleB n=1 25 24 22 n=2 25 25 25 n=3 25 25 25 SampleC n=1 21 20 17 n=2 21 20 17 n=3 21 20 17 分散分析・・・Sample間(濃度)、水準間(条件)で有意水準5%で有意差あり →ここで、濃度、水準がどの範囲まで影響しているかを確認するために、下記のよ うにデータ範囲を変更して再解析 Data 水準-1 水準-2 SampleA n=1 24 24 n=2 25 24 n=3 25 24 SampleB n=1 25 24 n=2 25 25 n=3 25 25 分散分析 有意差なし 以上です。

  • 回帰分析について教えてください

    統計に関する質問です。 私は勤務先(金融)で特定の業種の財務分析をしているのですが、データの分析方法(回帰分析)で分からない点があります。 具体的には下記の通りです。 【状況】 ある業種業界について、2つのデータ(例えば、総資産と売上高)を収集しました。 データは5年間分をパネルとして扱っており、総数は400くらいです。 2つのデータ間に何らかの関係をあると考え、総資産を横軸、売上高を縦軸、としてエクセルで散布図を作成したところ、右上がりの関係があるように感じました。 エクセルの機能で近似値線(直線)を引いて、算式とR2を表示したところ、算式の傾きはプラスで、R2は0.2程度でした。 その後、回帰分析を行い、分散分析表を作成しました。 相関係数の有意性を検定したところ、1%水準で有意な関係、となりました。 回帰係数も検定したところ、1%水準で有意な関係、との結果でした。 【私の主張】 私は「統計学的に考えて、総資産の増加に伴い売上高が増加する傾向がある」と述べたいのですが、 (なお、背景にある理論は別途構築しており、業界内でも理解が得られると思われます。) 【ご質問】 1. 回帰分析の結果から、回帰直線の傾きがプラスで、相関係数の関係が1%の有意水準で有意であることから、統計学的に私の主張は正しいと言えるのでしょうか?評価は個人ですべきものだとは存じますが、考え方・説明方法に無理があればご教示をお願い申し上げます。 2. もし、上記1の質問が的外れであれば、どのような点がおかしいのでしょうか。ご教示いただきますようお願い申し上げます。 抽象的な部分もございますが、何卒ご教示のほど、お願い申し上げます。 【前提】 上記は私の職務柄、個人で利用する目的で作業を行っています。 論文その他レポートの作成を目的としておりません。