統計解析 相場分析 T-検定 エクセル SPSS
2つの母集団の平均差に有意差があるかを調べるためエクセルでT検定をしましたところ、ある異変に気づきました。
メニューの「ツール>分析ツール」で等分散を仮定した2標本による検定を選ぶと、"配列1"と"配列2"に各々の集団を入れることになります。ところが、それぞれの欄に入れる集団の順番を入れ替えると両側有意確率が.05以下だったものが、.05以上になってしまい、有意差の有無の結果が間逆になってしまいます。
分析の概要は以下のとおりです。
(F検定で等分散は確認済み)
標本1:
火曜日を除外した某先物の寄値-引値の価格差(デイトレードの成績)
サンプル数→489個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:647
標本2:
火曜日だけのデイトレ成績
サンプル数→88個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:3215
2つの集団の平均差:2568
******************************
分析結果にみられる矛盾
>>>>>>>[標本1]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かよう以外 かよう
平均 646.8844483 3214.899617
分散 201365586.2 157505681.3
観測数 489 88
プールされた分散 194729391.9
仮説平均との差異 2568
自由度 575
t -3.178472095
P(T<=t) 片側 0.000780042
t 境界値 片側 1.647508725
P(T<=t) 両側 0.001560084
t 境界値 両側 1.964099283
>>>>>>>>[標本2]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かよう かよう以外
平均 3214.899617 646.8844483
分散 157505681.3 201365586.2
観測数 88 489
プールされた分散 194729391.9
仮説平均との差異 2568
自由度 575
t 9.38710200484845E-06(質問者が換算→0.00094%)
P(T<=t) 片側 0.499996257
t 境界値 片側 1.647508725
P(T<=t) 両側 0.999992514
t 境界値 両側 1.964099283
************************
以上のようにT値のあたい自体もかわってしまうのです。本で計算式を調べても違いは出ないはずなのに(統計初心者です。まちがってたらゴメンナサイ)どうしてでしょうか。サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。おそらく右側検定とか、左側検定とかの概念と関係しているのかもしれませんが、本やネットで調べても判然としません。
ちなみに月、火、水、木、金と曜日別に成績をわけ、SPSSで一元配置の分散分析(ANOVA)、Welch検定, Brown-Forsythe検定, ボンフェローニの多重比較表でも確認したところ、曜日間に有意差はみられませんでした。
どうしてエクセルでは、配列の順番により結果が変化するのか、どなたさまかぜひ教えてください。統計初学者なので、珍妙なことを申し上げてるかもしれませんが寛大なご教示のほどよろしくお願いいたします。
お礼
幸せになりました。ありがとうございます。しかし、[平均の差を比較する方法]の中の(2)データに対応がないときのt検定の項で、肝心な部分が「データの個数が等しいときも等しいときもある」とあり、データの個数が等しくなくてもいいんだろうな、とは文脈から思いましたが、少し不安になりました。