• 締切済み

対応のあるサンプル t検定 ウィルコクソンの符号検定

今、コンテントアナリシスの卒論を書いています。 有名な人物の発言の頻度について検定を行っています。 男性と女性の著名人40人ずつを選択して、その動詞に注目しています。 40人それぞれについて、考える、考えた、買う、買ったという4つの動詞の 頻度について記録しました。 そこで問題が発生しました。 男性のサンプルと女性のサンプルで、「過去形の方が現在形よりも頻度が高い」という仮説を検定しようとしています。 「考える」と「考えた」に関しては、男性も女性もそれぞれ正規分布といえそうです。(Skew、Kurtosis、S-W検定、箱ひげ図等をみて総合的に判断) ですが、「買う」と「買った」の場合には、男性の場合には正規分布といえそうなんですが、女性には正規分布とは言え無そうなんです。ログとか平方根とかの変換もしてみたんですが、それでもぜんぜん正規分布からは程遠いです。 こんな場合に、 1:正規分布していると仮定して、すべてのサンプルについてt検定で押し通す。 2:正規分布が仮定している場合にだけ、対応のあるサンプルのt検定をして、 それ以外にはウィルコクソンの符号検定を行う。 という2つのどちらで行けば良いんでしょうか? 本当に困っています。先生は病気にかかってしまい、聞くことのできる方がまったく居ません。統計の論文なんかも読んでみたんですが、印象としては1の人が多いように思ったんですが、正規性が仮定できないのに??と思ってしまっています。

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

どの程度のサンプルサイズであるのか分からないですが、基本的に標本値のヒストグラムを描いてみても、それが正規分布に従っているか(つまりは母分布が正規分布であるかどうか)は分からないことがほとんどです。まず、分からないといってよい。 だから正規分布の仮定という意味では、正規性の検定において有意水準を0.05などとする必要はなく、0.25くらいでもよいかもしれません。あるいは、そういった事前検定は多重性の問題に引っかかるのでやること自体が誤りだとする人もいます。 要は理論的に考えて、その母集団(男性や女性)が正規分布に従うと仮定することが妥当であるかどうかを考慮すればよいわけです。例えば、明らかに正規分布には従わないと思われるデータ(Yes- Noのような2値データや0以下の値をとらない計数データなど)でなければ正規分布に従うと仮定してもよいともいえます(なぜなら正規分布に従わないと断言できる根拠がないわけだから)。 まぁ、この辺りは先行研究や類似の研究、各分野の経験的な見地などを総合して考えるしかないのですね。 ちなみに、正規性の仮定については、分散分析は頑健性がある。

関連するQ&A

  • パラメトリック検定か、ノンパラメトリック検定か?

    サンプルが小さい場合、パラメトリックかノンパラメトリックかどちらを選択すべきなのでしょうか? 検定は、一標本t検定か、WILCOXONの符号付き順位和検定のどちらかなのですが、サンプルが正規分布するかどうかわかりません。こういう場合は、両方の検定を行い、いずれの場合も優位さがなければ、検定する2郡には優位差はないとしてよいのでしょうか?? 検定には全くの素人です。。 どなたか、ご教授ください。

  • Wilcoxon(ウィルコクソン)符号順位和検定

    統計・Wilcoxon(ウィルコクソン)符号順位和検定もしくはサイン・ランク検定についてご教授お願いします。 本やネット上で調べた結果、 帰無仮説 H0:2グループの分布に差は無い 対立仮説 H:2グループの分布に差はある(両側検定) (1) 2グループの差を出す (2) 絶対値で差を順位付けする。 (3) 絶対値の無い差のうち正か負で(2)の順位を分けて和(Tとする)を求める。 (4) n(データ数、私の場合n=36)から      U=n(n+1)/4 σ= (n(n+1)(2n+1)/24)^(1/2)を求める。 (5) (4)からTとσ、Uから Z=(T-U)/σ を求める (6) H:│T│>Z(α/2) の時帰無仮説と棄却し対立仮説を採択。つまり、2グループ間には差がある。 となるのですが、(6)がわかりません。求めたのは、Z値なので、P=0.05以下で差があるとは言えませんよね。様々なサイトで調べた結果、Z(0.05)=1.96なので1.96以上であれば差があると言える。 または、別のサイトではZは標準正規分布 http://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm に従うので、その値が0.05以下であれば良い。 http://kusuri-jouhou.com/statistics/wilcoxon.html しかし、上記サイトではZ=1.05でP=0.88と間違っているので信用できないのか…と思い、Z=1.96以上で差があると言えるのだろうと考えました。 しかし、友人から符号順位和検定やU検定のあるExcelマクロをもらって行ってみた所、Z=1.96以上で差があると計算して出たものが、マクロで検定を行うと差がないと出てしまいます。 教授は他人の作ったマクロなんて信用できないとおっしゃっているので、マクロが間違っているのか、私の計算が違うのか、何を信用すれば良いか分かりません。 支離滅裂かもしれませんが、知識のある方、どうかご教授をお願いできませんか。

  • T検定とMann-WhitneyのU検定の使い分け

    ある2郡間の平均値において、統計的に有意な差があるかどうか検定したいです。ちなみに、対応のない2郡間での検定です。 T検定を行うには、ある程度のサンプル数(20以上程度?)があった方が良く、サンプル数が少ない場合には、Mann-WhitneyのU検定を行うのが良いと聞いたのですが、それは正しいのでしょうか? また、それが正しい場合には実際にどの程度のサンプル数しかない時にはMann-WhitneyのU検定を行った方がよろしいのでしょうか? 例えば、サンプル数が10未満の場合はどうしたらよろしいのでしょうか? また、T検定を使用するためには、正規分布に従っている必要があるとのことですが、毎回正規分布に従っているか検定する必要があるということでしょうか?その場合には、コルモゴルフ・スミノルフ検定というものでよろしいのでしょうか? それから、ノンパラメトリックな方法として、Wilcoxonの符号化順位検定というものもあると思いますが、これも使う候補に入るのでしょうか。 統計についてかなり無知です、よろしくお願いします。

  • 一標本t検定とウィルコクソン検定,符号検定

    関連2群の差の検定をする際,符号検定で有意であると言えるなら 自動的にウィルコクソン検定,一標本t検定でも有意であると言えるのでしょうか? 7 0 0 7 -6 26 7 5 1 9 -3 3 という差のデータで検定しているのですが, ウィルコクソン検定では,有意な差になり 符号検定では,有意な差でない t検定でも有意な差でない という風になりました・・・

  • 何でもかんでもt検定を使うのはOKですか?

    雑誌に掲載された学術論文を読んでいると、対応の無い2群間の間に有意差があるか否かを判断するのに大抵t検定が使われています。 しかし、パラメトリックなt検定の前提条件としては、正規分布が必要と聞いています。サンプル数が多い場合は「どんな分布でも正規分布に近づく」という大数の法則をあてはめて、近似的に正規分布と見なしてt検定するのも分かりますが、サンプル数が高々10個程度(1群につき)のケースでもt検定を使って良いのでしょうか。 正規分布を満たすことを確認する検定をしてからt検定をするなら理解できますが、私の読む論文では、少ないサンプルに対し、正規分布か否かを確認せずいきなりt検定している場合が多く、これはマンホイットニーのU検定なんかを使う方が良い様に思っています。

  • 対応のあるt検定についての質問です。

    対応のあるt検定についての質問です。 対応のない平均値の検定ではサンプルサイズが大きいとき、標準化した値は標準正規分布に従うため、それを使います。しかし、対応のある平均値の検定では、サンプルサイズが大きくてもt分布を用いるようです。なぜでしょうか? 宜しくお願い致します。

  • t検定について教えてください

    t検定に関する質問はたくさんあるのですが、今、頭がこんがらがっており、 誠に勝手ながら新しく質問させてください。それではよろしくお願いします。 2標本の分布が等しいと仮定。t検定の基礎を教えてください。 帰無仮説は、「2標本の平均が等しい」ですか? 帰無仮説が上記の場合、 危険率1%で仮説が棄却されず、5%で棄却されることはありますか? 上記の判定がなされた場合、 これら2標本はどのような関係にありますか? 1~5%の確率でうんぬん???よくわからなくなってしまいました。 駄文のみの状況説明で、申し訳ありませんが、ご教授願います。 それではよろしくお願いします。補足要求があれば、つたない説明ながら加えさせていただきます。

  • 対応のあるt-検定の正規性は、どこで確認をするのか

    t-検定は、データが正規分布をしていることを前提としていますが、対応のあるデータを分析する際の正規性の確認は、どこでするのでしょうか? 例えば、介入研究の介入前と介入後のような場合、 1.介入前と介入後の両データとも正規分布している必要あり? 2.介入前のデータが正規分布していればOK? 3.介入前後の差が正規分布している必要あり? 4.その他、私の思いつかない理由? 統計の本や、インターネットで調べてみても、 「t-検定はデータが正規分布に従っている(従っていると仮定する)ことが前提」と書いてあるだけで、理解していたつもりですが、よく考えてみるとわからなくなりました。 ご回答お待ちしております。

  • 3群の対応のある検定についてお願いします。

    3群の対応のある検定についてお願いします。 3つの薬の差を、同一対象で調べています。 文献では多重検定ではなく、 まず3群間で比較し、差があるものだけ各群間で比較を行っているようです。色々調べて、 ・間隔(血圧値・正規分布)→3群(one-way ANOVA)→2群間(paired-t) ・順序(副作用程度1.2.3段階)→3群(フリードマン検定)→2群間(ウィルコクソンの符号付順位検定) ・名義(副作用あり・なし)→3群(コクランのQ検定)→2群間(マクネマー検定) と考えたのですが、文献で対応あるなしにかかわらず、 Wilcoxon順位和検定やCochran-Mantel-Haenszel検定、ビアソンχ二乗, Fisher exact testなどが使われていて自信がなくなりました。 上の方法でよいか、アドバイスお願いします。

  • t検定かU検定か

    よろしくお願いします。 前提: サンプルサイズ各群ともに300 尺度は5段階のリッカートスケールの順位尺度 間隔尺度以上かつ正規性と等分散(等分散が仮定できない場合はウェルチのt検定)が仮定できる場合はt検定。 正規性が仮定できず、等分散(をシーゲルティーキー検定などで検定)が仮定できる順序尺度の場合はマン・ホイットニーのU検定 という解釈になると思います。(浅学のため間違いは指摘してくださると幸いです) ここで問題なのですが、5段階程度の順位しかなく、サンプルサイズが大きい場合、 U検定で同順位ばかりになってしまい、U値が大きくなってしまうため、 t検定などのパラメトリック手法を使う方が良いとも聞きます。 しかし、やはり順序尺度の場合はノンパラを優先すべきでしょうか。 それとも、U検定、t検定の結果を併記し、異なる結果がでた変数に対しては結論を保留するというような方法が良いのでしょうか。 併記している論文はあまりみかけませんし、5段階の順位尺度でもt検定を行なっている社会学系の論文はよく見かけます。 よろしくお願いします。