対応のない2群の順序尺度の検定法を教えてください。

このQ&Aのポイント
  • 対応のない2群の順序尺度の検定は、マン・ホイットニー検定が一般的に使用されます。
  • 介入後の臭気の程度を順序尺度で評価する場合、2名の評価値の平均を分析に使用する場合には、マン・ホイットニー検定を行うことが一般的です。
  • 順序尺度は非計量データであるため、平均値を使用することは一般的には適切ではありませんが、臭気のような感覚を評価する場合には、2名や3名の平均値を使用することが推奨されます。
回答を見る
  • ベストアンサー

対応のない2群の順序尺度の検定法を教えてください。

対応のない2群の順序尺度の検定は、マン・ホイットニー検定だと思うのですが、次の場合はどう考えたらよいのでしょうか? 介入後の臭気の程度を順序尺度で評価するときに、個人差を考え、2名で評価しました。2名の評価値の平均を分析に用いるとき、検定はマン・ホイットニー検定でしょうか? それとも順序尺度だけれど平均値を使うのでt検定となるのでしょうか? 統計学は、難しくてなかなか理解できなくて困っています。すみません。初心者にわかるような内容で解説していただけないでしょうか? 順序尺度は、非計量データであることを考えると平均値を用いること自体がナンセンスという気がします。しかし臭気という感覚を評価するとき、個人の感覚に左右されるものであるので2名か3名の平均値を使った方がいいように感じます。ここもわかりません。 どなたかぜひとも教えてください。お願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

 2群の順序尺度、ということなので、U検定が適切、また、平均は無意味、と回答しましたが、お礼を読んで悩んでいます。質問からの回答は自信がありますが、お礼の内容を読んで、実際の方法、データの収集が書かれていて、これが適切なことか、この事例に妥当か、と悩んでいます。  悩んでいるのは、実際に何をなさりたいのか、です。 論文を書く為か、現実の状況を改善したいのか、 また、2名の評価の人数を増やせるのか、データ数は増やせないのか、などです。  というのも 1) 検定の目的は、「有意差あり」をいう 2) 有意差は、データ数が多いほど、見つけやすい、 からです。  何より、有意差の有無と現実とは、別の尺度・判断基準があります。たとえば、A群の平均値は10、B群の平均値は20の場合、各群100人なら、有意差はあるでしょう。そして、単位が億円なら大差です。が、円なら、A群は10円、B群は20円、ですから、有意差があっても、『どうでもいいや』と思うのは、私だけでしょうか。そして、『どうでもいいや』の判断は統計学の対象外なので、教科書には書かれていません。 >検定は平均値を使わず  臭気というのは、厄介です。私は、匂いに鈍感、家内はイヌ並みなのでいつも「臭い、臭い」と苛めにあっています(匂いだけではありませんが)。普通は、標準についてトレーニングし、評価者間で差が無いように準備してからやります。あるいは、評価者が多ければ、標準化すなわち、Z変換(偏差値がこれ)というのをします。  2名の評価を標準化できるのなら、平均は意味があるかもしれませんが、同じ匂いについて同じ評価でなければ、平均することは誤りでしょう  評価の実際が分からないのですが、 各群8例、というのは、2人が8ヶ所、あるいは8時点で評価した、ということでしょうか。これだと、U検定は、無意味です。  研究論文ではない、あるいは、現場が改善されれば良い、すなわち、秘密が有るというのでなければ、実際にどのようにデータをだし、何をしたいのか、を書いて下さい。  介入というのが、何か変えた、例えば脱臭剤を置いたなら、 介入前に、「匂いますか、気になりませんか」。介入後に同じ質問をして、カイ2乗検定をします。現場が分からないので、それくらいしか思いつきません。  文章だと言いたいことの半分しか言えません。関西の方なら、お目にかかった方が良いような気がするのですが、いかがですか。

857555
質問者

お礼

親身に考えてくださりほんとうにありがとうございます。非常に困っているのでほんとにありがたいです。小さな老人病院で働く看護師で、初心者のため要点を得ない質問内容で申し訳ありません。 今年、高齢者のスキンケアについて看護研究を行い、来春学会等へ論文投稿をしたいと思っています。従来のケアより新たなケアの方が不快臭の改善に効果があるということをデータから述べたいです。対照群と介入群は各8例で、職員2名がそれぞれでケア開始前、ケア1週後、ケア2週後に臭気について6段階の順序尺度で評価しました。ケアは、ブロックランダム化法で無作為に割り付けました。調査は終了しており、各群8例で、1名が24か所、2名では48か所での評価となります。各評価時点での2名の評価スコアはほとんど同じですが、5か所でスコア1個分の開きがあります。分からなかったので、とりあえず2名の臭気スコアの平均値で対応のないt検定を行ったところほとんどがp<0.05となりました。まだ1名づつのデータからマン・ホイットニー検定は、やっていません。 いただいたご回答を読んでみると、私も順序尺度の平均値化は、やはり意味がないように思います。ケア後の臭気の評価を2名で行ったある先行研究(某大学)では、評価者ごとの臭気スコアでマンホイットニー検定(U検定?)をしていました。2名分でいいのかどうかはわかりません。しかし現実的には、患者さんの皮膚の臭いを3人4人で嗅げる人員自体現場にいないので限界かと思います。もし先行研究の方法で問題がないようであれば同じように検定してみてもよいのでしょうか。学習レベルが低く、対象者の等質性や尺度の妥当性、データー数など問題があると思います。研究というのもおこがましいレベルなのですが、研究に同意してくださった対象者のご厚意に精一杯答えたいのでもうちょっとがんばってみます。ありがとうございます。   

その他の回答 (2)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

 t検定は、誤り、というのは、ご理解頂いていると思います。    0日、7日、14日、というのは、3群になるので、多変量解析、という分野になり、賢い研究者は、多変量解析をやれ、とコメントしてくれます。ただ、これは、どことどこに有意差があるか不明ですので、私はやりません。  0と7日、0と14日で比較し、有意差があったものだけ公表します。有意差がないものは、評価されないからです。実験でも、成功は発表しても、失敗の話をする人はいません。  AとBとの評価者ですが、評価にほとんど違いが無い、というとであれば、Aの評価をx、Bをy軸に取り、散布図を書いて、相関分析をし、ほとんど一致していることを示せば、Aだけの評価、あるいは平均値でも異論は無いでしょう。 >各群8で、24か所というのが、理解できていませんが、  U検定が最も適切です。t検定で有意差なら、U検定でも出ると判断しています。というのも、t検定とU検定の検出力は、ほぼ同じだと読んだことがあります。  匂いの評価は、入所者が最も大事です。施設側の人より、入所している人の評価を計画された方が価値があるのでは。それは、この前の回答に述べたように、簡単にできます。

857555
質問者

お礼

ありがとうございます*勉強が足りなくて、ついていききれてないのが残念です。授業中、寝てばかりいないでもっと統計学の勉強しておけばよかったです。でもここはじっくりできる限りの手は打ってみたいので、ご回答をもとにこれから考えてみます。ほんとうに丁寧なフォローありがとうございます。すごくありがたいです。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 平均というのは、代表値の一つで、グループ全体の様子を一つの数値で表すものです。分布が正規分布をしていないと、誤った結論に陥ります。例えば、全国の家庭だったか一人あたりだったか、貯蓄額、というのは、サンプル数が多いので正規分布をしているように思えますが、F分布に近いそうです。じっさい、平均は700万、感覚は400万で、中央値に一致するとのこと。  さらに、1万円と5万円の平均は、3万円。しかし、順序尺度の場合、1の人と5の人がいれば、1~5の間だと分かるが、平均をとり3、としても正確に3なのか、2か、3.15なのか断定できない。ですから、名義尺度の平均は不正確、と考えています。 >対応のない2群の順序尺度の検定は、マン・ホイットニー検定だと思うのですが、次の場合はどう考えたらよいのでしょうか? 私も同様にします。ただし、順序尺度を5段階では、順序に差がでません。工夫して下さい。 >臭気という感覚を評価 これは、評価の信頼性が一番困難。評価者の人数を増やすのも一つの方法ですが、相互の点数が異なり、調整したり、の必要がある。専門家にご相談されるべき。  あるいは,指導者はいないのですか。

857555
質問者

お礼

丁寧なご回答ありがとうございます。順序尺度の平均は、意味を考えるとやはり不正確なんですね。理解できました。今回わたしが行った調査では、臭気の程度を環境省で定められた6段階臭気強度表示法(0~5)による官能検査を行い、2名の看護師の平均値をもとに評価しました。サンプル数は、各群8例でスコア1程度の開きが数例ありました。単純に1名の評価値でマン・ホイットニー検定をした方がよいのか、臭気という感覚を評価する特殊性から平均値を使って、t検定にした方が望ましいのか、どうしても判断を迷ってしまいます。職場に指導者がおらず、専門家もあてがありません。でもなんとか研究をまとめたいのであきらめずもうちょっと粘ってみます。八方ふさがりで困っているところ、助かりました。ありがとうございます*

857555
質問者

補足

すみません。お礼を入力したあと、2名で臭気の評価をした手元の先行研究を見直してみたら、検定は平均値を使わず、2名それぞれ別に単独でマン・ホイットニーで検定してありました。もしかして同じようにすれば大丈夫なのでしょうか?もし御迷惑でなかったらぜひご意見をお伺いしたいのですがお願いできますでしょうか?すみません*よろしくお願いいたします。

関連するQ&A

  • 順序尺度・不等分散の検定 統計

    順序尺度・不等分散の検定 統計 いつもお世話になっております。 統計について勉強していく中で、またわからないことが出て来ました。 順序尺度で不等分散の2群の検定には、どのような手法を用いれば良いのでしょうか? 等分散であればMann-WhitneyのU検定、 間隔尺度であればWelchのt検定を用いれば良いと思います。 検定の多重性の問題は別として、不等分散の場合、皆さんならどうしますか? 教えて下さい。 よろしくお願いします。

  • 順序尺度の検定について

    アンケート調査で順序尺度を用いた検定を考えています。 「よくある」「ときどきある」「たまにある」「ない」に4点、3点、2点、1点を与えて検定を したいと考えています。 (1)その場合、これだけ点数の幅が狭くても四方位範囲を算出するものなのでしょうか? (2)また、中央値が3点と算出された場合に、〔対象者の評価は「たまにある」であった〕と  表記してよいのでしょうか? (3)四方位範囲とIQRは同義語なのでしょうか? どなたかお知恵を貸していただければとおもいます。

  • 統計 順序尺度(順位尺度)の検定方法

    4段階で行った(0:最悪、1:悪、2:良、3:最良)評価結果の検定方法で迷っています。 ある本に「名目尺度および順序尺度は、ノンパラメトリック検定を用いる」との記載がありました。 標本の正規性が確認できたとしても、ノンパラメトリック検定を用いるべきということでしょうか? また、正規性が確認できなかったとしても、頑健性に基づき、Welchのt-検定を行う方法もあると 思うのですが、それも不適切ということでしょうか?? 教えて下さい。 よろしくお願いします。

  • 統計学における「検定」とは?

    こんにちは、 今統計学について学んでいます。 そこで、統計に利用する変数の種類で、 名義尺度・順序尺度・間隔尺度・比尺度 などあります。 その中で、 参考書に出ていたのですが、 順序尺度は順序だけがついているもの、 正規分布しているかどうかわからない集団でも、 順位をつけて、より正確な「検定」ができる。 と書かれていました。 この「検定」とはどういう意味でしょうか? 後、日本語教育でこの分野を勉強しています。 その場合「変数」とはどういう意味で 使われているのでしょうか? あまりにも基礎で恥ずかしいですか、 統計自体が頭にはいってこなく、 混乱している状態です。 どうかアドバイスお願いいたします。

  • t検定かU検定か

    よろしくお願いします。 前提: サンプルサイズ各群ともに300 尺度は5段階のリッカートスケールの順位尺度 間隔尺度以上かつ正規性と等分散(等分散が仮定できない場合はウェルチのt検定)が仮定できる場合はt検定。 正規性が仮定できず、等分散(をシーゲルティーキー検定などで検定)が仮定できる順序尺度の場合はマン・ホイットニーのU検定 という解釈になると思います。(浅学のため間違いは指摘してくださると幸いです) ここで問題なのですが、5段階程度の順位しかなく、サンプルサイズが大きい場合、 U検定で同順位ばかりになってしまい、U値が大きくなってしまうため、 t検定などのパラメトリック手法を使う方が良いとも聞きます。 しかし、やはり順序尺度の場合はノンパラを優先すべきでしょうか。 それとも、U検定、t検定の結果を併記し、異なる結果がでた変数に対しては結論を保留するというような方法が良いのでしょうか。 併記している論文はあまりみかけませんし、5段階の順位尺度でもt検定を行なっている社会学系の論文はよく見かけます。 よろしくお願いします。

  • どの検定を使えば良いのか

    卒業論文で自己意識尺度と友人関係に関する尺度を使って アンケートを行いました。 そのアンケートの統計ソフトで計算するのに どの検定を使えば良いのかわからなく、困っています。 自己意識尺度は7件法、友人関係は6件法の合計点を計算します。 具体的には自己意識尺度で私的自己意識尺度と公的自己意識尺度の 平均を回答者全体で出し、それより低い者と高い者とに分けて統計処理をします。 友人関係に関する尺度も表面的に付き合っているか、内面的に付き合っているか 回答者全体の平均を出し、 それより低い者と高い者とに分けて、統計処理をしようと考えています。 統計処理する時には、私的自己意識の高い者と友人(内面)の高い人 公的自己意識の高い者と友人(表面)の高い人という群の間に 関連性があるかを調べたいと思っています。 t検定とかカイ2乗検定とかいろいろありますが、私の場合は どの検定を使えば良いのでしょうか。

  • 標準偏差が大きい場合の平均値の差の検定

    例えば、100±120 と 150±145 といった平均値がある場合、平均値の差の検定はどうしたら良いですか? t検定などは使わずに、ノンパラメトリックなマン・ホイットニーのU検定などを使うべきでしょうか?

  • 原データが無い場合の検定

    統計初心者です。稚拙な質問かもしれませんが、お教えください。 マン-ホイットニーのU検定で2群のデータを比較したいと思っています。 しかし、片方の群については原データがなくN数、平均値、SDのみしか分かりません。 このような場合に有意差の有無を計算することはできるでしょうか? とりあえず各群が同じ母集団に属していることが分かればいいのですが、もし他の方法で調べることができそうであれば教えてもらいたいと思います。 よろしくお願いします。

  • 順序尺度での2要因分散分析につきまして

    統計を勉強中の者です。 クラスの生徒100名を国語の成績で「優」「良」「可」の3グループに分け、100名全員に国語に関する同じ内容の授業を受けてもらいました。授業前「T1」、授業直後「T2」、授業後6か月「T3」の3回アンケートを行い“国語への印象”をリッカート尺度(5段階)でききました。 今回行った教育が、3グループそれぞれの“国語への印象”に与えた影響を出したいと思っています(特に成績の低い生徒への効果を狙った授業をしたので、成績「可」グループに特に効果があった、という結果を期待しています)。 分析に際し、2要因の分散分析が適当かと思ったのですが、“国語への印象”が順序尺度であるために2要因の分散分析は使えないと言われました。 順序尺度でも便宜的に間隔尺度として2要因の分散分析をしている論文もあると聞いて、甘く考えて順序尺度でアンケートをとってしまったので、分析する今、困ることになり反省しています。 しかしアンケートに協力してもらった方々にも何らか結果をお返ししたく、何とか今回行った教育への効果を分析したいと思っています。 この場合、「優」「良」「可」それぞれのグループのデータを別々に、対応のある1要因分散分析で分析して教育の効果をみても問題ないのでしょうか? それとも別の分析方法が適切でしょうか? 何か良い分析方法がございましたらご教授いただければ幸いです。 どうぞよろしくお願いいたします。

  • どの検定を使えばいいかわかりません

    統計学初心者です。研究をしていてデータ収集を行ったのですが、どの検定を使用すれば自分の欲しいデータが得られるのかわかりません。 ・対象40名にある介入をして、その介入前・介入後のアンケート結果(点数)が下がることにて介入の効果の有無を調べます。 ・t検定(一対の標本による)を行ったところ、有意差があると結果が出たので、その介入にて点数が下がり介入の効果があったと出ました。 ・そこで、男女別ではどうなのか(どちらが効果があったのか?)、を調べたいと思います。 同じデータ(介入前・介入後のアンケート結果(点数))を用いて調べたいのですが、検定は何を使えばいいのでしょうか? ・この場合、男性27女性13と人数にばらつきがあってもできるものなのでしょうか? ややこしくてすいません。自分なりに調べてみたのですが分からなかったため質問させていただきます。よろしくお願いします。