• ベストアンサー

統計・分析 データを2値にわける手法

カットオフ値の設定についての問題になりますが、 アンケートなどで、ある項目に対して以下のような例があります。 「大変そう思う」「ややそう思う」 「あまりそう思わない」「全然そう思わない」をそれぞれ、4、3、2,1点とします。 これを例えば「思う群=A群」、「思わない群=B群」の2群に分ける場合どうしたらよいでしょうか??? 中間値の「2.5点」をカットオフポイントとして、A群とB群を比較するべきでしょうか? それともA+B群の全体で平均点を出して、その平均値をカットオフポイントにしてA群、B群とわけるべきでしょうか? ある論文には「大変そう思う」「ややそう思う」をA群、 「あまりそう思わない」「全然そう思わない」をB群としてありました。・・・結構権威ある先生の論文でこのやり方でした。 あるテキストにはA群とB群で高いほうの95%信頼区間の下限値をカットオフポイントとするみたいな方法も書いてあります。 どうやるのが、最適なカットオフポイントの設定なのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

> ある論文には「大変そう思う」「ややそう思う」をA群、「あまりそう思わない」「全然そう思わない」をB群としてありました。 > あるテキストにはA群とB群で高いほうの95%信頼区間の下限値をカットオフポイントとするみたいな方法も書いてあります。 簡便的には前者の方法が最も適しているでしょうし,統計学的な観点からすれば後者の方が適しているといえます。実際は質問項目が何十個とあるわけですから,後者のようなやり方(具体的な方法が察しかねますが)では手間がかかり過ぎるでしょう。かといって,前者の方法を用いた場合では判断が曖昧であるという指摘もあります。そして4件法のデータを間隔尺度とみなすことにも(人によっては)疑問が残ります。 それでも私の場合はやはり「ある論文には「大変そう思う」「ややそう思う」をA群、「あまりそう思わない」「全然そう思わない」をB群として」という方法を採用します。 目的にもよりますが,この場合,ある項目に対して肯定的か否定的かで分けることに着目していると考えられるからです。もし平均値や中央値を境界として分けるとなると極端にどちらかに得点が偏っていた場合に都合が良くないことが起きるからでもあります。例えば4点の人が多くて平均が3.8とかになってしまい,その値で分けるとA群とB群との境界が均等ではなくなる。 というか,そもそも各項目の平均値などで分けるということは各項目ごとにA群とB群とを分けることになるので,被験者で分けることには無理があります。そうなると,論文に載っていたという方法が最も適していると考えられます。

ssmarugoo
質問者

お礼

返事が遅くなってすみません。回答ありがとうございます。 疫学統計を数式で完全に説明できるほどの先生(医学者でもある)方にも直接聞いてみたところ、やはりbacksさんの見解と同じようなことの説明を受けました。どうもありがとうございました。

その他の回答 (1)

  • kishiura
  • ベストアンサー率21% (15/71)
回答No.2

理系大学4年です。 最小二乗法により、y=ax (aは定数、xは点数)を求めて、yをカットポイントとの大小で比較してA群、B群の判定をするとき、そのカットポイントはy平均=a(x平均)になります。

ssmarugoo
質問者

お礼

回答ありがとうございます。統計学的な観点からの説明ありがとうございます。カットオフ値が全体の平均が基本だと勉強になりました。どうもありがとうございました。

関連するQ&A

  • データの分析と統計処理について教えて下さい

    A群とB群の異なった2つのグループの中で、一要因に有意な差があることを検証したいのですがどのように進めていけばよろしいですか?   具体的には、A群45名とB群30名の2グループについて、 1歩行周期中における膝の屈曲-1・伸展-1・屈曲-2の連続した運動について各時間を測定し、その長さを比較しました。その結果、平均値でA群とB群を比較すると、屈曲-2において明らかな時間の差がでてきました。 そして、その傾向としてA群においては、伸展-1にかかる時間が短いと、屈曲-2は長くなるり、B群では、屈曲-2の時間は全体を通じて短い値を示しました。 A群とB群を比較して、屈曲-2の時間の長さが有意に異なることを検証したいです。 また、A群において、伸展-1の時間が短くなると屈曲-2の時間が長くなることを裏づけたい(検証したい)のですが、よろしくお願いします。

  • 統計学に関する質問

    こんにちは。 ある特定の病気の指標となる数値があり、その病気を持つ人々のデータから母平均の区間推定を行ったところ信頼区間の下限値が10であったとします。この場合、「この指標の数値が10以上であった人は、(その)病気を疑いましょう」というように、信頼区間の下限値を病気を疑う目安の値に用いても(医学的にはともかく、統計学的に)よいのでしょうか? 宜しくお願い致します。

  • 統計学についての質問です。

    統計学に興味を持ち、簡単な統計の本を見ながら独学で勉強しています。 現在、「標本平均の差の信頼区間」ちょっと躓いております。 標本平均の差の信頼区間の式の中に、 (標本平均Aー標本平均B) が含まれていますが、 (標本平均Bー標本平均A)ではダメなんでしょうか? 入れ替えた場合、当然符号が変わり、信頼区間の符号も変わってしまうのはわかるんですが、なぜAーBなんでしょうか? 何に注目して、引かれる数と引く数を決めればいいのでしょうか? 以上、回答いただきければ幸いです。

  • 統計手法の選び方

    実験のデータ分析で用いる検定の手法がよく分からず,質問をさせていただきました. 統計解析についての知識に乏しく,ご指導いただければ幸いです. 人間のある関節角度の,角度変化率を時系列で見たデータを扱っています. なお,動作の開始時を0%,終了時を100%として,動作を等しい20区間に分割し,標準時間の5%ずつ,角度変化率を算出するという方法をとっています.(グラフは,横軸に標準時間をとり,縦軸に角度の変化率をとるというものになります) 被験者をA群とB群の2群に分けており,A群とB群の間で角度変化率に差がないかを検定しようとしています.(例えば,標準時間15%と20%の時点で群間に差がある,といった具合です) 2群間での比較ですので,“独立したサンプルのt検定”を用いて,それぞれの区間で一回ずつ(計20回)検定するという方法かな,と思ったのですが,確証も持てません…. 適切な検定方法がありましたら,どなたか教えていただけますでしょうか. 説明が分かりにくいようでしたら,なんなりとお申し付けください. よろしくお願いいたします.

  • 統計学 母平均の95(90)%信頼区間の求め方

    ↓の問題の解き方と回答が分かる方いませんか? 参考書を読んでもチンプンカンプンで非常に困っています。。 宜しくお願いします。 標本A{10・6・12・6・10・10} 標本B{9・3・11・2・5・6} (1)標本Aの母平均の95%信頼区間 (2)標本Bの母平均の90%信頼区間 *条件:t分布を使って解く

  • 【母集団推定】信頼区間が、上限下限の間に入らい

    隣接するカフェにて、一定時間内に何人の客が入店するかを調査しました。 それを元に、AとBのカフェに入る顧客数の母集団推定を行いました。 しかし、下記の式が正しいか、間違っているか、判断できません。 特に、Aカフェの信頼区間:1.807・・に対し、上限2.35 下限5.97と、信頼区間の中に入っていません。 これはデータの値が上述の信頼区間に入らないので、Aカフェのデータの値は統計的には平均と異なると見なし、信頼性は無い。と見なした方が良いのでしょうか? ID  Aカフェ Bカフェ 1  5人    10人 2  4人    3人 3  2人    7人 4  3人    14人 5  7人    7人 6  4人    3人    Aカフェ    Bカフェ 平均: 4.17       7.33 標準偏差:1.722401424    4.226897996 標本数: 6 自由度: 5           5 信頼度: 0.95          0.95 臨海値:2.570581835       2.570581835 信頼区間:1.80754944    4.435857401 下限: 2.359117226    2.897475932 上限: 5.974216107    11.76919073

  • 統計 アンケートの例外データの削除

    新年あけましておめでとう御座います. さっそくですが質問させて頂きたいと考えています. ----------------------------------------------------------------------------- 10人程度の方にある物事に対して1~5点の点数を付けて頂くアンケートを行いました. 例えば 事柄1のある10人の回答は, 1点,1点,1点,1点,5点,1点,1点,1点,1点,1点 だった. この時,5点という点数は誤りである可能性があるため計算に入れたくありません. このような時どのように有効範囲を決めて5点を除けばよいのでしょうか? ----------------------------------------------------------------------------- 色々調べまして現在やってみたこととしては,t分布に基づいた信頼区間の範囲外かどうか. ですが,現在は,平均±標準偏差*3で求まる範囲で有効範囲を決めようとも考えています. 正しいやり方が分からず迷っており,詳しい方がいましたら教えて頂きたいと考えています.

  • 統計:正規分布を仮定するかどうか(検定手法)

    母平均に関して差があるかどうかを検定したいです。 サンプルに関してA群とB群があります。 t検定を行いたいのですが、この場合、A群・B群ともに正規分布を仮定できる分布でなくてはならないものだと思います。 しかし、A群・B群に関して比較する項目が5種類ありそのうち3種類は正規分布を仮定でき、あとの2種類は正規性を期待できません。 この場合、統一してノンパラメトリック検定を行うべきですか? それともt検定とノンパラ(マンホイットニーU)検定の両方を使うべきですか? あと、A群だけ正規分布を期待できてB群は正規分布を期待できない場合は?・・・やはりノンパラメトリック検定ですか? 両群とも正規分布を期待できてはじめてt検定ができるのでしょうか?

  • 統計学の問題について教えて下さい

    ある物質の重さを測定した結果が次の通りであった。 28,26,21,23,16,18,15,16,17 (1)このデータに基づいて母平均と母分散の点推定を求めよ。 (2)母標準偏差が4であるときこのデータに基づいて母平均の信頼係数95%の区間推定を求めよ。 (3)母標準偏差が未知であるときこのデータに基づいて母平均の信頼係数95%の区間推定を求めよ。 全然わからないので教えて下さい

  • A>Bを統計学(科学)的に主張するには・・・

    いつもお世話になります。 今、A群とB群があります。それぞれの群は、標本数50と300です。 平均は、A群が65で、B群は、57です。 ※一人あたりの点数が○点とあり、この合計点が高いほど良いと定義しています。そして、A群・B群とわけて、A群>B群を主張したいわけです。 独立2群のt検定を使い、母平均に関しA群>B群を検定することは妥当だと思うのですが、私の統計ソフトでは片側検定ができず、両側検定しかできません。 質問)t検定以外の方法で、私の仮説を主張(検定など)する方法などございましたら、何かアイデアなどを教えてください。お願いします。