• 締切済み

統計解析法の選択について

統計初心者でまだまだ勉強を始めたばかりです。 エクセル統計を購入したのですが、3つの疾病でそれぞれのあるデータ(血液データなどの数値)の平均値の差の検定、 またそのデータを異常なし、軽度異常、中等度異常、高度異常と分けた場合に疾病ごとのそれぞれの割合を解析したい場合、 後者は独立性の検定(χ2検定)でよいのでしょうか。前者に関しては何が最もよいかわかりません。 初歩的な質問で申し訳ありません。周りに相談できる人がいなく質問させていただきました。 よろしくお願い致します。

  • unmm
  • お礼率100% (2/2)

みんなの回答

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

>3つの疾病で  疾病どうしの比較に意味がありますか。ガン患者と肝硬変の患者の血圧を比較しても、意味があるとは考えられません(意味があることを明示できれば、りっぱな論文になります)。一つ一つの疾病について比較するのが、一般的です。 統計は、A集団とB集団の2つに絞った方が簡単で、説明もしやすくなります。疾病の場合は、健常者(A集団)と患者(B集団)について比較します。データのある人が、患者かどうか不明なのですか。  健常者と患者との比較なら、データが正規分布をしていると想定できるならt検定、想定できないならF検定が一般的です。これならエクセルでできます(それぞれ関数のTTEST,FTEST)。その他に、U検定も有力な方法です。がエクセルには無いようです。 >そのデータを異常なし、軽度異常、中等度異常、高度異常と分けた場合に疾病ごとのそれぞれの割合を解析したい場合、 解析に意味があるとは思えません。何と何を比較したいのかが不明です。この4群で比較するのなら、解析しないでも、正常者が一番多い、というのは自明でしょう。もっとも、メタボ検診のように、血圧を140だか135だかに下げれば、異常者だらけになりますが。  そもそも、疾病の程度はどのように判別しているのですか。それとどの程度一致するのか、の解析の方が意味があるのでは。  検定は、集団を設定して、それを比較します。疾病だと、健常者と患者でしょう。どの集団とどの集団を検定すれば意味があるのか、をまずお考えください。臨床検査関係の論文か雑誌には、山ほど発表されているハズなので、それに目を通されて、似たものを真似ることから始められることをお勧めします。

unmm
質問者

お礼

親切なご回答ありがとうございました。 健常者との比較を考えていませんでした。 いくつか論文を読んで勉強します。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

基本: どのような実験計画(調査計画)に基づいてデータを得たのかによって、適切な分析手法というものは決まってきます。逆にいえば、適切な解析法を把握せずにデータをとることは、もはや適切な方法を用いてデータを扱うことができないということ(結果として適切な方法を用いることができることもありますが)。 > 3つの疾病でそれぞれのあるデータ(血液データなどの数値)の平均値の差の検定 どのようなデータが得られているのか、それがハッキリしなければ"最もよいか"ということは分かりません。古典的には「k群の平均値の差の検定」として分散分析が用いられますが。 > 異常なし、軽度異常、中等度異常、高度異常と分けた場合に疾病ごとのそれぞれの割合を解析したい 独立性の検定が適切かもしれないし、そうでないかもしれません。ただ、多くの場合は比率の差の検定が行われることもあるということです。 ・どのような尺度水準をもつデータが得られているのか? ・そのデータは連続型なのかカテゴリカル型なのか? ・独立なのか対応ありなのか? ・従属変数は何か、独立変数は何か(どのような変数があるのか)? この辺りをまとめて質問をすると、より的確な回答も得られるかもしれません。

unmm
質問者

お礼

丁寧なご回答ありがとうございました。 情報の足りない質問で申し訳ありませんでした。 3つの疾病→例えばある地域の心筋梗塞、脳梗塞、閉塞性動脈硬化症。 血液データ→GFR(腎機能)とした場合、それぞれの患者で数値で表せるので間隔尺度データということになり、平均値を検定するのはそれぞれをt検定でだすしかないのでしょうか。 指摘していただいたご回答を参考に勉強します。 ありがとうございました。

関連するQ&A

  • 統計解析法は残差分析でいいのか?

    ある疾病の年度ごとの発生率を統計解析にかけてレポートを作成しようと考えているのですがどの統計解析法を使って良いのかがわかりません。 手元にあるデータとしては一年毎の全患者数と統計にかけたい疾病の疾病例数です。また年ごとのサンプル数はかなり幅があります。 単純に疾病例数を全患者数で除算しものを発生率としてグラフにしてみますと減少傾向にあるようにみえます。 これを統計解析にかけてある疾病の発生率が減っていると証明することはできるのでしょうか? 10年分のデータがあるとして 全患者数、疾病例数の2マス×10年分10マスとして残差分析にかけていいものなのでしょうか? そもそも残差分析なる物がどういうものか理解できていないのですが・・・ また別のデータとしてその疾病に効果があると考えられる薬剤の一年毎の出荷数なるものがありますがどのような統計処理を行えばよいのでしょうか? 全く統計は素人で申しわけありませんがよろしくお願いします。

  • 統計解析について

    お世話になります。 最近、統計解析のソフトを使ってデータの解析をする事がある程度の初心者の質問です。 30人分の縄跳びを連続で跳んだ回数データがあります。挑戦した回数は10回です。このデータを統計的に解析したいのですが、既存のデータでは200回以上跳んだ場合200以上と記載されています。試しにソフトを使って検定を行うとそれなりの数値が計算されるのですが、この場合200回以上のデータをどう考慮されているのでしょうか?200回以上だと500や1000となると計算に影響すると思うのですが素人考えなのでしょうか?

  • 統計的推定法と統計的検定法の違いについて

     今大学で交通工学での交通統計の勉強をしているのですが、その中で出てくる「統計的推定法」「統計的検定法」の違いが未だに良く分かりません。  前者は「既にあるデータを集計して、信頼区間を求める」で、後者は与えられたデータを基に、妥当かどうかを判別するようですが、具体的に答えをどう求めたらよいか分かりません。教科書を見てもよく理解できないので、もしよければ参考になる本やサイトがありましたらお願いします。

  • 統計解析法

    統計解析手法の検定についての質問です。 2つの母平均の差の検定の場合です。 帰無仮説H0:μ1=μ2 対立仮説H1:μ1≠μ2とします。 帰無仮説が棄却された場合は結論として対立 仮説が成り立ち、第1種の過誤はαであり、 このケースは問題ありません。 しかし、帰無仮説が棄却されない場合、第2 種の過誤の問題があり、積極的に結論として 帰無仮説が成り立つとは言えません。 上記問題は、2つの母平均の差の検定の手法を 使って、積極的に2つの母平均に差が無いと言 う結論を統計的に導き出す事の障害になります。 2つの母平均の差の検定の手法をうまく工夫 する事、又は、別の手法で、2つの母平均に差 が無いとの結論を統計的に導く事は出来な いでしょうか? ご教授の程宜しくお願い致します。

  • 統計解析

    統計解析に関する質問です。Fisherの直接確立計算法とKurskal-wallis検定について分かりやすく説明していただける方いらっしゃいますか?自分で調べてなんとなくはわかるのですが、統計用語が難しくていまいち理解に苦しんでおります。。

  • 統計学に関する質問です。

    統計学に関する質問です。 1.統計書で「正規分布する母集団から独立に得たX1、X2、…Xn」という記載がありますが、ここでの「独立に得た」は具体的にどういう意味でしょうか? 2.『Q&Aで知る統計データ解析』という本に「測定値の独立性」に関する記載があり、「同じ被験者の反応が同一条件下で反復して測定される」場合、「観測値は独立とはいえない」といった解説がありました。この「観測値の独立性」とは具体的にどういう意味でしょうか?単一事例からベースラインをとり、その後介入期を設けて、それぞれから得た観測値を検定にかけることは統計誤用でしょうか? 以上、宜しくお願い致します。

  • 統計解析法に関して

    統計学に関しては全くの初心者です。現在、ある疾患の原因究明の研究に携わっています。具体的には、死後脳を使って候補遺伝子の発現量の違いを疾患群と健常者群とで比較検討を行います。そこで、データの解析法について御指導していただきたく存じます。論文など参考にするのですが、結果のみでそこにいきつくまでの考え方、解析の流れなどが判然といたしません。 得られた発現データと診断にてT検定を行うだけならクリアカットですが、死後脳を扱うために種々の影響を考えないといけないのではないかと思っています。実際、論文にはPMI(死後、脳摘出までの時間)、pH、死亡年齢などを考慮したように書いてあります。私の扱っているサンプルも調べてみると疾患群と健常者群でPMIなど有意な差があります。そのため、診断以外の変数が遺伝子の発現に影響している可能性を考える必要があるかと思います。素人なりに考えたのですが、それは重回帰分析をすればよろしいのでしょうか。それで発現量に影響を及ぼしている変数が見つかれば、それを共変量としてANCOVAを行う。発現量に影響を与える変数が見つからなければ、T検定もしくはOne-way ANOVAを行う。こういった考え方でよろしいでしょうか。統計ソフトはSTATISTICAを使う予定です。何卒、御指導の程よろしくお願いします。

  • 統計

    卒論のために、統計(検定?)を勉強しています。 データの数が多くなくて、2×2のχ二乗検定もしくはFisher解析をまず行いました。 その後、3群比較が必要になり、2×3の検定を行いたいのです。セルの期待度数が小さく、Fisher解析のほうがいいのかと思ったのですが、これは2×3はできないのでしょうか。 検討違いの質問内容でしたら、ご指摘下さい。 いろいろ本を見てみたのですが、 よくわからないのです、すいませんが よろしくお願い致します。

  • 統計解析 年齢補正

    統計解析で、平均値に関する解析をしました。480名男女 年齢補正の作業はどうしても必要なのでしょうか? できればやりたくないのですが。 初心者がやる場合、excelではどうするのでしょうか? Welchの方法と対応のあるt検定後、相関分析もやりました。

  • 統計手法

    ある薬Aの投与前後の血液データBの変化について統計処理を考えています。しかし血液データBは非常に個人差が大きくサンプル数10程度では正規分布には程遠くなってしまいます。このような時はWiscoxinの符号順位検定を用いて検定してよいでしょうか。また、投与前をたとえば100としてデータを標準化した場合はどのような統計処理がよいのでしょうか。