統計は役に立たないのでは???

このQ&Aのポイント
  • 統計を用いた多変量解析は、交絡因子や共線問題などの問題を抱えていることが多く、結果が信頼できない場合があります。
  • 多変量解析では除外された独立変数が交絡因子として存在することや、設定しなかった独立変数が交絡因子となっている場合があります。
  • そのため、統計的な解析結果には注意が必要であり、一変量解析の検定を行う方が信頼性が高い場合もあるかもしれません。
回答を見る
  • ベストアンサー

統計は役に立たないのでは???

ある事象を説明するために変数を設定しますよね。 そして、あらゆる要因(変数)を同時に考慮ないないと、疫学でいうところの「交絡因子」というバイアスになりますよね。 しかし、多変量解析を用いて予測式を立てたところでそれが使いものにならない場合が多いように感じるのです。 相関係数が著しく低くなったり、回帰係数が0になる確率が棄却できなかったり・・・共線問題が発生している可能性があったり・・・ そこで、一応の情報量基準を満たしたモデルの回帰式を使うことにしたとしても、独立変数のいくつかは除外されたモデルになったりします。 すると、結局は除外された独立変数は交絡因子として存在することになるし、また、考え付かなかったような(設定しなかった)独立変数も交絡因子となっている場合があると思います。 そのことに対して、一体論文ではどのように説明すればよいのでしょうか? こんな不完全な多変量解析なら、むしろ単(一)変量解析の検定を独立変数の個数回やったほうがいいのでは?

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

ちゃんとしたデータの取り方をして,それに適した分析方法を正しく使えば理論上は問題が発生することはありません。ただ理論と実際は異なって,分析を行う過程で何らかのトラブルが発生してしまうのが事実でしょう。しかし,このような事があるからといって統計が使い物にならないというのは極端な話です。 統計を中途半端に理解しているようなうさんくさい人は「分析によって得られた結果は絶対だ」と過剰評価したり,あるいは曖昧な結果を誘導的に解釈してしまう人もいます。一方で全く統計を理解しない(理解しようとしない)人は分析によって得られた数値を見ようとも考えようともしないで批判します。 だから統計が使い物になるか否かは個人の判断に委ねるしかないでしょう。それでも私は数値には何らかの意味があって,それを解釈するためにはいわゆる多変量解析などのような統計的な分析手法を活用するのは大切なことだと考えます。データを活かすも殺すも分析者自身というわけです。・・・と,なんだか抽象的な話で直接な答えにはなっていないですね。 回帰分析において変数選択の問題は難しいことですが「こんな不完全な多変量解析なら、むしろ単(一)変量解析の検定を独立変数の個数回やったほうがいいのでは?」というように考えるのであれば,それはそれで実行してより良い結果が得られるのなら有意義なことでしょう。 また交絡因子の問題についても,完全に分析者側が説明しきれるものではないでしょう。得られたデータの中で限られた要因を考慮して最善の結果(予測)を行うことが精一杯ではあるとは思いますが、、、

ssmarugoo
質問者

お礼

回答ありがとうございます。返事が遅くなり申し訳ありません。 なるほどよくわかりました。最善の結果を得られるように精一杯だと思いましたが、全く統計が役に立たないことはないと思うようになりました。

関連するQ&A

  •  統計の手法(多変量解析)についてSuggestionください。あまり

     統計の手法(多変量解析)についてSuggestionください。あまり詳しくないので、質問が正確ではないかもしれません。現在 サンプル数n=20-30人の解析をしています。それらの方々の解析因子のなかで、統計的に有意に単相関するパラメーターが2つあります。ここで、その相関する因子に一般的に影響を与える因子で補正したモデル式をつくり多変量解析をしたいと考えています。ひとつのモデル式のなかで、解析に加えられる因子はこの場合 多くても従属変数 3つまでと考えていますが、補正したい因子が5-6つある場合に 従属変数に2つ固定した因子(この場合、(1)証明したい変数 (2)年齢)にひとつずつこの補正したい因子を加えていき、4-5つのモデル式を構成して証明をするのはAcceptableでしょうか?

  • 統計学の多変量解析の考え方で困ってます

    1)症例数が23程度で、多変量解析をしています。重回帰解析において、ある物質がP<0.05となるのですが、独立変数の選択の仕方で、Pが出たり出なかったりします。独立変数の選び方で、変わるならば統計者の意図が入る形になり、biasがかかる気がします。症例数が23程度での重回帰解析に意味はないのでしょうか?また同じ独立変数でstep-wise解析を行っても、その物質のみが採用されるようです。多変量解析を行ううえで、step wiseと重回帰解析の使い分けについてご教授ください。教科書的には重回帰で目安をつけて、step wiseで確認するみたいに書かれていますが、その認識でいいですか?

  • 統計おしえて!ロジスティック回帰でいいのかな?

    10項目程度の質問項目があります。 すべて、YES、NOで答えるタイプの項目です。(質的なデータで二値性) そのうち、ある一つの項目を従属変数(目的変数)としてほかの項目を独立変数として多変量解析したいのですが。。。 「ロジスティック回帰」を使えばいいのですか? 各独立変数ごとに従属変数に対するオッズ比が算出されるのですか? あと、これも重回帰のように独立変数の選択問題で当てはまりがよくないモデルがあったりするのでしょうか? あと、ロジスティック回帰を行いたいのですがソフトがなくて・・・ 無料でできるフリーソフト(初心者でもわかりやすい)とかあったら紹介してください。 たくさん質問してすみません。どれか一つでもわかるところがありましたら教えてください。お願いします。

  • 重回帰分析の変数についての疑問

    重回帰分析を行いたいのですが、説明変数(独立変数)に性別などの2択の変数があります。 目的変数(従属変数)は、完全な数量データなのですが、、、、 説明変数も数量データでなければならないのですよね??? しかし、過去の論文などを参考に見ていたら独立変数に性別があり、男=1、女=0とか書いてあるのです。。。 それでいいの? 多変量解析の初心者なので、変な質問かもしれません。 目的変数=(標準偏回帰係数)*説明変数1+(標準偏回帰係数)*説明変数2+・・・+定数 の回帰方程式ですよね。 あと、それぞれの標準偏回帰係数の横にt値や有意確率が算出されますが、これは何? あと、論文の表記のやり方として何をどう記せばいいのですか? 独立変数 標準偏回帰係数をそれぞれ縦に記して、RやR^2を最後の行に記せばいいの? tや有意確率も記すの?というか、これは何? 色々とわからないのですが、どれか一つでも答えをお願いします。 教えてください。

  • ロジスティック回帰モデル 独立因子

    医療系の文献において、ある薬物による副作用発症に関連する要因を解析する上で、まずそれぞれの要因を単変量解析(univariate analysis)した後、ロジスティック回帰モデルを用いた多変量解析(multivariate analysis)し、独立した副作用に関連する要因を述べている文献があります。ここでロジスティック回帰モデルを用いた多変量解析とあるのであすが、この解析法を行うことで独立した要因かどうか分かるのでしょうか? おわかりの方がいましたらどうかよろしくお願い致します。

  • Statviewでの解析で

    古いソフトですが、Statviewを使用して多変量解析を行っています。 従属因子と独立因子を指定して解析を行うと、 ”SSCP行列の処理中に特異性が見つかりました。この分散分析を行うには欠測値が多すぎます。あるいは、従属変数が関係しています。” とでます。 データに欠損はありません。 従属因子を2つで、独立因子を3つぐらいなら解析可能ですが、それ以上独立因子を増やすと上記のエラーメッセージがでてしまいます。 これは何なんでしょうか?

  • 文系の統計学

     当方文系ですが、文理融合の専攻に進学することになりました。「数理統計学」が必修となっているのですが、初めて取り組むことになります。シラバスには「微積分と線形代数をよく復習してから受講すること」と記載されていますが、どちらも全く経験ありません。現在、公文式に行って、やっと因数分解ができるようになりました。(公文式は質問ができない雰囲気なので、近々やめる予定です。) そこでご質問ですが、1.このような段階から、どのように「微積分と線形代数」を経て、数理統計学へ学習を進めていけばよいのか。2.予備校や学習塾で学ぶとしたら、どこがよいか。以上の2点について、ぜひ教えていただきたいです。どうぞよろしくお願いします。因みに数理統計学の内容は、以下のとおりです。 ●基礎礎統計(集合基礎論、確率、確率変数、確率密度関数、種々の確率分布、中心極限定理、母集団と標本、点推定、区間推定、推定法、有意水準、第一・二種の誤り、片側・両側検定、正規分布の平均・分散の検定、連続変数の相関(散布図、今日分散、相関係数、検定、離散変数の相関(クロス集計、関連性係数、検定) ●重回帰分析(単回帰分析、目的関数の定式化(最小自乗法、最尤法など)パラメーターの推定と検定、回帰診断、説明変数の選択、構造変数) ●その他(クロス表の多変量解析、様々な多変量解析)

  • 統計学の課題で困っています

          A  B 北海道   5.5  4.7 青森    4.5  4.7 岩手    4   4.1 というA,B二つのデータがあるとき 1、2つのデータをそれぞれ標準化しなさい。 2、2つのデータ間の共分散を求めなさい。 3、標準化した2つのデータ間の共分散を求めなさい。 4、一方のデータを説明変数、他方のデータを被説明変数とする回帰式と決定係数を求めなさい。また、被説明変数の理論値と残差を求めなさい。 5、上記2及び4の計算結果について、標準化、共分散、相関係数の意味を説明しつつ、分析・考察を加えなさい。 6、回帰式を求める際の基本的考え方と決定係数の意味を説明しつつ、計算して得られた回帰式、決定係数について分析と考察を加えなさい。 7、残差において正または負の大きな値が出た地域について、なぜそのように大きな値が出たと考えられるか、地域の特徴を考慮しつつ思いつくことを述べなさい。 という課題が出された時どのようにして解けばいいのですか?

  • 多変量解析、独立変数

    多変量解析を行いたいと考えておりますが、独立変数の設定については、各独立変数間に相関関係などがある場合はどちらかを除外しなければならないのでしょうか?その検定方法などについてご教授ください。

  • 統計の問題がわかりません。どうかわかる方いたらお願いします。

    回帰分析を行うもの、独立変数を使って従属変数を求めるものがまとめのデータがあります。 その求める前に、全ての変数についての相関係数を出しています。 この相関係数のところからわかったところにはAとBとCの相関は高い、DとEの相関は低いなど書かれています。 独立変数や従属変数間の相関などはなにか高いと悪い、低いと駄目などがあるんでしょうか?