ロジスティック回帰モデルでの多変量の外れ値の検討法

このQ&Aのポイント
  • ロジスティック回帰モデルを使って多変量データをモデル化する際、外れ値の検討方法についての質問です。
  • SPSSやエクセル統計分析のソフトを使用してモデル化を行った結果、変数の有意性は確認できましたが、モデルの適合度が低いため、外れ値の影響を疑っています。
  • 重回帰分析では標準化残差を用いて外れ値を判定することが一般的ですが、ロジスティック回帰分析でも同じ方法が使えるのか質問しています。また、詳しい情報があれば教えて欲しいとも述べています。
回答を見る
  • ベストアンサー

ロジスティック回帰モデルでの多変量の外れ値の検討法

ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。 SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 この外れ値を除去する方法がわからないため書きこませて頂きました。 重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。 詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.1

> モデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 異常値の除去は荒業で、余程の理由が示せなければ、自分にとって都合の悪い事実をなかったことにしているのと同じです。目的は論文の刊行であって現象の解明ではない、と思われてもしかたがないです。 だから正常値と異常値を外的な基準で区別できないなら、頑健推定を考えるべきです。つまり、データを疑う前にモデルを疑うのが常道です。 それでも除去を考慮したければ、たとえば ↓ が参考になるかと。 http://stats.stackexchange.com/questions/175/how-should-outliers-be-dealt-with-in-linear-regression-analysis

mon-monkey
質問者

お礼

どうもありがとうございます。

関連するQ&A

  • 多変量ロジスティック回帰分析

    初歩的な質問ですみません. 多変量ロジスティック回帰分析と多重ロジスティック回帰分析とは違うものでしょうか?違うとすれば,どのように違うのでしょうか? どなたか,教えて下さい.

  • 統計おしえて!ロジスティック回帰でいいのかな?

    10項目程度の質問項目があります。 すべて、YES、NOで答えるタイプの項目です。(質的なデータで二値性) そのうち、ある一つの項目を従属変数(目的変数)としてほかの項目を独立変数として多変量解析したいのですが。。。 「ロジスティック回帰」を使えばいいのですか? 各独立変数ごとに従属変数に対するオッズ比が算出されるのですか? あと、これも重回帰のように独立変数の選択問題で当てはまりがよくないモデルがあったりするのでしょうか? あと、ロジスティック回帰を行いたいのですがソフトがなくて・・・ 無料でできるフリーソフト(初心者でもわかりやすい)とかあったら紹介してください。 たくさん質問してすみません。どれか一つでもわかるところがありましたら教えてください。お願いします。

  • ロジスティック回帰モデル 独立因子

    医療系の文献において、ある薬物による副作用発症に関連する要因を解析する上で、まずそれぞれの要因を単変量解析(univariate analysis)した後、ロジスティック回帰モデルを用いた多変量解析(multivariate analysis)し、独立した副作用に関連する要因を述べている文献があります。ここでロジスティック回帰モデルを用いた多変量解析とあるのであすが、この解析法を行うことで独立した要因かどうか分かるのでしょうか? おわかりの方がいましたらどうかよろしくお願い致します。

  • ロジスティック回帰分析について

    ロジスティック回帰分析で、 (1)実験から得られた実測値(連続量と0,1の離散量が混在しているデータ)を用いたもの (2) (1)のデータの連続量のみを(実測値-平均値)/ 標準偏差で正規化したもの (3) (1)のデータの連続量のみを(実測値-最小値)/(最大値-最小値)で0から1までの数値に変換したもの 上述の(1)~(3)で回帰係数はそれぞれ異なるのに、目的変数のProbabilityが同じ数値になるのは、どのような理論的背景があるからなのでしょうか? ご存知の方がおられましたら、教えていただけないでしょうか?

  • ロジスティック回帰分析のcrudeと調整済み

    論文で多重ロジスティック回帰分析を使用した際のcrude modelとadjusted modelについて教えて下さい。 crudeモデルは調整していない状態というのは分かるのですが、これは単ロジスティック回帰分析を独立変数ごとにかけたものと同じでしょうか?それとも性別や年齢などの背景因子を入れない状態での多重ロジスティック回帰分析でしょうか? またよく調整済みモデルでは性別や年齢などの背景因子で調整したと書いてありますが、これはこれらを複数の独立因子にさらに加えて多重ロジスティック回帰分析をかけたという意味でしょうか? よろしくお願いします。

  • 「累積ロジスティック回帰」で求められるのでしょうか?

    こんにちは。 卒業論文の中でアンケートを分析したいと考えています。 統計学を学んだことはないのですが、いくつか本を読むうちに自分のやりたい分析は累積ロジスティック回帰でできるのではないかと考えるようになりました。しかしながら本当にこの方法で分析できるのか自信がありません。 そのアンケートというのが、分かりやすくたとえると以下のようになります。(例えが変ですみません) Q1 あなたはディズニーランドに行きたいですか?  1.是非行きたい 2.まあ行きたい 3.どちらでもない 4.あまり行きたくない 5.行きたくない Q2 自宅からディズニーランドは近いですか?  1.近い 2.まあ近い 3.どちらでもない 4.やや遠い 5.遠い Q3 ディズニーランドの入園料は高いと思いますか?  1.高い 2.やや高い 3.どちらでもない 4.やや安い 5.安い Q4 ディズニーキャラクターは好きですか?  1.好き 2.やや好き 3.どちらでもない 4.やや嫌い 5.嫌い このような質問をし、「ディズニーランドに行きたい(もしくは行きたくない)」という気持ちに、「自宅からの距離」「入園料」「キャラクターの好み」がどの程度影響するかを明らかにしたいと考えています。 この場合、目的変数が質的変数(かつ順序尺度)であり、説明変数も質的変数(かつ順序尺度)であるため、累積ロジスティック回帰があてはまるのではないかと考えているのですが、正しいでしょうか? 最終的にはこれらの影響をパス図?で表せるといいなあと思うのですが・・・。 私は文型で、数学は大の苦手です。解析の本に出てくるΣの記号を見るたびに気分が悪くなるくらいです・・・。でもどうにか頑張って今回分析をしたいと考えています。 ロジスティック回帰分析についても、やり方がまだ十分理解できていません。(何冊本を取り寄せても、理解できないので・・・) もし本当に初心者向けに分かりやすい本やサイトがありましたら、そちらも教えていただけると非常に嬉しいです。 ちなみに分析に使えるソフトは、エクセルとSPSSです。 どなたかお分かりになる方、どうか教えてください!!よろしくお願いします。

  • 順序データを用いたロジスティック回帰分析

    ロジスティック回帰分析についてお聞きしたいことがあります。 ロジスティック回帰分析の独立変数として順序データを用いる場合は、3つ以上の値をとる名義データを用いる時のように、ダミー変数に変換する必要があるのでしょうか? ご存知の方がおられましたら、教えていただけないでしょうか。

  • ロジスティック回帰分析

    例えば優しい説明を受けて楽な気持ちになったとして、楽な気持ちが従属変数で、優しい説明が予測変数にしたロジスティック回帰分析はできますか?

  • 多変量ロジスティック回帰分析と独立変数

    ご質問があります。よろしければ、ご回答下さるとうれしいです。多変量ロジスティック回帰分析をしています。 従属変数;生死(あり、なしの2区分変数) 独立変数;年齢(連続変数)      性別(男性、女性の2区分変数)      高脂血症や糖尿病など(あり、なしの2区分変数)      病気の程度(ステージ0から5など 0-2と3-5に2区分)      血圧値 →質問はここです。       多変量ロジスティック回帰分析の場合、独立変数は連続変数・2区分変数は問題なく投入できると思います。また、順序変数の場合、ステージ0-2とステージ3-5と2区分変数として独立変数扱いになる場合もあると思います。 質問の内容です。 高血圧変数を(1)あり・なしの2区分変数、(2)血圧値そのもので連続変数、と扱うのではなくて、以下のような設定はどうでしょうか? 正常血圧をmean±SDと設定して、対象者の血圧と比較。    血圧値<2SD スコア0  2SD<血圧値<3SD スコア1  3SD<血圧値<4SD スコア2  4SD<血圧値<5SD スコア3  5SD<血圧値    スコア4  年齢があがると血圧もやや上がるため、例えば、正常者の血圧と比較するためにこのようなカテゴリー化をすると、このスコア0-4は連続変数でしょうか? 順序変数でしょうか? 連続変数は、1単位あたりの変化がスケール全体にわたって数量的に等しい変数と、定義されているようです。スコア化すると連続/順序変数どちらになるか確認させていただきたいと思います。 よろしくお願いします。

  • 重回帰分析かロジスティク分析か?

    多変量解析で、教えてください。 20人のケースで、Xという現象がー100~100%の幅で、増減したとして、事象A,B,C,D.E.Fが関与しているかどうかを調べるとします。 それぞれが、それぞれA~Fの現象と、変動率を散布図にて、表示すると、A,B.Cで相関があり、相関係数は R=±0.4~0.7でした。D,E.Fは、r=0.2以下でした。 単回帰分析をすると、要因A,B,Cでの回帰式は、有意とされました。A,B.Cの要因がどの程度のつよさで、Xという現象に関与しているかを調べる必要があるとすると、多変量解析をする必要があると思いますが、 その方法論として、X現象に対する重回帰分析が良いのか、X現象が増加するか、減少するかという現象に置き換えて、ロジスティク回帰分析の方が良いでしょうか? それとも、症例数から言うと多変量解析は無意味でしょうか? また、もし重回帰分析、ロジスティク回帰するとすると、A~F全て組み込むのか、単回帰で、有意だったA~Cだけで良いのでしょうか? 見よう見まねで、A~Cだけで重回帰すると、分散分析ではすべて有意でしたが、回帰式では、A,Bの組み合わせでは、A、B共に有意、A~Cの組み合わせだと、Aだけ有意とでました。この所見の記載として、 単変量解析では、A,B,Cが有意だったが、多変量解析では、Aのみが有意であるとして良いのでしょうか?