• 締切済み

エクセル統計のロジスティック回帰について

エクセル統計でロジスティック回帰をしようと思っています。 「関数のあてはめ-ロジスティック」と、 「多変量解析-多重ロジスティック」とツールが2つあり、 上限がともに1で、変数が1つであれば、理屈上は全く同じ推計結果が得られるようです(パラメータ推定方法の違いで、微妙に結果が異なるようですが)。 ちなみに、 前者はy=K/(1+a・exp(-bx))、後者はy=1/(1+exp(a+bx)) という式です。 質問1: 皆さんは、両者をどのように使い分けておられるでしょうか。 参考となるご意見などあれば、お伺いしたく存じます。 (数学的?(モデル表現的?)な意味合いで、本質的に異なるものなのでしょうか?) 質問2: フリーソフトのRでもロジスティック回帰ができるようですが、 これは上記のどちらに該当することになるのでしょうか。 ご存知の方がおられましたら、ご教示頂けると幸いでございます。 どうぞ宜しくお願い申し上げます。

  • dmc
  • お礼率100% (5/5)

みんなの回答

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

端的にいうと、私は"見た目"で判断しています。 当てはまりが良いかどうかは図を描いて自分の目で判断しているので、「こういう数値で判断する」ということはやったことがないのです。 お役に立てませんで、、、

dmc
質問者

お礼

ご回答、どうも有難うございます。 私の方でも少し調べてみました。 「The R Book」によると、ロジスティック回帰モデルの評価指標として、次の3つが例示されています。 (1)G値 (2)AIC (3)Wald検定量 決定係数とともに、これらの指標も見ながらモデルを決定したいと思っています。 取り急ぎ、お礼申し上げます。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

> フリーソフトのRでもロジスティック回帰ができるようですが、これは上記のどちらに該当することになるのでしょうか。 Rでロジスティック回帰分析をする方法はいくつかありますが、nls()という関数を用いてやる場合、モデル式は自分で指定することになるので、R側がどちらを採用しているかということはありません。 > nls(y~gamma/(1+exp(alpha+beta*x)),start=c(gamma=11,alpha=3.1883,beta=-0.949)) y~gamma/(1+exp(alpha+beta*x)) のように自分でモデル式を指定します。だから、K/(1+a・exp(-bx))でも1/(1+exp(a+bx))でもかまいません。 ちなみに曲線の当てはめの場合はnls()という関数を使いますが、多重ロジスティック回帰分析の場合はglm()という関数を使っています。

dmc
質問者

お礼

ご回答頂き、どうも有難うございました。 Rでも是非試して、分析結果の違いなども比較してみたいと思います。 追加で質問したい件がございます。 回帰結果の当てはまり度合いを判定するには、 どのような指標を用いるのが一般的でしょうか。 エクセル統計の多重ロジスティック回帰分析結果には、 決定係数が表示されません。 対数尤度は表示されますので、それを元に、 AIC=-2(対数尤度-パラメータ数)などで、 ある程度のモデルの良さを判断することになるのでしょうか。 一般的に、AICの基準となる値のようなものはあるのでしょうか。 初心者の質問で恐縮です。

関連するQ&A

  • 多変量ロジスティック回帰分析

    初歩的な質問ですみません. 多変量ロジスティック回帰分析と多重ロジスティック回帰分析とは違うものでしょうか?違うとすれば,どのように違うのでしょうか? どなたか,教えて下さい.

  • ロジスティック曲線について

    はじめまして~ 今、ロジスティック曲線を使って、植物の生長をつくっているものです。 式は、一般的なy=a/(1+bexp-(cx))を使っています。 作成したモデル式のパラメータが示す意味を考えてみると、a=yの最大値、cは反応速度の急激さであることは、うまく表せているのですが、bの示す意味がつかめません。 いろいろ、本を読んでみると、bはおおよそ、aの10分の1くらいになる。 または、ロジステック曲線をY=A+BX1-CX2とおいた時、2個の独立変数(X1、X2)からなる重回帰式でこれを解いていくと、bは説明変数X1とyの最大値をかけたものになる・・・というところまでは、なんとなくつかめた(?)ような気がします…(汗) そこで、このbというパラメータの意味を教えていただけないでしょうか??よろしくお願いします。 ちなみに、y=2.730/(1+362.054exp(-0.08*x))という式が今現在できています。

  • 重回帰分析かロジスティク分析か?

    多変量解析で、教えてください。 20人のケースで、Xという現象がー100~100%の幅で、増減したとして、事象A,B,C,D.E.Fが関与しているかどうかを調べるとします。 それぞれが、それぞれA~Fの現象と、変動率を散布図にて、表示すると、A,B.Cで相関があり、相関係数は R=±0.4~0.7でした。D,E.Fは、r=0.2以下でした。 単回帰分析をすると、要因A,B,Cでの回帰式は、有意とされました。A,B.Cの要因がどの程度のつよさで、Xという現象に関与しているかを調べる必要があるとすると、多変量解析をする必要があると思いますが、 その方法論として、X現象に対する重回帰分析が良いのか、X現象が増加するか、減少するかという現象に置き換えて、ロジスティク回帰分析の方が良いでしょうか? それとも、症例数から言うと多変量解析は無意味でしょうか? また、もし重回帰分析、ロジスティク回帰するとすると、A~F全て組み込むのか、単回帰で、有意だったA~Cだけで良いのでしょうか? 見よう見まねで、A~Cだけで重回帰すると、分散分析ではすべて有意でしたが、回帰式では、A,Bの組み合わせでは、A、B共に有意、A~Cの組み合わせだと、Aだけ有意とでました。この所見の記載として、 単変量解析では、A,B,Cが有意だったが、多変量解析では、Aのみが有意であるとして良いのでしょうか?

  • SPSS17で二項ロジスティック回帰分析を行うには

    SPSS統計に関する基礎的な質問です。 SPSSを使って二項ロジスティック回帰分析を行う方法として、「分析」→「回帰」→「二項ロジスティック」を選択するとネットで調べました。 以前使っていたSPSS12ではこのやり方で二項ロジスティックの変数増加法、尤度比で解析していたのですが、SPSS17でやってみたところ、同じようにできず困っています。 SPSS17では「分析」→「回帰」を開くと、「線形」、「曲線推定」、「偏相関最少2乗法」、「順序」の4つしかなく、あちこち探ってみたのですが結局分からずじまいでした。 急いで解析しなければいけないデータがあり、また、SPSS12はもう使えない状況であるため、なんとかSPSS17で対応していかねばと思っております。 どうぞ具体的なやり方をご存じの方がいましたら、ご指南いただけないでしょうか。 宜しくお願いいたします。

  • 統計 単回帰 Xに性別はOKですか?

    大変お世話になります。 単回帰について教えてください。 単回帰のxに性別を入れてyとの関係をみることはできないのでしょうか?(StatFlexという統計ソフトを使用しています) 具体的には被験者の性別をx、サイトカインの血中濃度をyとして、単回帰を施行したいのですが、データベース型にサイトカインの値と、性別(M or F)を入力しても、統計>多変量解析>2変量統計で進んでいくと、X軸y軸共に選択肢に性別があがってきません。ダミー変数にしてみてもかわりませんでした。 また同様に病期1,2,3,4についても、選択肢に上がってこないのですが、 xには性・カテゴリーなどは使用できないのでしょうか?連続変数でないといけないのでしょうか? 統計不慣れなもので、常識内の質問であったらお許しください。

  • ロジスティック回帰モデルでの多変量の外れ値の検討法

    ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。 SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 この外れ値を除去する方法がわからないため書きこませて頂きました。 重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。 詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。

  • 統計 ロジスティック回帰の従属変数

    従属変数についての質問。 多変量解析を行う場合従属変数を決めます。で、例えば従属変数が「疾患がある」と「疾患がない」という2値になるものにしようと設定したとします。その場合、変数としては「ない=0」「ある=1」としなければいけないのでしょうか? 自分の考えとしては、たぶんこれはダミー変数だと思いますが、2値だからロジスティック回帰で分析する場合、疾患のある・なしを確率でとらえるなら、確率は0~1までなので「ない=0」「ある=1」としておかなければダメなのでしょうか? 例えば「ない=1」「ある=2」としてはダメなのですか? あと、ロジスティック回帰の結果、従属変数に対する独立変数のそれぞれが調整オッズ比とその95%CIという形でよく論文に表が載せてあるのですが、・・・その解釈の仕方として、独立変数が「男」「女」の場合のような2値なら男より女は相対危険(オッズ比)が「いくらです」。という解釈ですよね。しかし、独立変数が「年齢」や「身長」など連続的な数量データなら、オッズ比に関してどう解釈すればよいのでしょうか? また、「年齢」が例えば4層くらいのわけてあったりもしますが、結局、オッズ比の解釈がわかりません。 結構権威ある先生の論文に年齢のところは「1歳の増加」とか書いてあって、そのオッズ比と95%CIが書いてありますが・・・ 「1歳の増加」? 意味がよくわかりません。連続データの独立変数の場合、「1の増加」に対するオッズ比と解釈しなければいけないのでしょうか?

  • Rでの推定したロジスティック曲線への代入

    下記のようにロジスティック回帰を求めたのですが、 例えば、yに0.5を代入した時のxの値を求めるにはどうすればよいでしょうか? > result <- nls(y ~ a/(1+b*exp(-c*x)), dat, start=list(a=1, b=0.01, c=-0.1)) よろしくお願い致します。

  • 回帰 説明変数について

    いつもお世話になっております。 ある論文を読んでいて不思議に感じたので,そのことに関して伺いたく存じます。 時系列回帰にてある推定期間を用いてy=a+bx1+cx2という回帰式でa,bおよびcの推定します。 それらのa,b,cを用いて,y=a+bx1+c(x2+x3)と説明変数の一部を変更してyの期待値を算出していました。 このように回帰式で用いた説明変数を加工して、期待値を算出することには問題はないのでしょうか? ご存知の方がいらっしゃいましたら,ご教示のほどよろしくお願いいたします。 なお、係数にハットを付さなければならない箇所がありますが,^を用いれば指数とミスリードする可能性があるので割愛しております。

  • ロジスティック回帰分析について

    ある腫瘍の手術において、術後合併症を発症する危険因子を調べています。 「術後合併症の発生あり(=1)、なし(=0)」の質的変数を目的変数として、年齢・性別・その他もろもろの説明変数をカテゴリー化して、統計ソフトJMPにて、ロジスティック回帰分析を行っています。 実は、この疾患はそもそも男女の罹患率に大きく差がある疾患で、私の解析しているデータ33例中男性は4例のみで、この4例はすべて「合併症発生なし=0」です。ちなみに女性では29例中7例で合併症が生じています。そのため、JMPで解析すると、パラメータ推定値に「不安定」と表示され、いくつかの説明変数のオッズ比と信頼限界が計算されず、困っています。「不安定」と表示されるのは、以下の理由のようです。(http://www.sasconsig.com/japan/support/faq/stat_1232.shtml)。このサイトから私が思うには、私のデータでは「男性」であることにより、目的変数が完全に推定できてしまうので計算不能なのであろうかと考えております。 合併症の発生する・しない、に性別が関連しているとはどうしても考えにくい状況なので、説明変数に「性別」を入れずに解析するとうまく計算されます。しかし、一方でこうした研究では「性別」は「年齢」と同様に、基本的な統計量として検討されているものがほとんどだと思います。そこで、こうした場合「性別」を説明変数から除外したことを論文中に示すには、どのような統計処理あるいは説明を行えばよいのでしょうか? あるいはまた別な方法で処理すべきでしょうか? 恐れ入りますがどなたか教えていただけませんでしょうか。