<★困っています!>等分散性が成り立たない場合等の回帰分析

このQ&Aのポイント
  • 等分散性が成り立たない場合には回帰分析はできないのでしょうか?変数XとYの関係を評価できないのでしょうか。
  • ある種は複数のデータが使用され、ある種は1つのデータしか回帰分析に使用されていないことについて指摘を受けました。全てのデータを使いつつ適切な回帰分析を行う方法はないのでしょうか。
  • 回帰分析において等分散性が成り立たない場合は一般的な回帰分析はできないとされています。また、複数のデータを使用する場合、データ間の相互独立性が必要ですが、全てのデータが相互独立であるわけではありません。統計的な手法を用いて、等分散性の成り立たない場合や相互独立性のないデータを分析する方法が存在しますが、その対処方法は複雑なため、専門家のアドバイスを受けることをおすすめします。
回答を見る
  • ベストアンサー

<★困っています!>等分散性が成り立たない場合等の回帰分析

いくつかの生物種について、独立変数である環境因子Xに基づいて、ある従属変数Yがどんな値を示したかを線形回帰分析した結果を簡単に外人の専門家に見てもらった所、 ・等分散性が成り立っていないのでPerasonの係数を用いた一般的な回帰分析はできない ・生物種によっては(複数回の実験に基づく)複数回データを(回帰分析に)使っている種もあれば、1回しかデータとして登場していない種もあるので、データ間の相互独立性が必ずしも成り立っていない という指摘を受けました。 しかし英文でのやりとりであることと私の基礎的知識の不足がたたり、理解が十分にできていません。具体的には以下の2点が疑問で残っています; ・等分散性が成り立たない場合には回帰分析はできないのでしょうか?できないにしても、変数XとYの関係を何らかの方法で評価できないのでしょうか。 ・ある種は複数のデータが使用され、ある種は1つのデータしか回帰分析に使用されていないことについて指摘を受けた所ですが、その対処方法として、一つは当然「全ての種について1つずつのデータ(プロット)しか使わない」という方法があるかと思います。しかし、折角複数のデータがある種については、それらのデータを全て回帰分析に用いる方が、より有効にデータを使っている様にも思えるので、全てのデータを使いつつ適切な回帰分析を行うという方法はないのでしょうか。 以上、どちらか一つだけでもご回答頂ければ非常に助かります。また、解決につながる単語又は概念だけでもヒントを頂ければ後は自分で調べたいと思います。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 質問文がよく分からんですが、恣意的に選んだ生物種a,b,c,…について、(生物種aのXの値とYの値),(生物種bのXの値とYの値),…というデータに対して(回帰分析ではなく)相関の計算をなさったんですかね。 だとすると、そもそも生物種aのXと、生物種bのXが「同じX」と言えるかどうかからして疑わしい。さらに、Xが「同じひとつの確率変数のランダムなサンプル」とは言い難いし、まして正規分布してると考える根拠などない。なので(専門家さんのコメント以前に)どう見ても相関係数(Pearsonの積率相関係数)に意味があるとは思えません。  じゃあ何が出せるかというと、例えば、単にプロットと回帰曲線を示して「ほら、この曲線に良く乗ってます」と言うだけに留めておけば文句は付かないでしょうけど、「だからxxxという傾向があります」と帰納的結論まで言っちゃうと、「たまたまでしょ?」だの「いや、その曲線に乗るような生物種を選んだんじゃないの?」だのとツッコまれたらひとたまりもありません。もし曲線が「測った結果こうなりました」ではなくて、何か理論的仮説から厳密に演繹された予測曲線であれば、もうすこし強く主張しても叩かれないだろうと思いますが、それでも定量的なことを主張するのは難しいのではないか。  最初っから、この研究で何を主張しようとしているのか、そのためにはどんなデータをどう採ればいいか、ということを明確にして研究を計画しないとなあ…なんて言ったってあとのまつりなんで、どうすりゃ良いかは、(研究の内容をここに書く訳にはいかないでしょうから)まずはその専門家さんに知恵を借りてはいかがでしょ。

sapisapi
質問者

お礼

ありがとうございます。また追加で疑問の箇所について別枠で質問させて頂きたいと思います。

関連するQ&A

  • 不均一分散の回帰分析に適した変数変換とは?

    不均一分散する変数について回帰分析をする場合、加重最小2乗法や変数変換等があるという情報をウエブで見つけました。 手持ちのデータ(独立変数が大きくなるほど、残差のばらつきが大きくなっているデータ)で試しに従属変数の対数変換をして回帰したら、確かに元の結果よりかなり鮮明な傾向が認められ、また分散もほぼ一定となっている様に見受けられたのですが、その様になる理由は、簡単にイメージ的に説明すると何なのでしょうか。 また上記の様に“綺麗な結果”になる場合、そのまま対数変換の手法を採用して回帰してしまって差し支えないでしょうか。似た様な曲線形をとる関数に平方根(y=√x)等もあると思うので、ひょっとしたら「平方根変換」等も選択肢としてはあり得るとも思うのですが…何故対数変換なのでしょうか。 やはり実際に使う以上、直感的イメージだけでもその手法の仕組みを理解したいので、ご教示頂けると非常に助かります。

  • 単回帰分析と重回帰分析の結果の違い

    論文を読んでいて疑問に思うことがありました.よろしくお願いします. 私は,回帰分析とは変数Yを、p個の変数X1,X2 ,… Xpにより説明したり予測するための統計的手法であり,p=1のときは単回帰分析,p>1のときは重回帰分析と呼ぶ,と解釈しています. 今,ある施設のサービス改善についての調査論文を読んでおります.そこではアンケート調査でその施設のサービスの総合評価Yと,8個の各サービス毎の評価(x1~x8)を調べ,総合評価Yを従属変数, x1~x8を説明変数として重回帰分析にかけます.そして出た相関係数から施設の総合評価に対する各サービスの重要度を求め,改善につなげようとしています. 結果,重要度は x1>x2>x6>x3>x7>x8>x4>x5 という結果になりました.ここまではわかるんです. ですが次に総合評価Yを従属変数,x1を説明変数として単回帰分析,また総合評価Yを従属変数,x2を説明変数として単回帰分析,また総合評価Yを従属変数,x3を説明変数として単回帰分析・・・というようにこの操作をx8まで続け,出た相関係数を比較しています.結果は x1>x2>x4>x8>x3>x5>x7=x6 となっており,重回帰分析の結果と照らしあわせると最初のx1とx2は合致しているものの,あとはバラバラです.x6にいたっては最後にきています.なぜでしょうか.論文は「どのサービスも総合満足度に重要な影響を与えており,特にx1,x2,x3,x4を改善するのがよい」 と締めくくっています. 質問は3点です. (1)なぜ重回帰分析の結果と単回帰分析の結果が異なるのか (2)どのサービスも総合満足度に重要な影響があるとして,それは重回帰分析の結果だけで言えるのではないか(重回帰でも相関係数は出ているし,単回帰分析をする意味はあるのか) 稚文ですみません. 当方あまりオツムがよろしくないのでできるだけわかりやすくよろしくお願いします.

  • 回帰係数の共分散がわからず困っています(確率・統計>回帰分析)

    現在、卒論執筆に際し、以下のような統計の問題にぶつかり、大変困っています。 【問題】 共通の説明変数x1~xnを持つ、N本の回帰モデルを以下の通り考える。 y1 = a1×e + b11×x1 + b12×x2 + … + b1m×xm + ε1 y2 = a2×e + b21×x1 + b22×x2 + … + b2m×xm + ε2 … yn = an×e + bn1×x1 + bn2×x2 + … + bnm×xm + εn (x,y,εはベクトル、eは単位ベクトル) このとき、各回帰式の切片a1~anの分散共分散行列V(a)を求めたいです。 分散共分散行列の対角成分に関しては、Excelの分析ツールで出力される標準誤差の項を基に計算できるのですが、共分散項については、自分で式の展開を試みるもどうにも上手くいきません。 また回帰分析の本は手当たり次第に読みましたが、一本の回帰式の中の係数の共分散行列ならば書かれていましたが、異なる回帰式の共分散行列となると、どの本にも書かれておらず、まったく先の見えない状況です。 そのものずばりの回答でなくても、そのことについて書かれている書籍や論文等がございましたら、お知らせいただければ幸いです。 また、上記の一般化された問題をもっと簡略化した以下の問題でもわかる方がいらっしゃいましたら、どうかお願いします。 共通の説明変数xを持つ2つの回帰モデルを考える。 y = ax + b z = cx + d このとき、切片b,dの共分散cov(b,d)を求めよ。

  • 回帰分析が分かりません。

    合計特殊出生率と一人あたりの所得の関係について埼玉県を市町村別に回帰分析を行い、その結果を都道府県を単位とした分析の結果と比較して考察する問題なのですが、教科書を見ながらExcelの散布図で一人あたりの所得を従属変数、合計特殊出生率を独立変数として回帰分析を行う所まではできたのですが、結果として何が分かってどのようなことが考察できるのかが分かりません。教えてください。 埼玉県がy=396671x+2E+06,Rの2乗=0.0379, 都道府県別がy=-1E+06x+5E+06,Rの2乗=0.1915となりました。 Excel操作が苦手で回帰分析が全く理解できていない状態です。

  • 重回帰分析と分散分析

    R≒0のとき、p値が有意であることは何を意味していますか 分散分析の帰無仮説は全ての係数が0であるですが、 Rがゼロに近いとき、p値が有意になることはありますか 持っているデータで回帰分析を行ったところ R=0.11xx、R2=0.012xx、P<0.001xx となりました。これは、相関がないことを示しているのでしょうか。 それとも弱いながらも相関があることを示しているのでしょうか。 よろしくお願いします。

  • 重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが

    重回帰分析のやり方について教えて下さい。ど素人的な質問で恐縮なのですが、重回帰分析は、目的変数(Y)を、説明変数 X1, X2, X3, X4.....X20などに影響されるか否かを検討しますよね。ここで、私がしようとしている統計学的処理と類似した研究の論文などを読んだりとかしていると、YとX1, YとX2, YとX3, YとX4.....YとX20の単回帰分析を各々行い、ここで有意な相関があったものを取り上げて(例えば、X1, X4, X7, X12, X18, X20の6個など)、この6個について、重回帰分析を施行して、ここで、X4, X18は有意でないといった結果が出たなら、Y=aX1+bX7+cX12+dX20という重回帰式を作成し、標準偏回帰係数を算出し、どの説明係数が最も目的変数に影響を与えているのか解析しているのですが、これが正しい方法(進め方)なのでしょうか? いきなり、YとX1~X20を重回帰分析したのは、どうでしょうか?これはダメなのでしょうか?単回帰分析では相関が有意にでない(他の説明変数の影響のために)けれども、重回帰分析では有意な結果となるような説明変数が無視されるような結果になるように思うのですが、どうでしょうか? 非常に低レベルな話しで申し訳ないのですが、お教え下さい。

  • 単回帰分析

    単回帰分析における回帰直線y=a+bxの係数a,bの導出方法を教えてください。 調べたところ、a=y~-bx~ , b=Σ(x-x~)(y-y~)/(x-x~)^2とあったのですが導出する方法がわかりませんでした。 y~=1/n*Σy , x~=1/nΣx お願いします

  • 重回帰分析と分散分析の結果が違う

    次のようなRのコードを書きました。 x1~x7は因子で、1がなし2がありだと思ってください。 最後のxがデータです。これが大きい程よいと言う意味だと思ってください。 data <- data.frame( x1 = c("1","1","1","1","2","2","2","2"), x2 = c("1","1","2","2","1","1","2","2"), x3 = c("1","1","2","2","2","2","1","1"), x4 = c("1","2","1","2","1","2","1","2"), x5 = c("1","2","1","2","2","1","2","1"), x6 = c("1","2","2","1","1","2","2","1"), x7 = c("1","2","2","1","2","1","1","2"), x = c(35,48,21,38,50,43,31,22) ) data colnames(data) <-c("B","C","B:C","D","B:D","A","7","x") data summary(aov(x ~ A+B+C+D+B:C+B:D,data=data)) summary(lm(x ~ A+B+C+D+B:C+B:D,data=data)) 結果としましては、 分散分析では因子C以外は有意差がないという結論を出しており、 重回帰分析では因子Bと因子B:D以外は有意差がないという結論を出しています。 重回帰分析と分散分析は基本的に数学的にやっていることは同じと言われたのですが、結果が異なり戸惑っています。 なぜこのようなことになったのか心当たりがある方ご教授ください。 よろしくお願いします。

  • 共分散分析(ANCOVA)で困っています

    共分散分析(ANCOVA)で分からない点があり困っています.  疫学研究系の国内誌に投稿したところ,査読者から,共分散分析のモデルについて再考すべしとの指摘がありました.  要因A(体操教室の参加者,不参加者)が従属変数Y(握力の強さ:連続変数)に及ぼす影響について,共変量X(年齢,性別,教育年数,喫煙)を投入した共分散分析のモデルにより検討しようとしています.  そこで質問です:  ・質問(1) 共変量Xは,従属変数Yとじっさいに有意な相関関係にあるものしかモデルに投入できないのでしょうか?    ・質問(2) 共変量Xのうち,要因Aと相関関係に有るもの,要因Aと相関関係に無いものの両方を混在させてモデルをつくることは妥当なのでしょうか?  ・質問(3) 査読者から,共分散分析を実施する上での前提を確認することとの指摘がありました.共分散分析を実施するうえで必ずチェックしなければいけない点について分かりやすく教えてください.  以上について,お教えいただければ幸いです.

  • 順序データを用いたロジスティック回帰分析

    ロジスティック回帰分析についてお聞きしたいことがあります。 ロジスティック回帰分析の独立変数として順序データを用いる場合は、3つ以上の値をとる名義データを用いる時のように、ダミー変数に変換する必要があるのでしょうか? ご存知の方がおられましたら、教えていただけないでしょうか。