回帰モデル作成の意味について

このQ&Aのポイント
  • 回帰モデルを構築し,別のデータを予測する際には,理論的な関係を考慮したモデルの形を決めることが重要です。
  • データだけではなく,理論に基づいた回帰モデルを構築することで,より正確な予測が可能になります。
  • 理論的なモデルの決定には,統計学的なアプローチと物理学的な知識を組み合わせることが有効です。
回答を見る
  • ベストアンサー

理論に基づいた回帰モデル作成の意味について

あるデータから回帰モデルを構築し,別のデータを予測する場合,各変量間の関係が理論的にわかっている場合は,回帰モデルの形をデータだけで決めずに,理論的に決めたほうがよいと思います。ところが,どうして理論的に決めたほうがよいのかと聞かれると,うまく答えることが出来ません。 ご存知の方がいらっしゃいましたら,教えて頂ければ幸いです。 上記の抽象的な文では内容が伝わらない場合に備えて,長くなりますが下記に具体例を書かせていただきました。上記の文で足りる場合は,具体例は読んで頂かなくても結構です。 <具体例> 大気の薄いある惑星上で,ボールを真上に初速Vで発射し,落ちてくるまでの時間Tを測る実験を,100回行ったとします(あり得ない話ですが)。この実験によって,変量V,Tに関する大きさ100のデータが得られます。さて,このデータをもとに,VからTを予測する式を作る必要が生じたとします。 ニュートン力学に基づけばTはVと線形関係にあるはずですから,高校で物理を習った人は,T = αVという単回帰モデルを使うのが自然だと思います。これが,回帰モデルの形を理論に基づいて決めるアプローチです(アプローチ(1))。 一方,統計学を習いながらも物理を全く習っていない人は, T = αV^2 + βV のような多項式回帰モデルや, T = s(V) のようなノンパラメトリック回帰モデル(sは平滑化スプラインなど)を使うかもしれません。どれを使えばよいか判らない場合のモデル選択には,交差確認法などのモデル選択基準を用いることができます。これは,完全に統計的なアプローチと呼べると思います(アプローチ(2)) このような状況で,アプローチ(1)が(2)より優れていると私は何気なく思ってきたのですが,どうして優れているのか,わからなくなってしまいました。 モデルの新しいデータに対する予測誤差(汎化誤差)は(1)より(2)の場合のほうが小さくなることだってあると思うのです(例えば,空気抵抗があった場合や,実験誤差が正規分布しなかった場合)。また,アプローチ(2)についてまわる,回帰の際のデータに対する過剰適合(overfitting)の問題は,モデル選択基準を使うことである程度避けることができると理解しています。それでも,理論を利用することが優れているとすれば,どのような点においてでしょうか? よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
noname#221368
noname#221368
回答No.2

 すいません。事前情報という言葉を不用意に使いました。ベイズ推定の中に、そのような用語があるのですね。知りませんでした。  私は、野外に設置された測定器の時系列をよく扱っていました。そのとき回帰分析なども利用しましたが、それ以前に、生の測定データを折れ線で結ぶ事に関して、疑問を持った事があります。というのは、与えられる測定データのデジタルサンプリングで、アナログ連続量の情報量全体を伝え切るのは不可能だからです。そこに何故、安易に直線を引きたがるのか?。結局これは、   ・時系列の連続性 もう少し強めれば、   ・時系列の1階微分可能性(連続微分でなくて良い) を仮定したのと同等だと思いました。こうしてしまうのは、物理データはたいていの場合、少なくとも連続だという思い(偏見?)があるからです。アナログ連続量の全てを見たわけでもないのに、それでわかった気になるのは、そういう「事前情報」を知ってるからです。  事前情報とは、この程度の意味で使っております。

blueblink
質問者

お礼

補足説明をいただき、ありがとうございます。 「事前情報」のここでの意味と,最初にいただいたご回答の趣旨について、理解できました (私も、線形補間の意味については、悩んだことがあります。1階微分可能性と、局所的に2階微分が0であることを仮定しているように思います)。 理論モデルと回帰モデルのどちらが事前情報として適切か、定性的に判断するのは、なかなか難しそうですね!この問題を今後も考えてみたいと思います。

その他の回答 (1)

noname#221368
noname#221368
回答No.1

 単純に考えてみました。そもそも何故回帰モデルを使うのか?。それは、完全な解を求める条件数が不足しているからです。そこで、条件数を埋めるために、回帰モデルという一般的な事前情報を持ち込むわけです。  どのような事前情報が適当かは、定性的判断であって、予測誤差(汎化誤差)や過剰適合(overfitting)などの定量的判断では片付けられないと思います。まさに、モデル選択基準を考えるという事になります。

blueblink
質問者

補足

ご回答をいただきありがとうございます。 確かに,完全な解を求める条件が不足しているから,回帰モデルを用いるのでしたね。 事前情報とは,ベイズ推定の用語だと思うのですが,私自身がベイズ推定を全く知らないために,なぜ回帰モデルが「事前情報」なのかが,まだ理解できていません。 この点については,ベイズ推定を勉強してからよく考えてみたいと思います。

関連するQ&A

  • 回帰モデルの予測精度と回帰データサイズの関係を調べる方法

    手元に200個(大きさ200;行数200)の観測データがあり、その一部(n個)を用いて回帰モデルを構築した場合の予測精度が、用いたデータ数nにどのように依存するかを調べたいと考えています。 このような場合、次の(1)~(3)を、様々なnについて繰り返す方法でよいのでしょうか? (1)200個のデータをランダムに、大きさn, (200-n)の2つの部分集合に分ける (2)前者を用いて構築した回帰モデルで後者を予測する (3)予測誤差を評価する 不安な点は、nに応じて、予測されるデータ数(精度検証に用いられるデータ数)が変化してしまうことです。 何かコメントをいただければ幸いです。

  • 重回帰分析について

    卒論を作成するに当たって、重回帰分析にて、「パソコンの需要量予測」をしたいと思っています。 いろいろな変量を用意し、そのデータを集めて、パソコンの需要量(販売数)を目的変量とする重回帰式を生成し、新製品のデータを入力してその製品の需要量予測をするつもりです。 ここで質問なのですが、目的変量(需要量)に対する説明変量として、どのようなものがいいのでしょうか? 今思いついているのはパソコンの性能、企業のブランド力です。 これからも自分で考えていきますが、良い説明変量があれば教えてください。お願いします。

  • 重回帰がわかりません

    3変量の重回帰のためのデータを作り、正規方程式を導き、重回帰式を決定せよ (1,1,2,3,5,7)から5点を選び、うち3点が重回帰式が表す平面上にあるようにし、他の2点については2乗誤差が1となるようにせよ。 という問題が全く分かりません どうか解答と解説までお願いします

  • 非線形回帰モデル式

    非線形回帰モデル式の種類やその曲線の形状に関する情報が掲載されたサイトをご存知の方,ご教示いただければ幸いです. 非線形回帰式に実験データをあてはめて,回帰式のパラメータ推定を試みています.解析に使うソフトはpolymath6.1(あるいはエクセル2007)で,回帰モデル式を記述してフィッティングを行います.あてはめたい式は,もともとエクセルに入っているような回帰式よりも複雑なものです.たとえば「○○曲線」と称する回帰モデル式が多数知られていると思いますが,データにフィットしそうな回帰モデル式を探す際に,どのような種類の回帰モデル式があって,それはどのような曲線の形になるのか,といったことを前もって調べられたらいいな,と考えております. 宜しくお願い致します.

  • ロジスティック回帰モデルでの多変量の外れ値の検討法

    ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。 SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 この外れ値を除去する方法がわからないため書きこませて頂きました。 重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。 詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。

  • 回帰分析:理論値と実績値の差異の考慮

    回帰分析の理論値と実績値の差異を将来予測に反映させるべきか悩んでいます。アドバイス頂ければ幸いです。以下の例を念頭に置いています。 ↓ 国内総生産と県内総生産の動きから将来の県内総生産の予測値を算出する際に、過去の理論値と実績値の差異を調整値として県内総生産の予測値に反映させるべきなのでしょうか?

  • 回帰分析におけるデータの正規化の意味

    重回帰分析をプログラム作成することを考えています。 しかし、データの正規化について疑問が2つあります。 まず一つは、例えば、画像の解析をする場合にデータの正規化をすることは、 ノイズを除去したり、画像の向きを正しくすることを意味しますよね。 しかし、回帰分析においてデータの正規化をすることは何を意味しているのでしょうか? 画像のように見てイメージがわけばよいのですが、数値データなのでどういう意図があるのかよく分かりません。 2つ目の疑問です。 また、データを正規化して重回帰分析をしたとします。 ↓の重回帰分析を例に挙げます。 http://homepage2.nifty.com/crop_shimane-u/multipleregression_excel.htm この例では、入力として年平均気温、降水量、日照時間とし、出力を単収としています。 このときデータを正規化せずに解析し、次のような予測式を推定しています。  水稲単収=713.932-17.336×年平均気温+0.010666×降水量+0.017851×日照時間 ・・・ @ この場合に、正規化していないので新しいデータとして、例えば、  年平均気温=14.8、降水量=2431、日照時間=1721 ・・・ (*) から単収を推定したいとき、上記@の回帰式に代入することで単収を計算して推定できます。(1) しかし、データを正規化(平均が0、分散が1になるように)した場合、入力と出力のデータが0以上1以下の値しかとらなくなるので、 重回帰によって上記@のように予測式が得られてもその予測式の出力は0以上1以下の値しかとらないことになり、 新しいデータ(*)をそのまま予測式に代入しても正しい単収を推定できないのではないかと考えています。 この場合のように、データを正規化して得られた予測式で(1)のように正しく単収を推定するにはどうしたらよいのでしょうか? 長くなりましたが、回答よろしくお願いします。

  • 統計おしえて!ロジスティック回帰でいいのかな?

    10項目程度の質問項目があります。 すべて、YES、NOで答えるタイプの項目です。(質的なデータで二値性) そのうち、ある一つの項目を従属変数(目的変数)としてほかの項目を独立変数として多変量解析したいのですが。。。 「ロジスティック回帰」を使えばいいのですか? 各独立変数ごとに従属変数に対するオッズ比が算出されるのですか? あと、これも重回帰のように独立変数の選択問題で当てはまりがよくないモデルがあったりするのでしょうか? あと、ロジスティック回帰を行いたいのですがソフトがなくて・・・ 無料でできるフリーソフト(初心者でもわかりやすい)とかあったら紹介してください。 たくさん質問してすみません。どれか一つでもわかるところがありましたら教えてください。お願いします。

  • 重回帰分析のモデル式の解釈についてご教授ください。

    社会学関係の論文をいくつか読んでいると、重回帰分析の結果として、 ・調整済R^2が5%~10% ・モデル式に関してのF検定は0.01%~0.1%で有意 ・いくつかの説明変数に関してのt検定は0.01%~0.1%で有意 というような重回帰モデルをいくつも見かけます。 私自身、統計学を勉強中で解釈に困っているのですが、 この重回帰のモデルの解釈としては、 「(1)予測においては、目的変数の変動はほとんど説明できておらず、このモデルを使って予測してもほとんど当たらんが、目的変数に影響を与えているいくつかの説明変数の効果がゼロではない。また、目的変数と説明変数との間の影響関係を見ることにおいて、その目的変数に影響を与えるだろう説明変数を明らかにできた」というようなところでしょうか。 よろしくお願いします。

  • 三角関数を含んだモデル式での回帰分析の方法を教えてください.

    実験データを, Y = A * TAN( 2 * PI() * X / B ) Y・・・目的変数 X・・・説明変数 A, B ・・・係数 TAN() ・・・タンジェント PI() ・・・円周率 というモデルの回帰式に当てはめたいと考えているのですが, A,Bの値をどのように求めればいいのかが,よく分かりません. 対数線形回帰分析のようにこのモデルを, Y = A * X + B といった線形モデルに変形することは可能なのでしょうか. 不可能な場合は,どのようにしてA,Bを求めればいいのでしょうか. 回帰分析に詳しい方,よろしくお願いします.