• ベストアンサー

回帰モデルの予測精度と回帰データサイズの関係を調べる方法

手元に200個(大きさ200;行数200)の観測データがあり、その一部(n個)を用いて回帰モデルを構築した場合の予測精度が、用いたデータ数nにどのように依存するかを調べたいと考えています。 このような場合、次の(1)~(3)を、様々なnについて繰り返す方法でよいのでしょうか? (1)200個のデータをランダムに、大きさn, (200-n)の2つの部分集合に分ける (2)前者を用いて構築した回帰モデルで後者を予測する (3)予測誤差を評価する 不安な点は、nに応じて、予測されるデータ数(精度検証に用いられるデータ数)が変化してしまうことです。 何かコメントをいただければ幸いです。

質問者が選んだベストアンサー

  • ベストアンサー
  • rei1701
  • ベストアンサー率100% (2/2)
回答No.1

もし予測精度を評価するための基準としてy=ax+bという回帰式のaとbというパラメータの標準誤差が、aとbの値の推定に使ったn数にどう依存するのかをシミュレーションで調べるのでよければ、次の方法(bootstrap)はいかがでしょうか: (1)200個のデータからn個のデータをランダムに復元抽出する。 (2)n個のデータに対して回帰分析を行いaとbの値を推定する。 (3)この作業をk回繰り返す(nの値は変えない)。 (4)aとbの推定値がそれぞれk個手元に残るので、そのデータからそれぞれの標準偏差を計算する。 ☆この作業をnの大きさを変えて繰り返し、aとbの標準誤差のn依存性をグラフにする。 復元抽出なので、nが200でも何通りものサンプルが作れて、質問にあるような心配は生じないはずです。

blueblink
質問者

補足

早速ご回答をいただきありがとうございます。 大変参考になりました。 私の今回の場合は、回帰パラメータの標準誤差ではなく、回帰式の予測誤差について、n依存性を調べたいという状況です。従って、回帰計算に用いていないデータを残しておいて、そのデータを予測し、誤差を調べることが必要かと思います。 もし仮に、1つのnについて調べるだけであれば、ランダムにn個を抽出して回帰モデルを構築し、残りの200-n個を予測して誤差を評価する操作を、多数回繰り返せばよいと思います(モンテカルロ法)。しかし、今回のように多数のnについて調べる場合は、nに応じて200-nが変化する(検証用データの数が変わる)ために、よくないのではないかという漠然とした不安を感じます。はっきりと表現できず申し訳ありません。

関連するQ&A

  • 理論に基づいた回帰モデル作成の意味について

    あるデータから回帰モデルを構築し,別のデータを予測する場合,各変量間の関係が理論的にわかっている場合は,回帰モデルの形をデータだけで決めずに,理論的に決めたほうがよいと思います。ところが,どうして理論的に決めたほうがよいのかと聞かれると,うまく答えることが出来ません。 ご存知の方がいらっしゃいましたら,教えて頂ければ幸いです。 上記の抽象的な文では内容が伝わらない場合に備えて,長くなりますが下記に具体例を書かせていただきました。上記の文で足りる場合は,具体例は読んで頂かなくても結構です。 <具体例> 大気の薄いある惑星上で,ボールを真上に初速Vで発射し,落ちてくるまでの時間Tを測る実験を,100回行ったとします(あり得ない話ですが)。この実験によって,変量V,Tに関する大きさ100のデータが得られます。さて,このデータをもとに,VからTを予測する式を作る必要が生じたとします。 ニュートン力学に基づけばTはVと線形関係にあるはずですから,高校で物理を習った人は,T = αVという単回帰モデルを使うのが自然だと思います。これが,回帰モデルの形を理論に基づいて決めるアプローチです(アプローチ(1))。 一方,統計学を習いながらも物理を全く習っていない人は, T = αV^2 + βV のような多項式回帰モデルや, T = s(V) のようなノンパラメトリック回帰モデル(sは平滑化スプラインなど)を使うかもしれません。どれを使えばよいか判らない場合のモデル選択には,交差確認法などのモデル選択基準を用いることができます。これは,完全に統計的なアプローチと呼べると思います(アプローチ(2)) このような状況で,アプローチ(1)が(2)より優れていると私は何気なく思ってきたのですが,どうして優れているのか,わからなくなってしまいました。 モデルの新しいデータに対する予測誤差(汎化誤差)は(1)より(2)の場合のほうが小さくなることだってあると思うのです(例えば,空気抵抗があった場合や,実験誤差が正規分布しなかった場合)。また,アプローチ(2)についてまわる,回帰の際のデータに対する過剰適合(overfitting)の問題は,モデル選択基準を使うことである程度避けることができると理解しています。それでも,理論を利用することが優れているとすれば,どのような点においてでしょうか? よろしくお願い致します。

  • 自己回帰モデルと自己回帰移動平均モデルについて

    現在,自己回帰モデルと自己回帰移動平均モデルから パワースペクトル密度を導出する過程について勉強中なのですが いくつかわからないことがあるのでよろしければ教えてください (1)自己回帰モデルではユールウォーカ法により線形予測係数を求めたのですが この線形予測係数とは物理的な意味として何を表しているのでしょうか. パワースペクトル密度の導出するにあたって観測信号をいくつかの 振動成分(減衰正弦波?)に分解して解析を行っていることから この係数は振動を表すような値?を示していると考えていますがいまいち 納得できません. (2)自己回帰移動平均モデルでは高い次数のARモデルを低い次数で表現可能とあったのですが なぜそのように表現できるのでしょうか. ARモデルをARMAモデルに拡張する手法としてARモデルのインパルス応答を求めて それをProny法で近似してARMAモデルにしました もしよろしければよろしくお願いします

  • 自己回帰モデルと自己回帰移動平均モデルについて「

    現在,自己回帰モデルと自己回帰移動平均モデルから パワースペクトル密度を導出する過程について勉強中なのですが いくつかわからないことがあるのでよろしければ教えてください (1)自己回帰モデルではユールウォーカ法により線形予測係数を求めたのですが この線形予測係数とは物理的な意味として何を表しているのでしょうか. パワースペクトル密度の導出するにあたって観測信号をいくつかの 振動成分(減衰正弦波?)に分解して解析を行っていることから この係数は振動を表すような値?を示していると考えていますがいまいち 納得できません. (2)自己回帰移動平均モデルでは高い次数のARモデルを低い次数で表現可能とあったのですが なぜそのように表現できるのでしょうか. ARモデルをARMAモデルに拡張する手法としてARモデルのインパルス応答を求めて それをProny法で近似してARMAモデルにしました. もしよろしければよろしくお願いします

  • 単純回帰モデルの優位性検定

    大学の練習問題で出題された問題ですがなぜ説明変数の数が1になるのか理解できません。 「問題」  単純回帰モデル:y=a+bX+u の推定結果に基づいて、以下の問いに答えなさい。 (  )内の数字は上段が回帰係数の標準誤差、下段がt値を示しています。 ∧ Y=14.107+1.224X (1.863)(0.061)  R2(2乗)=0.9760 (7.751)(20.166)  n=12 という問題で解説が t検定の自由度はサンプルの数をn、説明変数の数をkとすると n-k-1=12-1-1=10 となっていてn=12は記載されているので理解できたのですが、k=1が分かりません。 何か計算によって出ているのでしょうか? 得意な方解答お待ちしています。

  • ロジスティック回帰モデルでの多変量の外れ値の検討法

    ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。 SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 この外れ値を除去する方法がわからないため書きこませて頂きました。 重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。 詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。

  • 周波数解析 FFTと自己回帰モデルについて

    いつもお世話になっています。 周波数解析で質問です。 十分なサンプリングレートで、十分な時間記録したデータを使う場合、自己回帰モデルを使った周波数解析は必要ないでしょうか。 現在、FFTを使ってあるデータの周波数解析をしていますが、ものの本によれば、そのデータを扱う場合は、FFTよりARモデルを使った周波数解析の方がよい、と書いてありました。しかし、サンプリングレートが細かすぎて、モデルの次数を決定するのも、妥当かどうか疑問が残ります。一般的に、MEMなどのARモデルを使った周波数解析は、周波数分解能の悪さを補うのが大きな目的ですか?

  • 回帰分析におけるデータの正規化の意味

    重回帰分析をプログラム作成することを考えています。 しかし、データの正規化について疑問が2つあります。 まず一つは、例えば、画像の解析をする場合にデータの正規化をすることは、 ノイズを除去したり、画像の向きを正しくすることを意味しますよね。 しかし、回帰分析においてデータの正規化をすることは何を意味しているのでしょうか? 画像のように見てイメージがわけばよいのですが、数値データなのでどういう意図があるのかよく分かりません。 2つ目の疑問です。 また、データを正規化して重回帰分析をしたとします。 ↓の重回帰分析を例に挙げます。 http://homepage2.nifty.com/crop_shimane-u/multipleregression_excel.htm この例では、入力として年平均気温、降水量、日照時間とし、出力を単収としています。 このときデータを正規化せずに解析し、次のような予測式を推定しています。  水稲単収=713.932-17.336×年平均気温+0.010666×降水量+0.017851×日照時間 ・・・ @ この場合に、正規化していないので新しいデータとして、例えば、  年平均気温=14.8、降水量=2431、日照時間=1721 ・・・ (*) から単収を推定したいとき、上記@の回帰式に代入することで単収を計算して推定できます。(1) しかし、データを正規化(平均が0、分散が1になるように)した場合、入力と出力のデータが0以上1以下の値しかとらなくなるので、 重回帰によって上記@のように予測式が得られてもその予測式の出力は0以上1以下の値しかとらないことになり、 新しいデータ(*)をそのまま予測式に代入しても正しい単収を推定できないのではないかと考えています。 この場合のように、データを正規化して得られた予測式で(1)のように正しく単収を推定するにはどうしたらよいのでしょうか? 長くなりましたが、回答よろしくお願いします。

  • 線形回帰について

    参考書に「線形回帰の標準偏差」という表記がありました。 これは線形回帰モデルの観測誤差εのことだと考えて良いのでしょうか?

  • 三角関数を含んだモデル式での回帰分析の方法を教えてください.

    実験データを, Y = A * TAN( 2 * PI() * X / B ) Y・・・目的変数 X・・・説明変数 A, B ・・・係数 TAN() ・・・タンジェント PI() ・・・円周率 というモデルの回帰式に当てはめたいと考えているのですが, A,Bの値をどのように求めればいいのかが,よく分かりません. 対数線形回帰分析のようにこのモデルを, Y = A * X + B といった線形モデルに変形することは可能なのでしょうか. 不可能な場合は,どのようにしてA,Bを求めればいいのでしょうか. 回帰分析に詳しい方,よろしくお願いします.

  • 重回帰モデルにおける総当り法について

    説明変数をA,B,Cとし、総当り法で変数選択してある重回帰モデルを作成する時に、総当り法の場合は説明変数の候補の数が3であるので,2^3-1=7個のモデルをすべて作成することになると思いますが、7つのモデルというのがよくわかりません。 分かりやすいように教えてもらえないでしょうか? よろしくお願いします。