計量経済分析のデータ欠損によるサンプル数の問題と処理方法

このQ&Aのポイント
  • 計量経済分析において、データ欠損によるサンプル数の問題が発生しました。
  • 具体的には、回帰分析の説明変数である「年齢」に欠損があるため、サンプル数が減少してしまい、データの効率的な利用ができない状況です。
  • 欠損している「年齢」については、他の情報が揃っている場合には、不完全ながらもデータを利用することができます。
回答を見る
  • ベストアンサー

計量経済分析の質問(説明変数の欠損によるサンプル数

Stataを使った計量分析をしています。 ある基本となるデータシートAに、追加的に別のシート(B, C, D, ...)をjoinbyコードを使って接合しながら分析をしています。 サンプル数を仮に1,000とします。 基本となるデータシートAには、世帯ID、個人ID、性別の3種類の情報が入っているとします。 世帯ID  個人ID  性別 1     1     1      (1人目) 1     2     2     (2人目) 1     3     1      (3人目) 2     1     1     (4人目) ・ ・ 250     4     1      (1,000人目) これとデータBをjoin byコードを使って接合するとします。データBには、世帯IDと個人ID、年齢、最終学歴年数が入っているとします。世帯IDと個人IDを使ってjoinするとします。(join by hhid personid データ名) ただし、年齢には欠損値があって、仮に250人の年齢は欠損しているとします。教育は1,000人分あるとします。 世帯ID  個人ID  性別  年齢  教育 1     1     1     45     10     (1人目) 1     2     2     #     7     (2人目) 1     3     1     12     5     (3人目) 2     1     1     39     8     (4人目) ・ ・ 250     4     1     #     6     (1,000人目) つまり、世帯1個人2さんのように欠損している(#マーク)人が250人と考えます。 もしここで教育年数を、年齢と性別で説明する回帰モデルを考えたとします。 Y=a+b(年齢)+c(性別)+u そうすると、説明変数の「性別」と被説明変数の「教育」は1,000人フルにあるのに対し、説明変数の「年齢」は750人しかいないために、この回帰分析はn=750になり、250人分のデータが使えずに死んでしまい、データを非効率に使っていることになります。 もし、「年齢」が欠損が250人いたとしても、それ以外の情報はそろっているとしたら、不完全ながらもその250人を回帰分析に使い、サンプルnを1,000人のままにしたいと考えます。 このような場合、年齢についてはどのような処理をしたらいいでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • takurinta
  • ベストアンサー率71% (64/90)
回答No.1

欠測値に適当な値を代入して完全データにする、という手法があることはありますが、あまりにmissingが多すぎるので個人的には勧めたくはないですね。 missing data regressionなどというキーワードを使うといろいろ出てきます。 参考URLも見てください。Multiple Imputationは最近はSASのような統計ソフトでも実装されている手法で、その意味では多重代入法は実用化されていると考えても良いとは思いますが、欠測がランダムであるか、など事前の検討は欠かせません。 MCAR (Missing Completely At Random), MAR (Missing At Random) などの言葉もキーにして調べると良いと思います。

参考URL:
http://en.wikipedia.org/wiki/Imputation_(statistics)

関連するQ&A

  • おしえて!重回帰分析の独立変数(説明変数)

    重回帰分析の目的変数が、(A+B+C+D)というものとします。 A~Dは、数量データです。 説明変数にAやBなどが入っていたら、それはダメですか? 説明変数X(Aとか)が目的変数Y(A+B+C+D)の一部の構成要素だったら、Xを使って重回帰分析はやったらダメなのですか?

  • 回帰分析の説明変数

    回帰分析を行っています。 説明変数を設定する際に、分析対象の財務諸表から得られるそのままの数値ではなく、増加率に加工して回帰分析しています。 なぜ、この加工を施したかということを説明しなくてはなりません。 どこかで、そのままの数値を使用しない方がいいとうことを書いてあるのを読んでそのような加工を施したのですがらどこで読んだかを忘れてしまいました。 合理的な説明をしなくてはならないため、とても困っています。どなたか助けていたただけないでしょうか。よろしくお願いいたします。

  • 重回帰分析の変数についての疑問

    重回帰分析を行いたいのですが、説明変数(独立変数)に性別などの2択の変数があります。 目的変数(従属変数)は、完全な数量データなのですが、、、、 説明変数も数量データでなければならないのですよね??? しかし、過去の論文などを参考に見ていたら独立変数に性別があり、男=1、女=0とか書いてあるのです。。。 それでいいの? 多変量解析の初心者なので、変な質問かもしれません。 目的変数=(標準偏回帰係数)*説明変数1+(標準偏回帰係数)*説明変数2+・・・+定数 の回帰方程式ですよね。 あと、それぞれの標準偏回帰係数の横にt値や有意確率が算出されますが、これは何? あと、論文の表記のやり方として何をどう記せばいいのですか? 独立変数 標準偏回帰係数をそれぞれ縦に記して、RやR^2を最後の行に記せばいいの? tや有意確率も記すの?というか、これは何? 色々とわからないのですが、どれか一つでも答えをお願いします。 教えてください。

  • 回帰分析の目的変数と説明変数の組み合わせの例

    経済統計学の夏休みの課題で統計局の時系列データを使い、回帰分析をするというのが出たんですが、目的変数と説明変数の組み合わせ方がわかりません。 使うデータは目的変数も説明変数も比率のものを使えということなのですが、どういう風にくみあわせたらいいのかわかりません。 何か良い例があれば、教えてください。 ちなみに目的変数は離婚率か完全失業率を使おうと思っています。

  • ダミー変数だけによる重回帰分析

    被説明変数は連続変数、説明変数はすべてダミー変数、という重回帰分析を行う際に何か注意することはあるのでしょうか。あるいはこうした場合は単純な重回帰分析は使うべきでないのでしょうか。

  • 重回帰分析での説明変数

    重回帰分析で説明変数が、例えば5因子あったとします。 通常は、重回帰分析した後に、有意な因子(目的変数に対して効果のある因子)を例えばF>2等の基準でもって、抽出すると思いますが、 これら説明変数のがMKSA(mg、um、sec等)の次元が異なる場合、同じ基準で有意な因子が抽出できるのでしょうか?  例えば、同じ次元であっても、cmとmmの因子を混在させては、平方和計算から異なってくるので、同じ基準で有意な因子は抽出できないですよね? もし、出来るのであれば、証明するにはどうしたらよいですか?  よろしくお願いします。

  • 計量経済学の質問です

    単回帰モデル 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑢𝑖 を、次のデータを使って推定する。𝑌𝑖 は被説明変数、𝑋𝑖 は説明変数、𝛽0, 𝛽1 はパラメータ、𝑢𝑖 = 0 は誤差項である。 𝑥 : −2, −1, 0, 1, 2 𝑦 : −4, −2, 3, 1, 2 この時最小 2 乗法にを使って 𝛽0 と 𝛽1 の推定値 𝛽ˆ0 と 𝛽ˆ1 を求めた場合パラメータはどのようになりますか?

  • 重回帰分析におけるP値とデータ数の関係について

    レポートで重回帰分析を用いた実証分析を行っているのですが、重回帰分析に関しての質問があります。 内容としては、企業のコスト構造に一定の費用関数を推定し、コストを被説明変数、その他の説明変数を複数推定して、そのパラメーター(2~3つ)を重回帰分析で求めるもの内容となっています。 財務データを年代順に収集し、上記の分析方法で計測したところ、分析結果(推定式)のR2はデータ量が増加しても良好に推移しています。 ところが、複数ある説明変数の一部のP値が、1%⇒5%⇒10%・・・と、どんどん大きくなってしまい、説明変数として有意でなくなってしまいました。 【質問1】 データ量の増加とともにP値が大きくなるのは、データ量の増加に伴い推定式における当該説明変数の説明力が減少した(有力な説明変数でなくなっている)、という理解でよいのでしょうか? 【質問2】 P値の説明力を維持する(P値が大きくならないようにする)方法はあるのでしょうか? 以上です。 知識のある方には愚問かも知れませんが、何卒よろしくご回答をお願い致します。

  • 重回帰分析実行時の、説明変数のデータ不足について..

    EXCEL2000の分析ツールで、回帰分析をしてみたところ、 次のようなエラーが出てしまいます. 回帰分析LINEST関数エラー 入力の範囲をチェックしてください. Xの範囲に数字が入力されてない(未入力)ところがあるためではないか、 と思うのですが、よくわかりません. 市販のソフトでは、データが入力されてない場合でも計算してくれるようなものもあるそうなのですが、EXCELの分析ツールで重回帰分析をするには、説明変数に空欄があると計算してくれないのでしょうか? 空欄があっても計算する方法をどなたか教えてください! 専門的な知識は殆どありませんので、簡単にお願いします.

  • サンプル数が大きく異なる分散分析について

     大学の統計の講義で勉強しています。分散分析で少し疑問があったので質問させてください。  練習用のデータでは、幸福度に関する調査で、量的変数として1~10の段階評価の幸福度があり、質的変数は幾つかあったのですが、自分はその中から、年齢(20代/50代)と喫煙の有無の2種類を選びました。  このデータから2要因の被験者間分散分析を行い、喫煙の有無(有/無)と被験者の年齢段階(20代/50代)と、その組み合わせの効果によって幸福度の平均値に差がでるかということを調査してみようと考えました。  しかし調べてみると、20代の喫煙有り/無しが(12/95)。50代では (15/90)とサンプル数が大きく異なっています。  このようなケースで分散分析を行った結果は、信頼できるものといえるのでしょうか?また、言えない場合はどのように調整すればいいのでしょうか。データ数を揃えるために、多い方のデータから無作為抽出を行って必要な分だけデータを取り出してしまったりしていいんでしょうか?  よろしくお願いします。