• ベストアンサー

AIC(赤池情報量基準)について

統計学初心者です。ピント外れな質問だったら申し訳ありません。 ある医学データの解析で、AICを用いて変数選択を行いたいのですが、 1、AICというのはそもそも相対的な基準なのでしょうか?それとも絶対的な基準なのでしょうか? 2、もし絶対的基準だとしたら、どのくらいの値より小さくなれば、モデルに意味があるとみなされるのでしょうか? よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 パラメータの数を増減してみてAICが一番小さくなるようなモデルを選ぶ、という形で使いますね。ですが、AICは天下りの「基準」なんかじゃありません。「二つの確率密度関数P, Qのずれを測る尺度であるK-L情報量I(P,Q)に未知の定数Cを加えたものを、未知の確率密度関数Pに従うデータとモデルが与える確率密度関数Qについて、推定する」のがAICですので、本質的にはK-L情報量という尺度で測った得点を見ている訳です。ただしAICには定数Cの分だけ不定性がありますから、絶対尺度としては使えない。  「モデルに意味があるかどうか」はまた別の話で、それぞれの応用において「モデルに意味がある」という表現が何を意味しているのか、ということから考えないといけません。もちろん、機械的に判定するようなもんじゃありません。

関連するQ&A

  • AICについて教えてください

     線形自己回帰モデルの次数選択の指標となるAIC(赤池情報量基準)のもつ意味について教えて下さい。  

  • AIC、SBICについて

    VARモデル推定後、インパルス反応関数を計算したいのですが、ラグのとり方でAICの小さい物を選ぶというのは、 マイナスの値が出た場合は「絶対値」が小さいものでしょうか?それとも普通に値の小さいほうでしょうか? お願いします

  • AIC(赤池情報量規準)の導出過程

    現在AIC(赤池情報量規準)について勉強しています。 対数尤度/平均対数尤度/期待平均対数尤度 といった似た言葉が多く混乱しています。 以下の記述は私の理解を整理したものですが、おかしな点はあるでしょうか? ----------------------------------------------- 以下のように記号を定義する θ:未知のパラメータ θ*:真のパラメータ θ★:パラメータの最尤推定量 K:モデルの自由パラメータ数 対数尤度:l(θ) 平均対数尤度のn倍:l*(θ) 期待平均対数尤度:l'*(K) 統計モデルの良さを評価したいとき ●(K-L情報量)が小さい(0に近い)モデルほど良いモデル ↓ ●(K-L情報量)は (定数)-(平均対数尤度) で表されるので (平均対数尤度)が大きいほど良いモデル ↓ ●(平均対数尤度のn倍)が大きいほど良いモデル (∵nは標本数であり一定だから) ↓ ●(平均対数尤度のn倍)の不偏推定量である(対数尤度)が最大になるような未知のパラメーターθ★を求める。これが最尤推定値。 ↓ ●(平均対数尤度のn倍)に最尤推定値θ★を代入した、 l*(θ★)が大きいほど良いモデル ↓ ●l*(θ★)は、得られた標本 x_i (i=1,2,…,n) に依存する値 (∵最尤推定値θ★はx_iによって表される) なので、 l*(θ★)の x_i (i=1,2,…,n) についての期待値をとると これが(期待平均対数尤度) l*'(K) となり、この値が大きいほど良いモデル ↓ ●とはいえ、真のモデルが未知であるため、(期待平均対数尤度)は 実際には求められない ↓ ●(期待平均対数尤度)の不偏推定量である l(θ★)-K が大きいほど 良いモデル ↓ ●歴史的経緯により、l(θ★)-K を-2倍した値が、AIC(赤池情報量規準) であり、AICが小さいほど良いモデル 以上 ----------------------------------------------- ここまでで、どこかおかしなところはあるでしょうか? よろしくお願いします。

  • PLSのスケーリングにつきまして

    統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 非常に焦っております。どなたかご教授いただけますでしょうか。 どうぞ宜しくお願い申し上げます。

  • 統計解析の前処理につきまして

    統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 初歩的な質問とは思いますが、どなたかご教授いただけますでしょうか。 宜しくお願い申し上げます。

  • ロジスティック回帰分析のモデルのあてはまり具合の基準。

    SPSSを用いてロジスティック回帰分析で統計データを 処理しようとしています。 出力される結果のCox&Snell R2乗、Nagelkerke R2乗の 値が、統計に用いたデータのロジスティックモデルへ のあてはまり具合の指標であることはわかるのです が、これらの値がどの程度の値を基準として「モデル にあてはまっている」と言えるのかがわからなくて困 っています。 統計学の初心者で統計学の本を調べながらデータ処理 を進めているのですが、上記に示した内容についての 説明が載っていなかったためこれらの値をどう捉えて いいのかわからなくて困っています。 出来るだけ具体的な値を示して教えてくれるとありが たいです。どなたか参考になるようなCox&Snell R2 乗、Nagelkerke R2乗の基準値のようなものを教えてい ただけないでしょうか。よろしくお願いします。

  • 統計解析でのモデルに関する表現

    統計解析でのモデルに関する表現 モデルに変数や値を代入/導入/当てはめるといった表現が出てきますが、 この代入、導入、当てはめるはそれぞれ同じ意味なんでしょうか? それとも具体的に何か違うのでしょうか?

  • 赤池情報量基準AICとベイズ情報量基準BIC

    赤池情報量基準AICとベイズ情報量基準BIC シミュレーション実験ではBICの方が良い結果を与えると聞きますが、何故そうなるのか教えてください。 繰り返し誤差が存在しないことが原因でしょうか?

  •  統計の手法(多変量解析)についてSuggestionください。あまり

     統計の手法(多変量解析)についてSuggestionください。あまり詳しくないので、質問が正確ではないかもしれません。現在 サンプル数n=20-30人の解析をしています。それらの方々の解析因子のなかで、統計的に有意に単相関するパラメーターが2つあります。ここで、その相関する因子に一般的に影響を与える因子で補正したモデル式をつくり多変量解析をしたいと考えています。ひとつのモデル式のなかで、解析に加えられる因子はこの場合 多くても従属変数 3つまでと考えていますが、補正したい因子が5-6つある場合に 従属変数に2つ固定した因子(この場合、(1)証明したい変数 (2)年齢)にひとつずつこの補正したい因子を加えていき、4-5つのモデル式を構成して証明をするのはAcceptableでしょうか?

  • メタボリックシンドロームの基準について

    メタボリックシンドロームの「ウエスト 男性85センチ以上、女性90センチ以上」という基準について研究機関からいろいろ意見があるようですが、そもそもどうして絶対値で決めることができるのでしょうか? 具体的に数字を出したほうが分かりやすいからでしょうか? ウエストは身長が高い人のほうが低い人よりも平均的には太いですよね?単純に身長とウエストサイズが比例はしないですが、何か計算式で相対的な基準を設けるのが適していると思うのですが。