• ベストアンサー

ロバスト推定に関する質問

http://www.ism.ac.jp/~fujisawa/research/robust.html ここのページに、 データが発生している中心部分から大きく外れているようなデータを「外れ値」と言います.外れ値は,もちろんタイプミスに限らず,大きなノイズがある場合や,観測状況に一時的な大きな変化があった場合などにも観測されます.このような外れ値がデータに混じっていたとしても妥当なパラメータ推定を行うことができる推定をロバスト推定と言います.(ロバスト推定には他の意味もありますが,ここではこの意味に絞ります.) と書かれているのですが、「他の意味」というのは何のことなのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

推定値に関する「統計」です。あくまで安定で分散の小さな推定値を得る意味です。最小二乗法に限らず、最尤法その他の推定法でも良い推定値を得るために使われる技術です。あるいは特定の問題で特に良い推定を与える方法をロバストであると言ったりもします。 「安定」で「分散が小さい」ということの意味ですが、繰り返された多数の独立な測定の組があるとき、各組から得られた推定値の分布の分散が小さくて真値に近く、真値から大きく外れた裾を引かない、という意味です。 非線型とはあてはめるべき実験式が推定するべきパラメータに関する一次式で表せないものを言います。例えば y = asin(bx) はパラメータ b について非線型です。測定値 y が正規分布をしてもパラメータの推定値は非正規分布になります。また、線型な実験式 y = a+bx であっても測定値 y が長い裾を引いた非正規分布であるような場合(例、コーシー分布 f(y)=(Γ/π)/(Γ^2+(y-y0)^2) など)もあります。いずれも通常の最小二乗法や最尤法で推定すると、推定値の分散が大きくなってしまい、ロバスト推定法が有効です。 一般に非線形な場合は測定値と推定値の両方が正規分布になることはありません。例えば y = ae^(bx) (y>0)は対数をとると log(y) = log(a) + bx となり、パラメータ log(a)と b について線型な式に変換できますが、y が(片側)正規分布に従っても log(y) は非正規分布です。正確には正規分布の確率密度関数をg(y)としたとき、log(y)の確率密度関数 f(log(y))は、 f(z)=g(y)(dy/dz) (z=log(y)) で表されます。 逆に非正規分布の測定値は正規分布に従う確率変数に変換できますが、そのとき実験式はパラメータについて非線形になります。非正規分布であり従って非線型と言う場合はそのような意味です。 非線型な推定法に関しての書籍はたくさんあります。ロバスト推定については詳しくないので一般的な解説書は知りませんし、一般的な理論が発達しているかどうかわかりません。個々の技術については例えば最小二乗法について実用的で詳細な解説書として「最小二乗法による実験データ解析、プログラムSALS」UP応用数学選書、東京大学出版会、の中で具体的なロバスト推定法が記載されています。

その他の回答 (1)

回答No.1

外れ値というのは測定値への外乱がある場合ですが、ロバスト推定は確率分布が本質的に非正規分布(従って非線型)の場合にも有効に活用できることがあります。その意味だと思われます。

myumyu1234
質問者

お礼

ありがとうございます。 よく分からないのですが、つまりロバスト推定とは ・外れ値があった場合にも妥当な統計をとることが出来る ・線形分布をとらなかった場合でも妥当な統計をとることが出来る ということなのでしょうか? 2つめの部分なのですが、非正規分布(従って非線型)というのは 通常y = a + b*x + ε εはランダム関数 と書きますが、これが y = (a + b*x + ε) + (a + b*x + ε)^2+ (a + b*x + ε)^3 のようになるということを指しているのでしょうか? 検索してみるとトランジスタなどの非線形素子の特性は非線形であるため非正規分布となる、と書かれているのですが、そういうものなのでしょうか? 手元にある統計学の本には非線型のことに関して何も言及されていません。 詳しく書かれている書籍などがありましたら教えて下さい。

関連するQ&A

  • 非線形回帰式のパラメータ推定について

    あるデータの予測値がこの関数に当てはまると考え 関数のa,b,y∞のパラメータを推定したいと考えています. そこで実値と予測値の誤差から,最小2乗法を用いてのパラメータ推定は行いました. が,初期値に依存することから,別のパラメータ推定を考えています. そこで最尤法を用いたいと考えているのですが,この場合どのような確率密度関数になりますか. その後パラメータで偏微分を行い,ニュートン法により最適解を求めたいと考えています. こちらの方法も初期値に依存することは理解していますが, 文献より最尤法の初期値は最小2乗法で求めた値を使用しようと考えています. 要はこの場合,最尤法でパラメータ推定はできるのか. どのような手順で行うのか. 最小2乗法と何が違うのか. の回答をよろしくお願いします. また,似たようなことを行っている文献紹介などもしていただけると嬉しいです. 式は,添付ファイルにて.

  • 最尤推定量

    ベルヌーイ試行のときに、r回目の試行で初めて成功する確率は幾何分布で与えられる。成功したら次の回に移る実験をn回行った結果、実験iではri回目(i=1,2,...,n)の試行で初めて成功というデータが得られた。このデータを用いて幾何分布のパラメタ最尤推定量をもとめよ。 ベルヌーイ試行とはナンですか? そしてこの問題は何を意味しているのか? 最後に求最尤推定量とはどうすれば求められるのか? 私にはこの問題がさっぱりわかりませんでした。どなたかわかりやすく教えてください。お願いします。

  • 計量経済学の質問です

    単回帰モデル 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑢𝑖 を、次のデータを使って推定する。𝑌𝑖 は被説明変数、𝑋𝑖 は説明変数、𝛽0, 𝛽1 はパラメータ、𝑢𝑖 = 0 は誤差項である。 𝑥 : −2, −1, 0, 1, 2 𝑦 : −4, −2, 3, 1, 2 この時最小 2 乗法にを使って 𝛽0 と 𝛽1 の推定値 𝛽ˆ0 と 𝛽ˆ1 を求めた場合パラメータはどのようになりますか?

  • ガウス分布に対するベイズ推定

    計算・演算が苦手で嫌いな理系大学生です. 質題にもありますが,ガウス分布に対するベイズ推定の計算がほとんど分らない状態で困っているので,この場をお借りして質問させていただきました. 問題は以下の通りです. p(x|u)=N(x|u,b^-1) D={x_1,x_2,・・・,x_N} :観測データ集合 p(u)=N(u|m,a^-1) :uの事前分布 uは未知パラメータ,b,aは精度,m,uは平均,Nはガウス分布とする. このときのベイズ推定でパラメータ推定分布p(u|D)と推定分布p(x|D)を求めよ というものですが,計算が複雑で計算力もないため答えが求まりません. ちなみに答えは p(u|D)=N(u|Um,g^-1) Um=1/(N+λ)*(Σ^N_n=1*x_n+λ*m) g=a+N*b p(x|D)=N(x|Um,a^-1+b^-1) となるらしいです. この計算ができる方にご回答いただけたら幸いです. 詳細な説明もできるだけ含みで,ご回答よろしくお願い致します.

  • 偏微分方程式の逆解析について

    偏微分方程式がすべて分かっていて、ある境界条件の下に解を求めるという順解析の逆、すなわち答え(解)が実験などによって分かっていて偏微分方程式の未知パラメータを推定するということを考えます。偏微分方程式の微分の各項を実験データから評価して、未知パラメータを推定することはできると思います。パラメータ1個乃至2個に対して実験データは数十から数百ぐらいあるとしたら、推定するパラメータの具体的な値も数百出てくると思われます。その中で最も妥当な方法を推定するのが逆解析というものなのでしょうか。 具体的には1次元の拡散方程式のようなものであり、拡散係数が未知だとします。拡散方程式の各項を時空間の各点で推定することができますが、その中から最適なものを選んで推定するのが逆解析なのでしょうか。射影とか集合とか線形代数を駆使するようで、上記の方法はイージーすぎるようにも思うのですが。1次元の拡散方程式に対応した実験から拡散方程式の拡散係数を妥当に求めるにはどうしたらいいでしょうか。

  • 二項分布のパラメータ推定の信頼度について

    確率は全くの初心者ですので,記載にミスがあるかもしれません. n回コイントスをしたとき,そのすべてで表となったコインがあったとします.このデータからコインの性質を調べた際に,どれだけの推定誤差と信頼度でこのコインは表しか出ないということができるでしょうか? 二項分布のパラメータ推定問題としてとらえると, 確率pで1,(1-p)で0となる試行に対して,n回すべて1となった時の,pの推定値の誤差と信頼区間を求めたいです. 100回中48回表だった際の~などの場合は分散をnp(1-p)のように標本分散で近似して計算すればいいと思うのですが,100回中100回だと標本分散が0になってしまって,どのように計算すればよいのかわかりません. もしかしたら計算に何らかの仮定を置かないといけないのかもしれません. 確率に全く知識がないので,もし分かる方がいましたら,丁寧に教えていただけると幸いです.

  • 関数のパラメータ推定について

    http://bekkoame.okwave.jp/qa2595561.htmlで質問させて頂いた者です。 y = γ / (1 + exp(α + β * x))という関数において,パラメータγ,α,βを推定したいのですが,初期値の設定がうまくいかなくて困っております。要するに初期値の探し方を教えて欲しいのです。 この関数からγ / y -1 = exp(α - β * x)という式が導けます。ここで両辺の自然対数をとると, log(γ / y - 1) = α - β * x となります。ここでY = log(γ / y - 1)とするとY = α - β * xとなって,これは線形モデルなので最小二乗法によって簡単にαとβの値が求められます。今回の場合だと得られているデータは, x=[54,57,60,63,66,69,72] y=[0,1,2,5,8,9,10] なので,とりあえずγ=11と仮定して計算すると結局は Y = [*, 2.30, 1.50, 0.18, -0.98, -1.50, -2.30] となります(*はうまく計算できないので無視)。最終的にYのデータからY(ハット) = -0.949 * x + 3.1883という式が得られます。以前の質問でも補足しましたが,Rというデータ解析用のソフトウェアを使うと, nls(y ~ gamma / ( 1 + exp(alpha + beta * x)),start = c(gamma = 11,alpha = 3.1883,beta = -0.949)) とするのですが,これは要するにy ~ gamma / ( 1 + exp(alpha + beta * x))の部分がモデル式,start = c(gamma = 11,alpha = 3.1883,beta = -0.949)の部分が初期値を設定する部分です。yとxという変数には上に記したように得られたデータがベクトルとして格納されています。 以上,説明が長くなってしまいましたが,今回のようにx=[54,57,60,63,66,69,72]となっていると,初期値が悪いとのエラーが出て計算ができません。これをx=[1,2,3,4,5,6,7]としてやるとうまくいきます。だから平行移動させるために前回のような質問をしたのですが、、、(ちょっと文字数に制限があるので意味不明だったら補足します)

  • ロジスティック回帰モデルでの多変量の外れ値の検討法

    ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。 SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。 この外れ値を除去する方法がわからないため書きこませて頂きました。 重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。 詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。

  • 統計学に関する質問です。

    統計学に関する質問です。 1.統計書で「正規分布する母集団から独立に得たX1、X2、…Xn」という記載がありますが、ここでの「独立に得た」は具体的にどういう意味でしょうか? 2.『Q&Aで知る統計データ解析』という本に「測定値の独立性」に関する記載があり、「同じ被験者の反応が同一条件下で反復して測定される」場合、「観測値は独立とはいえない」といった解説がありました。この「観測値の独立性」とは具体的にどういう意味でしょうか?単一事例からベースラインをとり、その後介入期を設けて、それぞれから得た観測値を検定にかけることは統計誤用でしょうか? 以上、宜しくお願い致します。

  • 平均値、標準偏差、幾何平均、幾何標準偏差の推定

    数学素人でさっぱり意味が分かりません。 分布なのですが、一部書き込みます。 A  累積分布  確率密度 1   0.0009329 0.0009329 2  0.0012776 0.0003447 4  0.0023306 0.0010530 6  0.0040988 0.0017682 8  0.0069518 0.0028531 10  0.0113821 0.0044303 ~   ~     ~ 28  0.4085144 0.0898605 30  0.5000000 0.0914856 32  0.5882070 0.0882027 ~   ~     ~ 68  0.9995101 0.0002532 70  0.9996741 0.0001640 80  0.9999535 0.0002795 100 0.9999989 000000453 Aを正規分布で近似した場合、平均値と標準偏差の推定 Aを対数正規分布で近似した場合、幾何平均と幾何標準偏差の推定 エクセルにデータ入れて計算しようとしてるのですが、方法が分かりません。どのように計算すれば良いのでしょうか?全く知識ないのですみませんが御教授してください。(何か計算に足りない物があれば指摘下さい)