- ベストアンサー
最小二乗法とデータのばらつきを除去
実験データに最小二乗法を適用して近似関数(y=ax+b)を求めたいです。 しかし,実験データにはばらついた値があり,得られた近似関数も それらの値によって,おおきくずれてしまいます。 そこで,何らかの方法でばらついた値を排除していき, 信頼できる近似関数を求めたいと思います。 聞いたところ,正規分布か何らかの方法で, 信頼区間(95%)以外のデータを除去すれば良いと のことですが,具体的な方法が分かりません。 実験データyi,xiと最小二乗法でy(=a*xi+b)から どのような処理をすればよいのか教えてください。 よろしくお願いします。
- naetop
- お礼率62% (31/50)
- 数学・算数
- 回答数2
- ありがとう数2
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
> 信頼区間(95%)以外のデータを除去すれば良いと 回帰分析において独立変数と従属変数が正規分布に従うことは必須ではありませんので、変数そのものについて標準化した値の絶対値が1.96を超えるデータを除外するのは、そもそもその変数が正規分布に従うことを前提とできるのでなければ意味がありません。それに実験データという言い方から察するに、独立変数は制御されているのではないでしょうか。だとすればなおさら意味がありません。因みに「信頼区間」というのは推測統計量の標本分布に対する区間を指し、通常は変数そのものの分布に対する区間には使いません。 先ずは残差の検討を行ってください。残差の大きいデータについて、そのデータが本当に信頼できる測定値なのかを確認してください。その際「大きい」残差の判断には残差をその標準誤差で除した標準化残差tiをもちいます。 ti = (yi-yi~) / Se √(1-hi) ただし、従属変数の予測値 yi~=axi+b、残差平均平方和 Se^2=(1/(n-2))Σ(yi-y)^2、てこ比 hi=(1/n)+(xi-mx)^2/Σ(xi-mx)^2、独立変数の平均 mx=(1/n)Σxi、データ数 n、です。 標準化残差の絶対値が1.96を超えるデータというのが目安になるでしょう。そしてそれが測定ミスや記録ミスの可能性を含め、正しい条件で測定されたものかを確認し、もし正しい測定値なら安易に除外することは許されません。そのようなデータが多いとすれば、なにか測定値のばらつきを大きくする要因が実験に存在しないかを検討し、場合によっては実験方法自体を見直して精度を高くすることを考えることも必要です。データが得られた背景を考えずに数字だけをみて機械的にデータを外れ値として除外するのは統計の誤用です。
その他の回答 (1)
- kishiura
- ベストアンサー率21% (15/71)
理系大学4年です。 正規分布とは、確率密度関数が1/√(2π)・e^{(x^2)/2}で表される、データの分布状態を言います。 まず、x,yともに標準化します。x=(x-x平均)/σ 信頼区間95%ということは、片側の棄却域が2.5%なので、正規分布表より、α=0.025となるaの値は、a=1.96です。したがって、 標準化した値が-1.96以下、1.96以上となるデータをさくじょすればいいのです。
補足
有難うございます。 対象となるデータは,yiなのでしょうか それとも差分yi-yや,(yi-y)^2などを使うのでしょうか? よろしくお願いします。
関連するQ&A
- 円の最小二乗法の公式
いくつかのデータから最小二乗法で近似曲線を求めたいのですが、よくわかりません。そのデータ集の近似曲線は円になります。 最小二乗法を調べ、1次、2次関数についてはわかりました。ある点の座標を(x1,y1), (x2,y2)…、近似曲線上の座標を(x1,y’1),(x2,y’2)… とした時、 (y’1-y1)^2 + (y’2-y2)^2 … が最小となるような係数a,b などを偏微分 → 連立方程式で求めるという方法でした。 円についても、同様の方法で r^2 = (x-a)^2 + (y-b)^2 のような近似曲線の式が求められるのでしょうか?1次関数などのように、y’1-y1を求めようとすると、±√ が出てきてしまい、ややこしくなる気がしますが、これを解くしかないのでしょうか?もしくは別の解法があるのでしょうか?詳しく教えていただけたらと思います。よろしくお願いします。
- ベストアンサー
- 数学・算数
- 最小二乗法について
最小二乗法では二乗和の誤差 Σ[i=1~n]{Yi-(α+βXi )}^2 (iは添え字です) を最小化するα,βを推定することを考えますが、 これは単純にα,βで偏微分してそれを0とおいて 連立方程式を解くだけでよいのですか? といいますのも、2変数関数の極値を求める場合、 Hessianを計算して判別しますよね? ただ一階偏導関数が0になるからといって、 そこで極値をとるとは限らない気がしたので… それとも最小二乗法の場合は必ずとるようになっているのでしょうか? 手元の本には、 「この二乗和は非負値なので、αとβで偏微分したものを0とするα,βが上式を最小にする値である」 とあるのですが、一般に非負値だとこの ようなことが言えるのでしょうか?
- ベストアンサー
- 数学・算数
- 最小二乗法において
y=ax^2+bx=c とおいたとき、最小自乗法から a,b,cの値を求めるには?という問題で、 S=Σ(yi-(axi^2 + bxi + c))^2 とおき、 ∂S/∂a=-2Σxi^2(yi-(axi^2 + bxi + c)) ∂S/∂b=-2Σxi(yi-(axi^2 + bxi + c)) ∂S/∂c=-2Σ(yi-(axi^2 + bxi + c)) となり、 aΣxi^4 + bΣxi^3 + cΣxi^2 = Σxi^2yi aΣxi^3 + bΣxi^2 + cΣxi = Σxiyi aΣxi^2 + bΣxi + cΣ = Σyi というとこまでは出来たのですが、ここから先と誤差の求め方がわかりません。 初心者なので出来ればわかりやすく教えて下さい。
- ベストアンサー
- 物理学
- 最小二乗法の分散の求め方
http://oshiete1.goo.ne.jp/qa3077638.htmlに関連しての質問です。 例えば、y=Xβ+εに関して最小二乗解を求めると b = [ nΣ(xi yi) - (Σxi) (Σyi)]/[ nΣ(xi^2) - (Σxi)^2 ] となります。ここから分散を求めるためにはどうすればよいのでしょうか?教科書を引っ張ってみると求め方の行列の式しか書いていなくいまいちピンときません(確かに計算すれば正しい結果を得られるようですが)。具体的にこの式だけを使って分散を求めるということはできないのですか?
- 締切済み
- 数学・算数
- 最小二乗法の応用について
実験により、xに対するyの値をxの値をかえながら、N回測定した。測定したxに対するyの関係をグラフに描くと、次の二次関数で表現するのが適当であることがわかった。 y=ax*x+bx+c この時、最小二乗法によりパラメータa、b、cの値を求める式を導出せよ。という問題なのですが、どのようにしたら最小二乗法で求めることができるのですか? どうか教えてください
- 締切済み
- 数学・算数
- 最小二乗平面
ある複数の空間座標(x1,y1,z1)~(xn,yn,zn)(nは3以上)から、平面近似式である最小二乗平面の方程式を求める関数を作ろうと考えています。 平面方程式はz=ax+by+c(a,b,cが定数)であらわされ、引数を座標と座標個数n、戻り値をa,b,cにします。 ここ(http://oshiete1.goo.ne.jp/qa2802443.html)を参考に 最小二乗平面の連立方程式を解くコードを書いたのですが、 どうも答えが合いません。どなたかご教授願えないでしょうか? 開発環境はC++Builder2007です。 ↓の数式をコードにしましたが、コードが間違っているのか、 数式自体がダメなのかさっぱりわかりません。 //与えられるn個の3次元座標(xi,yi,zi)から平面方程式を求める //平面方程式:z = ax + by + c //最小二乗平面を求める連立方程式は下記のようになる。 // aΣxi^2 + bΣxiyi + cΣxi = Σxizi // aΣxiyi + bΣyi^2 + cΣyi = Σyizi // aΣxi + bΣyi + cn = Σzi //これを行列で解く // |Σxi^2 Σxiyi Σxi | |a| = |Σxizi| // |Σxiyi Σyi^2 Σyi | |b| = |Σyizi| // |Σxi Σyi n | |c| = |Σzi | //ここで // |Σxi^2 Σxiyi Σxi | // A = |Σxiyi Σyi^2 Σyi | // |Σxi Σyi n | // // |Σxizi| // B = |Σyizi| // |Σzi | // // |a| // C = |b| // |c| // //とすると // // C = B・A^-1 // //で求めることができる
- 締切済み
- C・C++・C#
補足
ご返信有難うございます。また,レスが遅くなりすみません。 独立変数は実験データと書きましたが,実験データをいろいろと計算して 求めたもので,そのものを制御することができず,ばらつきも多い状況です。 てこ比と中心にネットで調べましたが,詳しいところを 見つけれませんでした。参考書(ちょっとした大型本屋で購入できる)などをご紹介いただければ幸いです。 ちなみに,今回統計学を勉強しようと購入したキーポイント確率統計では, てこ比などの記述はありませんでした。 重回帰分析という分野になるのでしょうか。 よろしくお願いいたします。