- 締切済み
正規分布へのfitting
ある実験データがあり、正規分布に近い形をしています。しかし近いとはいえ、少々ズレているため分散と平均値を求め正規分布の曲線を実験データに重ねて描くと、、、なぜか大幅にずれてます。原因は、平均から大きく離れたところにデータが少ないとはいえポツポツとあり、分散が大きくなるからです(平均値はほぼ正しい値と思われます)。 分散を求める際に正規分布おかまいなく求めるため過大になるのかと思い、正規分布にfittingしようと考えました。つまり最小二乗法により実験データに近い正規分布を求め、分散を求めるのです。 この方法は意味ありますか?おそらく太古の昔から用いられてるような誰でも思い付く方法と思いますが。。。また、実際に計算する場合、エクセル等で関数は用意されてますか?それともlogを取り2次関数に展開しfittingする必要がありますか?
- pas_001
- お礼率85% (12/14)
- 数学・算数
- 回答数6
- ありがとう数6
- みんなの回答 (6)
- 専門家の回答
みんなの回答
- stomachman
- ベストアンサー率57% (1014/1775)
> 正規分布にフィッティング 「(データを)正規分布にフィッティングする」という表現は意味をなしていません。強いて解釈するなら「正規分布に従うようなウソのデータを作為的にでっち上げる」というほどの意味になるでしょうか。 さて、ご質問が、「データの散布図に正規分布をフィッティングする」という話なのだとすると、その操作は統計学的・確率論的に解釈しようがなく、まるでナンセンスです。 しかし「データの分布に正規分布をフィッティングする」ということ、あるいは、「データの散布図にガウス曲線をフィッティングする」ということなら意味があります。両者は全く別の話であって、前者は、データの(散布図ではなく)度数分布図を描いておいて、これにガウス曲線をフィッティングすることによって、データの分布を正規分布で近似する、という意味です。また、後者は確率分布とは何の関係もなくて、単に散布図をある曲線で近似する。その曲線がたまたまガウス曲線である、ということです。 なので、ご質問はおそらくこのどちらかではないかと思います。 ●前者の場合、具体的にやることはただデータの平均と分散を計算するだけ。結果として得られた正規分布が度数分布図の形とまるで似ていないのなら、そのフィッティングは無理である。つまり、「データは正規分布とは異なる分布に従っている」ということを意味しています。 ●また、後者、すなわち、ある実験データ(x[i], y[i]) (i=1,2,...., N)があり、その散布図が正規分布の曲線(ガウス曲線)近い形をしている。そこで、データにガウス曲線 f(x, a, b, c, d) = a exp(-((x-b)/c)^2) をフィッティングしたい、すなわち、fの定数a, b, cを適当に調節して、 f(x[i], a, b, c,) ≒ y[i] となるようにしたい、というお尋ねであるなら、たとえば「非線形最小二乗法」というやりかたで数値計算を行えば「ある意味で最適な」a, b, cを算出することができます。この場合、曲線fが散布図上の点(x[i],[y[i])の近くを通るようにするのであって、曲線fは確率とは関係ないのだから、当然、分散だの平均だのも全く関係ありません。
- Ishiwara
- ベストアンサー率24% (462/1914)
fitting(適合)の可否は、常に常識的なものです。あるパラメータが幾つ以上であれば「可」という指標は一般的には存在しません。
お礼
ありがとうございます。 それはそうです。ただ、自分の仕事分野において常識的な範囲というのは存在します。
- eclipse2maven
- ベストアンサー率32% (33/101)
なんか、やたら標準化すればいいような話なってますが、違うと思います。 問題は何をしらべたいか? そのために、どういう仮定を置くかということで、正規分布なんて、理想的なものに、世の中がそうなってるわけがない。 大事なのは、何をいいたいか? どういう主張をするかです。それによっては、正規性を必要としない議論もあるわけです。 逆になんでも標準化は感心しません。これはデータ自身の情報を損ねます。 まず、なにを言いたいのか? なにを法則として主張するのか? それが大事です。
お礼
ありがとうございます。 使用者の意志が大きく介在するのですね。
- xexstyle
- ベストアンサー率72% (72/99)
実験データを標準化し、それが標準正規分布に従っているか、どうかを見た方がいいんじゃないでしょうか? 「分散が大きくなるからです」とおっしゃっているということは標準化されていませんよね? 標準化するとは、実験データを平均μ=ゼロ、標準偏差σ=1の枠にあてはめることです。 それには各実験データを、(実験データ -μ)÷σという式に入れます。 これはExcelならSTANDARDIZE関数で計算できます。 それによって得られる値の分布が、標準正規分布(μ=ゼロ,σ=1)にどれくらい似ているか検証すればいいのだと思います。
お礼
ありがとうございます。 標準化してません。そのまま比較するのと比べて何か違いがあるのでしょうか?
外れ値が存在することによりうまく推定できないのであれば、ロバスト(頑健)な方法、例えば、平均値と分散ではなく中央値と四分位範囲/ 1.34898を使ってみては如何でしょうか?
お礼
ありがとうございます。 自分の中で使うならいいのですが、結果は他人に見せるので違う方法はあまり使いにくいです。
- ShowMeHow
- ベストアンサー率28% (1424/5027)
論理的にある正規分布になるべきだとされているものを証明するための実験であれば、あまり意味は見出せないね。 逆に、偏差が小さくなる正規分布にfitする論理的理由を見つけ出すために行うのであれば、行っても良いのかもしれないね。 除外してしまいたいデータがあるんだろうけど、除外する正当な理由を見つけ出すことができないってことだとすると、無理にfitする必要はないかもしれないね。 何のための実験で、どのような結論を期待しているかによるということだね。
お礼
ありがとうございます。 正規分布の証明ではなく、正規分布であることが前提です。しかし描かせるとズレが大きい、分散が誤ってるのではないか?分散が大きい理由が、分散の計算方法が正規分布を前提にしてないためではないか?と思ったのです。 無理にfitする必要がないのはどうしてでしょうか。
関連するQ&A
- 正規分布の問題
大学院進学のために院試の過去問を解いています。 その中で正規分布の問題があり、私の通っていた大学ではここまでは勉強していなかったために 解き方が全く分かりません。 大学の先生に聞いてみても良いかと思いましたが、その先生とは全くといって良いほど接点がなく、また、違う大学の院試なので聞いても教えてくれません。 自分で調べるとしても他の部分の勉強のためにこの問題を解くのに時間がありません・・・ 分かる方がいれば教えてもらないでしょうか? ------------------------------------------ 平均μ(ミュー、マイクロとも)、分散σ^2(シグマ二乗)の正規分布N(μ σ^2)から独立に抽出されたn個の標本平均をXとする。 問1 母分散σ^2が既知の場合、母平均μの信頼度100(1-α)%の信頼区間を求めよ。但し、有意水準α、標準正規分布の上側確率が100(α/2)%となる点の値をZ(α/2)とする。 問2 測定値は母分散がσ^2=0.04の正規分布に従うとする。母平均μの信頼度95%での標本誤差を0.1以下にしたいとき、最小限必要な標本の大きさnを求めよ。但し、標準正規分布の上側確率が2.5%となる点の値Z(0.025)は1.96である。 ------------------------------------------- 宜しくお願いします。
- ベストアンサー
- 数学・算数
- ベータ分布の正規分布近似について
二項分布やガンマ分布の正規分布近似は成書によく記載されています。そこで二項分布の仲間であるベータ分布Be(a,b)を正規近似してみようと思いました。 Be(a,b)の平均であるa/(a+b)、分散ab/((a+b)^2*(a+b+1))をそのまま用いN(a/(a+b)、ab/((a+b)^2*(a+b+1)))としたらどうかと思いグラフで見たところ、なるほどa,bがそれぞれ8,9以上になると、モードと平均の差が殆ど無くなり左右対称の釣鐘型に見えてきます。どうやらa,bが大きくなれば正規分布に近づいていきそうだというのはうすうす分かるのですが、このやり方では感覚的に過ぎるのではないかとも思いました。何かスターリングの公式のような近似か、極限を用いて数式的証明をするべきなのでしょうか?それとも実際に色々なa,bの値のもとでグラフ曲線を描き、一々正規曲線を当てはめてみるべきなのでしょうか?それとも二項分布の逆正弦変換のように何かデータを変換させるとかいう方法があるのでしょうか、どうかお教え願います。
- ベストアンサー
- 数学・算数
- 正規分布について教えてください!
皆さん助けてください! 宿題として、 ************** ある変数xについて x~N(μ,σ^2) この時、標準化(z=x-μ/σ)後のZの分布の平均値と分散を算出せよ。なお、データはnとする ************** というものが出ました。つまり、標準正規分布のN(0,1)を導けというのです。インターネットで調べて、答えが平均値(μ)=0,分散(σ^2)=1であることは分かったのですが、それを導き出すまでの途中式が分かりません…。 統計学が得意な方どうかよろしくお願いいたします!
- ベストアンサー
- 数学・算数
- 正規化された確率分布を合成する方法について
正規化されたガンマ分布が二つあった場合に、これを合成する方法がないか探しているのですが、どうにもわからないので質問させていただきました。 標準分布の場合には、分散σの二乗和の平方根をとることで、合成後の分散を得ることができると思うのですが、ガンマ分布の場合は、何かいい手段はあるのでしょうか・・・? 宜しくお願いいたします。
- ベストアンサー
- 数学・算数
- 正規分布の発生の仕方
正規分布の発生の仕方について悩んでいます。 正規分布に従った平均と分散が違う乱数を独立に複数発生させて、 発生させた乱数を全て合わせるとそれも正規分布に従っているというものを作りたいのですがいい方法知っている方いらっしゃるでしょうか? これがものすごく必要で困っています。。。 よろしくお願いします。
- 締切済み
- 数学・算数
- データのヒストグラムに、特定の分布関数を当てはめる意味について。
データ解析で、度数分布表をヒストグラムにした後、正規分布などの関数でフィッティングした曲線を、そのヒストグラムに付け加えた図をよく見ます。 1. 何故、ヒストグラムを特定の分布関数でフィッティングするんでしょうか?分布関数に含まれる、平均や分散などの値を求めるためでしょうか?それとも、得られたヒストグラムが、特定の分布に従っていることを主張するためでしょうか? 2. また、ヒストグラムに、フィッティングして得られた曲線を付け加えて、学会のポスターや論文の図にしているのは、そうした方が見やすいためでしょうか?または、本来はそのような連続的な曲線になっていると予想されるが、実際のデータは離散的であるので、理想的な曲線を付加しているという意味でしょうか? 自分で考えただけで、人には聞いたことがなく、思い違いしているかもしれないので、回答お願いします。
- ベストアンサー
- 物理学
お礼
ありがとうございます。 前者の方法でうまくいきませんでした。 前者の目的で後者の操作をしても無意味なのは何故なのでしょうか?