• 締切済み

分布形の決定と確率密度関数の算出

こんにちは。 統計について質問させていただきます。 10,000個のデータ(平均値5.4E-05、標準偏差2.5E-04)を ヒストグラムに変換したところ、その分布形が対数正規分布とみなせそうです。 そこで、ks検定で分布形の推定を行っているのですが、ヒストグラムに対応しそうな 確率密度関数(pdf)と累積分布関数(cdf)の算出が分からず困っております。 ここ何日か、書籍やネットなどで調べてみたものの、何度やってもうまくいきません・・・。 ヒストグラムのデータ区間が小さすぎるのが問題ではないかと考えておりますが。 恥ずかしながら、統計学に関してはあまり学んだことがありませんので、 言葉足らで分かりにくいかと思いますが、 どなたか詳しい方、説明して頂けませんでしょうか。 少しでも分かりやすいように、画像を添付しておきます。 よろしくお願いいたします。

みんなの回答

noname#227064
noname#227064
回答No.2

> なので,度数分布に変換し,その数値データを用いてアンダーソン・ダーリン検定やダゴスティーノ・パーソン検定を行って,対数分布であることは確認はできたのですが. 対数正規分布であることは確認できたのですよね? ならば、さらにks検定(コルモゴロフ-スミルノフ検定のことですよね)までする必要はないと思いますが… > 今は,エクセルで正規化した平均値-9.8と標準偏差0.43を用いて > pdf=NORMDIST(LN(1.0E-05~2.0E-04),-9.8,0.43,FALSE)/1.0E-05~2.0E-04 > としているのですが, pdfの計算は間違っていないようです。 > それぞれのpdfの値が1を超えてしまい, pdfの値、即ち確率密度は1を超えてもおかしくないですよ。 > 合計すると2.0E+05にまでなってしまいます. この合計はただ単に各pdfを足してしまったからでしょうね。 級の幅をかけてやらないと駄目です。 級の幅は1E-05のようですから計算してみると……、2になってしまいますね。 計算誤差が原因なのかもしれませんが、ExcelにはLOGNORMDIST 関数或いはLOGNORM.DIST 関数があるのでこちらを使用してみてはいかがでしょうか。

jannick
質問者

補足

回答ありがとうございます. pdfについては勘違いをしていました. pdfの積分=1になるはずですね. どうもご親切にありがとうございました. なんとかなりそうなので,とりあえず自力でやってみます. ありがとうございました.

noname#227064
noname#227064
回答No.1

> そこで、ks検定で分布形の推定を行っているのですが、ヒストグラムに対応しそうな 確率密度関数(pdf)と累積分布関数(cdf)の算出が分からず困っております。 ひょっとして、対数正規分布のパラメータを色々変更しても棄却されてしまうという状況でしょうか? もしそうなら、データ数が10,000個と多数なので棄却されるのは当然でしょうね。 つまり、データ数が多ければ多いほど検出力が高くなるので、少しの違いでも分布が異なると判断されてしまいます。 なので対応方針としては、有意水準を厳しくするか、検定を行わず対数変換したデータについて正規確率プロットを描き目視で判断するか、対数正規分布とみなさずそのまま経験分布として使用する方法が考えられます。

jannick
質問者

補足

回答ありがとうございます. 実際には棄却されてしまう以前の問題でして・・・ ks検定を行う場合,データをそのまま用いると思うのですが, そこで使用する累積分布関数の算出法が分からず,判定まで持ち込めません. なので,度数分布に変換し,その数値データを用いてアンダーソン・ダーリン検定や ダゴスティーノ・パーソン検定を行って,対数分布であることは確認はできたのですが. pdf,cdfの算出に,平均値5.4E-05や標準偏差2.5E-05のような極めて小さい値に対しても, 1.0E-05~2.0E-04の範囲で対数分布が描けるものなのかと疑問を持っております. 可能であるならば,その数式を教えて頂きたいのですが・・・ 今は,エクセルで正規化した平均値-9.8と標準偏差0.43を用いて pdf=NORMDIST(LN(1.0E-05~2.0E-04),-9.8,0.43,FALSE)/1.0E-05~2.0E-04 としているのですが,それぞれのpdfの値が1を超えてしまい,合計すると2.0E+05にまで なってしまいます. 間違えている点ありましたらご指摘よろしくお願いいたします.

関連するQ&A

専門家に質問してみよう