• ベストアンサー

適合度検定について

適合度検定について教えてください 測定結果の分布がある種の確立密度関数に従うかどうかをカイ二乗検定で調べます。測定値の度数と理論度数の比較です。このとき確立密度関数の母数によって、検定時の自由度が変わるといわれたのですが。 母数と自由度の関係を教えてください。 たとえば p(x)=(x/a)・exp{-x^2/(2a)}:2aがxの2乗平均 で示されるレイレイ分布の場合はどうなるのでしょうか。 いろいろ文献を調べたのですがわかりません。統計に関しては素人です、よろしく お願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.3

> 最初具体的な確率密度関数の型(例えば正規分布とかレイリー分布とか)はわかりません。 >したがって母数は未知となります。 この時点では「分布が未知」なんですね。  次に、帰無仮説H1「このデータは母数aのレイリー分布に従う」を立てる。これを一旦信じる。ここで初めて分布の型が決まり、従って、母数の自由度は1に決定。そして、分布が一番データに良く合うように(数値計算で)a=a0を決めてやる。fittingと言います。これで分布が決定。この段階で帰無仮説はH2「このデータは母数a0のレイリー分布に従う」になっており、自由度は1減っている。だからこの仮説H2を検定するには、自由度は(k-2)にしなくちゃいけません。  で、検定してみたらH2がアキラカに棄却されたとしましょう。つまりこの分布じゃないのが確定。  では、帰無仮説H3「このデータは母数m, σ^2の正規分布に従う」を立てる。母数の自由度は2ですね。これをfittingしてm=m0, σ=σ0を得る。これで分布が決定。帰無仮説はH4「このデータは母数m0, σ0^2の正規分布に従う」になっており、自由度は2減っている。この仮説H4を検定するには、自由度は(k-3)にしなくちゃいけません。 で、今度は棄却されなかったとする。でも、 「だからこのデータは正規分布(m0, σ0^2)だ。」なんて結論しちゃいけません。帰無仮説は、棄却されないときは「何も言えない」。つまり「仮説H4はデータとはっきりした矛盾を示さない」という事が分かっただけです。(σの真値がσ0より0.1%大きくてもH4は偽なんですよ。)  時系列データを分布として検定するというのは重要ですね。理論的に予想される分布と比較する訳ですね。この場合線形に近いシステムのようだから、予測するには、信号処理分野の理論、特にinputが分かっていればフーリエ変換などによるフィルター理論で、確率過程とするなら定常過程の理論が旨く行くだろうと思います。なお非線形性が強い場合(振幅が大きいなど)はひょっとするとカオスの理論を使うことになるかな?と思います。

small-p
質問者

お礼

お礼が送れて申し訳ありません。とても参考になりました。 しつこい質問でもう分けないのですが、もう少し教えてください。 いくつかの文献ではレイリー分布の母数を時系列データのスペクトルの0次モーメントとしていたり、極値の二乗平均値の半分としていたのですが、やはり実データに当てはめるときは、そのデータの特性を反映させるように、最急降下法のような勾配法で母数を推定し、fittingを行うのがよいのでしょうか。  素人の質問で申し訳ないのですが、実データに対して、勾配法などを使って、最適化を行った場合、測定誤差の分まで含んでfittingを行ってしまうので、個々の計測値にはよく合うのですが、現象を一般的に論じる場合客観性が失われる可能性があると思えます。たびたび申し訳ないのですがご教示いただければ幸いです。  それとご回答の中で指摘されているように 復元力がf=-kxであてられるような線形バネでなく 硬化バネf=-(k1x+k3x^3) 軟化バネf=-(k1x-k3x^3) の場合はカオス的な挙動を示すようで、位相平面上にストレンジアトラクタが現れました。

その他の回答 (4)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

下記ご参照下さい。

参考URL:
http://oshiete1.goo.ne.jp/kotaeru.php3?q=24627,http://oshiete1.goo.ne.jp/kotaeru.php3?q=8277
small-p
質問者

お礼

ご紹介ありがとうございました。 今後ともよろしくお願いします。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

 fittingをする結果として自由度を犠牲にする訳ですから、ばっちりfittingやって良いです。fittingしてパラメータを最適化したモデルは、誰が計算しても再現する。これこそが客観的なんじゃありませんか。  最急降下法は余りうまい方法とは言えませんが、探すパラメータの数が少なければ差し支えないのかな?  ストレンジ・アトラクタ。やっぱり出てきましたか。最終的にアトラクタの再構成が出来ると面白いですね。頑張ってください。

small-p
質問者

お礼

 早速回答いただきましてありがとうございます。 統計はまだかじりかけたばかりでわからないことが多いので、また疑問が生じたときはよろしくお願いします。  本当に助かりました、教官のなかには教科書の例題で似たようなものを見つけて検定すればよいなどといって、意味も考えずに平気なことをやっている連中がいます。stomachman先生のような方が教育の現場に大勢いれば、今日の理数系教育の問題も解消されると思います。  最後の質問ですが「最急降下法」はあまりよくないとのことですが、私自身勉強不足でどの最適化手法がよいのか悪いのかはわかりません。他の準ニュートン法や共役勾配法などと比較して使いやすいので使っているのですが・・・。 これに関しては単に質問するのでなく、じっくり勉強したいと思いますので是非お勧めの教科書があればご紹介ください。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

とりあえず、自由度の概念については下記URLを。 N個のサンプル、という制約条件があるので、度数n[1], n[2], ..... , n[k-1]を決めたらあと一つは決まってしまう。だから自由度は(k-1)である。という事です。 また > 確率密度関数に当てはまるかを調べるときは(k-1-母数の数)が自由度 というのは、ちょっと間違い。そうじゃなくて、  「確率密度関数の型(例えば正規分布とかレイリー分布とか)は仮定しているがその母数(パラメータ)のうちのr個の値が未知である」という場合に、測定した度数になるべく旨く合うようにr個の母数を推定し、その上で、検定を行う、という時には、つまり辻褄が一番合うようにr個の自由度(度数のデータ)を「消費」しちゃったので、残っている自由度はr個減る。それで、この場合の χ^2 = Σ{(n[j]-m[j])^2}/m[j] は自由度(k-1-r)のχ二乗分布で近似できる、という事になります。

参考URL:
http://oshiete1.goo.ne.jp/kotaeru.php3?q=17226
small-p
質問者

補足

深夜にもかかわらず度重なる回答をいただきましてまことにありがとうございます。私のつまらない質問に親切に回答してくださってとても感謝しています。 2回の回答で少しずつわかってきましたのでもう少し質問させてください。 測定されたデータに関しては、最初具体的な確率密度関数の型(例えば正規分布とかレイリー分布とか)はわかりません。したがって母数は未知となります。 この場合レイレイ分布では母数は1つですから自由度は(k-1-1)=k-2 正規分布では母数が2つありますから自由度は(k-1-2)=k-3 となるのでしょうか。  それと今回の質問にいたったいきさつを申し上げます。学生だけでやっている自主ゼミで次のようなことがありました。  スペクトルの帯域幅パラメータが1に近いような広帯域の不規則強制力をバネ振り子のような固有周期を持つものに与えたときの質点の変位の時系列データの極値の分布を想定しています。この場合、固有周期をもつことからある種のバンドパスフィルターのように作用し、質点の変位の時系列データは狭帯域のスペクトルを示しました。この結果に対して、うちの研究室の先輩の修士課程の院生はレイリー分布を仮定して検定を行ったのですが、単純に自由度(k-1)としていました。これに対して私の友人がどこで聞きかじったのか(私もその友人も学部生です)母数を考えないといけないといって議論になりましたが、統計の素人集団の浅学なもの同士でやっているため結論がでず、この質問にいたった次第です。その友人も母数の数を引くということをどっかで聞いただけで根拠はありませんでした。素人ゆえ上記の文中に誤りがありましたらご指摘ください。  stomachman先生、今後ともご教授お願いします。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 測定値の母数、度数と仰るからには離散分布の話、と思ったらレイリー分布ですか。これはどういうことかな?xを適当な区間に分けて、その中に入ったサンプルの数を数えた、という意味でしょうか?  その場合、一つの区間の度数が最低でも数個以上になるように区分けをします(こうしないとχ二乗検定が使えません)。k個に分けるとしましょう。各区間は同じ幅である必要はありません。たとえば区切りをx[1]=0,x[2],....,x[k],x[k+1]=∞とし、j番目の区間を[x[j], x[j+1])とします。 帰無仮説「N個のサンプルが確率密度関数fの分布からランダムに採られた」を検定できます。具体的には区間jの理論度数 m[j] = N integral {x=x[j]~x[j+1]} f(x) dx を計算し、実測した度数n[j]と比べます。すなわち χ^2 = Σ{(n[j]-m[j])^2}/m[j]  (Σはj=1,2,....,kについて取る) は自由度(k-1)のχ二乗分布で近似できる。  さて、母数とは何か。レイリー分布 p(x)=(x/a)・exp{-x^2/(2a)} (x≧0) の場合、aが母数です。つまりこの確率密度関数(確立じゃないですヨ)のパラメータのこと。これを決めると初めて、具体的な分布の形が決まる訳です。  「aが違えば、分布が違い、同じサンプル数Nであっても区間の設定の仕方が違ってくる。従って、区間の数kも(従って自由度も)変わりうるし、理論度数m[j]も違う。」ということですね。  まずは良い教科書を手に入れては如何でしょう。ハンドブック的なものだけでなく、きちんとした教科書を持っていると、こういう時に便利ですよ。

small-p
質問者

補足

早速の回答ありがとうございました。「確立」はミスタイプでしたすみません。 ご指摘のとおり”xを適当な区間に分けて、その中に入ったサンプルの数を数えた”ということです。 そこで再度質問ですが、多くの教科書がご回答のように自由度(k-1)のχ二乗分布で近似できる。と記しています。多くの教科書でも自由度(k-1)とした場合の 検定については記されていました。  ただ確率密度関数に当てはまるかを調べるときは(k-1-母数の数)が自由度にな るというようなことを聞きました。このことに関して詳しく記された文献があればご紹介ください。  それと今一つ自由度というものがつかめません。そのへんのところを教えてください。  

関連するQ&A