• ベストアンサー

適合度検定について

stomachmanの回答

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 測定値の母数、度数と仰るからには離散分布の話、と思ったらレイリー分布ですか。これはどういうことかな?xを適当な区間に分けて、その中に入ったサンプルの数を数えた、という意味でしょうか?  その場合、一つの区間の度数が最低でも数個以上になるように区分けをします(こうしないとχ二乗検定が使えません)。k個に分けるとしましょう。各区間は同じ幅である必要はありません。たとえば区切りをx[1]=0,x[2],....,x[k],x[k+1]=∞とし、j番目の区間を[x[j], x[j+1])とします。 帰無仮説「N個のサンプルが確率密度関数fの分布からランダムに採られた」を検定できます。具体的には区間jの理論度数 m[j] = N integral {x=x[j]~x[j+1]} f(x) dx を計算し、実測した度数n[j]と比べます。すなわち χ^2 = Σ{(n[j]-m[j])^2}/m[j]  (Σはj=1,2,....,kについて取る) は自由度(k-1)のχ二乗分布で近似できる。  さて、母数とは何か。レイリー分布 p(x)=(x/a)・exp{-x^2/(2a)} (x≧0) の場合、aが母数です。つまりこの確率密度関数(確立じゃないですヨ)のパラメータのこと。これを決めると初めて、具体的な分布の形が決まる訳です。  「aが違えば、分布が違い、同じサンプル数Nであっても区間の設定の仕方が違ってくる。従って、区間の数kも(従って自由度も)変わりうるし、理論度数m[j]も違う。」ということですね。  まずは良い教科書を手に入れては如何でしょう。ハンドブック的なものだけでなく、きちんとした教科書を持っていると、こういう時に便利ですよ。

small-p
質問者

補足

早速の回答ありがとうございました。「確立」はミスタイプでしたすみません。 ご指摘のとおり”xを適当な区間に分けて、その中に入ったサンプルの数を数えた”ということです。 そこで再度質問ですが、多くの教科書がご回答のように自由度(k-1)のχ二乗分布で近似できる。と記しています。多くの教科書でも自由度(k-1)とした場合の 検定については記されていました。  ただ確率密度関数に当てはまるかを調べるときは(k-1-母数の数)が自由度にな るというようなことを聞きました。このことに関して詳しく記された文献があればご紹介ください。  それと今一つ自由度というものがつかめません。そのへんのところを教えてください。  

関連するQ&A

  • 統計学の適合度検定についての質問です

    統計学初心者です。 観測度数が理論度数の誤差の範囲内かどうかを調べたいのですがどうしたらいいでしょうか? 適当な数値ですが、画像データのAの実測度数が理論度数の誤差の範囲内かどうかを検定するための具体的な計算方法を教えてください。 有意水準は5%、カイ二乗分布 カイ二乗検定で”全体”の検定は x^2=(60-50)^2/50+(20-30)^2/30+・・・+(2-1)^2/1 =6.8444・・・ となり、自由度4のカイ二乗分布、有意水準5%が9.49なので x^2<9.49 有意差はない(誤差の範囲内) というのでまずは合ってますでしょうか? 次にAのみの観測度数と理論度数を検定(誤差の範囲内かどうかを知りたい)したいのですが、 x^2=(60-50)^2/50+(40-50)^2/50 =4 自由度2-1=1のカイ二乗分布、有意水準5%が3.84なので x^2>3.84 有意差はあり(誤差の範囲外) AとB~Eの2個に分けて計算してみましたが、そもそもこの方法が合っているのかどうか分かりません。 アドバイスよろしくお願いします。

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • 正規分布への適合度検定について

    統計ソフト(R)において、正規分布への適合度検定をするための、カイ二乗検定を用いた関数(normaldist←青木先生という方のサイト上にありました。http://aoki2.si.gunma-u.ac.jp/R/normaldist.html)を使う際に、度数分布表における階級の分け方(どれくらい細かく階級をとるか)を変えると、検定結果のp値が変化するのですが、階級の決まった分け方というものはあるのでしょうか?よろしくお願いします。

  • カイ二乗検定について

    サイコロがフェアであるかどうか、カイ二乗検定を行いたいのですが テキストには、自由度5で理論度数で割るやり方で解答がなされているのですが これを、自由度6で、二項分布の分散で割るやり方で解くのは間違いなのでしょうか? 具体的には p=1/6 nは理論度数*6=全試行回数 [(標本度数-理論度数)/√np(1-p)]二乗 を1の目から6の目まで足して、それを自由度6のカイ二乗検定に掛けるやり方です。 もし分かる方がいらっしゃったら、教えていただけるとありがたいです。

  • 確率変数Xは…

    確率変数Xは自由度nのカイ二乗分布に従うとする。 このとき φ(t) = E(e^X) を計算せよ という問題に取り組んでいます。 E(e^X) = ∫e^x * f(x) dx ( f(x)は標準正規分布の確率密度関数) とすればあとは計算するだけと思ったのですが 次のことで迷いました。 「Xが自由度nのカイ二乗分布に従う」という文章は Σ(1->n) X^2 がカイ二乗分布に従うことを意味してるのか それとも Xがカイ二乗分布に従うのか どっちを意味するのだろうかと。 前者なら E(e^X) = ∫e^x * f(x) dx を計算していけばいいのですが、 後者だと 確率密度関数 にガンマ関数が含まれるようで 私の数学力では対応できません。 テキストや、web上では普通 Xは標準正規分布に従い、Χ^2(カイ二乗)がカイ二乗分布に従うと書いてあります。このことを考慮すると、後者の方が適しているような気もします。 アドバイスをいただけないでしょうか。お願いします。

  • 正規性の検定でのカイ2乗検定の自由度について

    エクセル統計p051に記されているものです。 標準化値(-1.2,-0.4,0.4,1.2,∞) 理論確率(0.1151,0.2295,0.3108,0.2295,0.1151) 観察度数(4,10,6,9,3) 期待度数(3.6822,7.3443,9.947,7.3443,3.6822)を 列に変換してください。 n=32のデータです。その正規性の検定をするためカイ2乗検定を行ったのですが、自由度が2になることが分かりません。よろしくお願いします。

  • カイ二乗検定及びG検定について

    カイ二乗検定もしくはG検定を用いて適合性の検定を行おうと思っているのですが、以下の判断が出来ず困っております。 ・自由度が大きすぎる(10000以上)場合もカイ二乗検定及びG検定を用いて良いか なお、帰無仮説で想定する分布は多項分布、サンプル数は30から100程度を想定しています。 ご回答をよろしくお願いいたします。

  • 適合度の検定について教えてください!

    統計を学んでいます。 先生がおらず誰かに聞くことができないので、 参考書等を参考に学んでいますが、 適合度の検定にて煮詰まっています(><) 以下の(1)(2)についてご教示いただけますでしょうか。 (1)【仮説の設定】 帰無仮説…差(違い)がない、という内容を持ってくることが一般的 対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】 ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却 小さい場合→帰無仮説は棄却できない ということで間違っていないでしょうか。 (2)【適合度の検定】 標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。 ■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない) ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある 小さい場合→帰無仮説は棄却できない→差があるとは言えない 年齢・■国勢調査 ・■標本調査結果 ■期待値 20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6 30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5 40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5 50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8 60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7 65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5 合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510 カイ二乗値:52.7 理論値(自由度5、危険率5%):11.07 結果 帰無仮説を棄却(国勢調査の構成比率と差がある) カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。 「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。 (1)(2)に関し、ご意見を頂ければと思います。 (1)も関連しますが特にお伺いしたいのは(2)です。 (2)に関して回答とその理由をお教え頂けると大変助かります。 よろしくお願いします。

  • ガンマ分布

    y=exp(-x) の分布を持つn個の独立な変数の和は、ガンマ分布 (x^(n-1))*exp(-x)/G(n) であらわすことができます。 (1)ここからカイ2乗分布はどのように誘導できるのでしょうか? (2)独立な変数のn個の4乗の和(カイ4乗分布?)はガンマ関数で  あらわすことができるのでしょうか?

  • カイ2乗検定

    ある乱数を危険率1%のひん度検定を行え。 ただし、自由度49のカイ2乗分布の1%点は74.9とする。 という課題が出たのですが、このときというのは、 検定統計量vが79.4よりも小さければ受容される、という考え方良いのでしょうか??