- ベストアンサー
モンテカルロとノンパラメトリック検定
- モンテカルロ推定とは、乱数を使って母集団の数を水増しする方法であり、統計処理の精度を上げるために使用されます。
- モンテカルロ推定は、例数が足りない場合に特に有効であり、通常のノンパラメトリック検定で差が出た場合にさらに精度を上げるために使われることがあります。
- モンテカルロ推定が必ずしも必要なわけではありませんが、より正確な推定を行いたい場合には有用な手法です。統計の経験がある方にもおすすめです。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
再度登場です.私自身も手探りで「統計学の本質」を勉強している身です.お互いに頑張りましょう. Mann-Whitney検定(以下,MW検定)というのは,ご存知の通り,ノンパメトリック検定の一種であり,いわば順序尺度版対応なしt検定と位置づけることができるでしょう.MW検定は,A変数とB変数で,A>Bとなるペア数がどのぐらい多いかを問題にするものですが……ちょっと分かりづらいですね. A変数 2 5 7 B変数 1 3 4 上記のようなデータの場合で,A変数から一つの数値を,B変数から一つの数値を取り出してペアを作ったとします.総ペア数はA変数3数値×B変数3数値=9ペア,となります. このうち,A>Bとなるペア数は,(A, B)=(2, 1)(5, 1)(7, 1)(5, 3)(7, 3)(5, 4)(7, 4),7ペアです.ちなみにB>Aとなるペア数は2ペアですね.もし,A=Bになるのであれば,A>Bペア数=B>Aペア数,すなわち「総ペア数/2」になるはずです.今回では,A>Bペアが7数になる現象が,総ペア数9/2=4.5ペア数を基準にして,どのぐらい珍しいかを確率計算するわけです. ちなみに,このように具体的な場合分けをする方法が正確確率法となります.ただし正確確率法といっても,どのような観点からの場合分け(A>Bペアに注目する場合わけ)をするかで異なりますので,「MW検定における正確確率」となります.正確確率という検定法があるわけではありません(Fisherの直接確率法というものがありますが,教科書的には,「χ2検定における正確確率」のことを意味しています). 一方,モンテカルロ法についてです.上記のようにMW検定は,「A>Bペア数」という統計量が重要となるわけです.その他の検定においても,重要となる統計量というものがあるわけですね.モンテカルロ法は,標本データを狩りの母集団データとみなして,そこから,改めて「たくさんの」標本データを生みだします.そして生みだされた標本データから統計量を計算するわけで,当然,「たくさんの」統計量の分布ができあがります.この統計量の分布から,今回の統計量の発生現象の確率を求めるわけです. モンテカルロ法とは,統計量の分布を作り出す手法なわけです. > つまり、mann-whitney検定に代わってモンテカルロを使用した、というような・・・ 正確確率法にしろ,モンテカルロ法にしろ,MW検定の計算原理を反映しているわけです.その際の確率計算をどのようにするかで分かれていることになります. 近似確率:データ数が多い時に近似がうまくいく 正確確率:場合わけにより正確な確率を算出 モンテカルロ法:統計量の分布を作成し,その統計量の発生確率を算出 とりとめなく書いてしまったのでわかりにくくなってしまいました.申し訳ありません.
その他の回答 (1)
- selfer
- ベストアンサー率76% (104/136)
こんにちは.統計学の専門家ではありませんが,統計ユーザーの立場から考えてみました. 検定法とは,帰無仮説を想定した際に対立仮説が発生するであろう確率を算出するものです.すなわち,「確率」が非常に重要な役割を持つことになります.そのため,この確率が正しく算出されていないと,大問題になります. これに対して,「いや,定評のある統計ソフトSPSSを使っているから,正しく算出されているだろう」と安易に考える人が多いかもしれませんが,実はSPSSといえども,必ずしも「正しい確率」が算出されているとは限らないわけです.これは,SPSSの計算方法が間違っているというわけではなく,確率算出方法自体に問題点があるのです. SPSSのノンパラ法で【通常】算出される「確率計算法」とは,いわゆる「近似確率」とよばれるものです.なんで「正確な確率」を表示しないかと思われるかもしれませんが,一昔では,正確な確率を算出することなど,非常に困難な作業だったのです(実質上無理).そのため,どうしても近似確率法で確率計算をするしかなかったわけです.ただし,あくまでも近似であるために,場合によってはズレが生じることがあります.統計学の教科書などでは,「データ数が多い時には近似がうまくいく」と説明されています. このようにかつては近似計算しかできなかった状況だったのですが,最近ではコンピュータの力を借りて,正確確率を出すことができるようになりました.これが「正確確率推定」です.ただし,この正確確率法は,コンピュータへの負担も大きいため,簡易的なものから,かなり精度の高いものがあります(モンテカルロ法は簡易的な推定法とイメージして下さい). > 普通にやって差が出たものに対して、さらにモンテカルロを使うのはあまり意味がないでしょうか? 普通にでてきた確率というのは,いわゆる近似確率です.なので,この確率がうまく近似されているとは限らないわけです.そのために,モンテカルロ法や正確確率法が可能であるならば,そちらを利用すべきです. 幸いにも質問者さんが使える統計解析環境はなかなか優れているようで,正確確率法も使えるようです.SPSSの場合,正確確率をさせるためには,追加プログラムを購入してインストールしなければなりません(多分,数万~十万ぐらいする高価なものです).
お礼
大変分かりやすいアドバイス有難うございます! 違いがよく分かりました。統計の講義などで、無限にサンプルを集めなければ正確な確率を求めることは無理である、と習った気がします。統計に初めて出会った頃に比べると飛躍的な進歩を感じますね~。 >「いや,定評のある統計ソフトSPSSを使っているから,正しく算出されているだろう」と安易に考える人 私もまったくその一人でございます。漫然とクリックし続けて結果を出すということを続けておりました。 ところで、お恥ずかしいのですが、↑のような状況なので、統計の本質についてあまり分かっていないところがあり、差し支えなければ以下の質問について、お時間のあるときに教えていただけませんか? 今回質問した2種類の確率推定法が、同次元で並列なものだということは分かるのですが(つまり、モンテカルロを使ったら正確確率を使うことはない)、たとえば今回実際行った各種ノンパラメトリックなどに対しても同様に解釈していいのでしょうか?つまり、mann-whitney検定に代わってモンテカルロを使用した、というような・・・。 使用しているSPSSはbasic modelのほかに、trend、regression、advanced、などなどインストールされていました。今までの環境からは考えられないぐらい恵まれています。しかし、その環境を使い切れていない私・・・。 selferさんの回答、本当に分かりやすく、勉強になりました。ありがとうございました。恵まれた環境を存分に生かせるよう私もがんばらねばいけません(^_^;
お礼
すばらしいですね!本当によく分かりました。 再度お答えいただき、有難うございました。 今までの使用方法に間違いはないと思っていますが、分かって使うのとそうでないのとでは断然違いますね。正確確率の算出も、例数がそんなに多くないので時間はかかりませんでしたので、これを使って進めていこうと思います。 悶々と悩みつつ教科書を開いていたのがうそのように、晴れ晴れとした気分になりました。 これにて質問を閉じたいと思います。 丁寧で分かりやすい解説を有難うございました。