ベイズ推定とMAP検定による統計学の理解についての質問

このQ&Aのポイント
  • 統計学を勉強している者です。回帰分析を多少学習し、現在ベイズの定理について解説書で学習しています。
  • マラソン大会を実施するかしないかの確率を算出する問題について疑問があります。晴雨の項目が最も実施中止に影響するか、各判断基準の相関が結果に影響するかについて検討しています。
  • 尤度の算出や事前確率の設定方法についても詳細な説明を求めています。また、直近の結果を重要視する条件を付けて算出する方法についても知りたいです。
回答を見る
  • ベストアンサー

ベイズ推定 MAP検定 統計

統計学を勉強している者です。 回帰分析を多少学習し、現在ベイズの定理について解説書で学習しています。 そこで、知識不足もありますが、よく理解できない問題があります。(添付画像参照) 複数の条件のもと、マラソン大会を実施するかしないかの確率を算出する問題です。 過去の記録が7つあり、判断基準は晴雨、温度、湿度、風を元に実施するか中止するかが決まります。 ここで、2つの疑問があります。 (1)判断基準は、複数ありますが、最も実施中止に影響するのが、晴雨の項目だと主観的に考えられます。この影響の度合いを考慮に入れなくてもよいのでしょうか? (2)各判断基準に、互いに相関がある場合は、結果の数値に影響するのでしょうか?(本問題では互いに独立と仮定されています) (補足) 本問題では、 尤度の算出は、当日の天候を元に、それぞれの実施確率、中止確率を算出し、4つを乗算して算出されています。 (晴雨の場合)実施4回のうち雨で実施が2回、中止3回のうち雨で中止が1回。 (温度の場合)実施4回のうち暖で実施が1回、中止3回のうち暖で中止が2回。・・・ 事前確率は、全7回から実施4回、中止3回により算出されています。 最後に (3)この問題に、「より直近の結果を重要視するものとする」といったような条件を付けて、算出することはできるのでしょうか?もしできる場合、どのような考え方で、計算をすればよいでしょうか? 質問ばかりになってしまい申し訳ありません。 どうかよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.2

マラソン大会を実施する確率 = f(晴雨, 温度, 湿度, 風) というような関数を推定した方が良いのではないかとは思いますが、まあ、それは横に置いておきましょう。 > 尤度の算出は、当日の天候を元に、それぞれの実施確率、中止確率を算出し、 実施確率、中止確率ではありません。 実施(又は中止)したときの天気が雨である確率を求めているのです。 > (2)各判断基準に、互いに相関がある場合は、結果の数値に影響するのでしょうか?(本問題では互いに独立と仮定されています) 影響しますが、その場合推定できないこともあります。 ご質問の例ですと、 P(晴雨=雨,温度=暖,湿度=高,風=弱|実施=x) = P(晴雨=雨|実施=x)P(温度=暖|実施=x)P(湿度=高|実施=x)P(風=弱|実施=x) (x = Y or N) として計算していますが、相関があるということはこの計算ができないということです。 相関について何らかの仮定を置かないといけなくなります。 > (3)この問題に、「より直近の結果を重要視するものとする」といったような条件を付けて、算出することはできるのでしょうか?もしできる場合、どのような考え方で、計算をすればよいでしょうか? 重み付けして尤度を算出すれば良いのでは? 例えば、事例1~7の順に実施されたものとし、それぞれ重みを 1/7, 2/7, 3/7, 4/7, 5/7, 6/7, 7/7(=1) とします。 実施で雨の確率は重み付けなしですと 2/4 = 1/2 ですが、重み付けありでは (0*3/7+1*4/7+1*5/7+0*7/7)/(3/7+4/7+5/7+7/7) = 9/19 となります。

kenthehg
質問者

お礼

ご回答ありがとうございます。 >実施確率、中止確率ではありません。 実施(又は中止)したときの天気が雨である確率を求めているのです。 ベイズで最も重要な、事後確率、尤度、事前確率の定義づけの説明が足りていませんでした。申し訳ございません。 ご指摘の通り、尤度は、実施(又は中止)したときの各天候である確率です。 > (2) >相関があるということはこの計算ができないということです。 >相関について何らかの仮定を置かないといけなくなります 知識不足で大変申し訳ございませんが、計算ができないとはどういう意味でしょうか? よろしければ、ご教授お願いいたします。 本問題では、各天候条件が同時確率のため乗算で尤度を算出しているみたいです。 > (3) >重み付けして尤度を算出すれば良いのでは? 大変勉強になりました。重みづけの考え方は、試していきます。 ありがとうございました。

その他の回答 (3)

noname#227064
noname#227064
回答No.4

回答No.3お礼 > 温度が暖かいという情報だけ、公開されていることがいまいちわかりませんでした。 混乱させてしまい、すみません。 そこは消し忘れです。 正しくは、 P(晴雨,温度|実施=x) = P(晴雨|実施=x)P(温度|実施=x) です。

noname#227064
noname#227064
回答No.3

回答No.2お礼 > 知識不足で大変申し訳ございませんが、計算ができないとはどういう意味でしょうか? 話を簡単にするために、晴雨と温度のみに限定します。 [実施]    温度 晴雨 暖  適  冷  計 晴  0  0  0  0 曇  1  0  1  2 雨  0  1  1  2 計  1  1  2  4 [中止]    温度 晴雨 暖  適  冷  計 晴  2  0  0  2 曇  0  0  0  0 雨  0  0  1  1 計  2  0  1  3 という情報が既に得られています。 P(晴雨,温度|実施=x) = P(晴雨|実施=x)P(温度=暖|実施=x) として良い場合、先の情報からそれぞれの尤度は次のように計算されます。 [実施]    温度 晴雨 暖  適  冷  計 晴  0  0  0  0 曇  1/8  1/8  1/4  1/2 雨  1/8  1/8  1/4  1/2 計  1/4  1/4  1/2  1 [中止]    温度 晴雨 暖  適  冷  計 晴  4/9  0  2/9  2/3 曇  0  0  0  0 雨  2/9  0  1/9  1/3 計  2/3  0  1/3  1 しかし、 P(晴雨,温度|実施=x) = P(晴雨|実施=x)P(温度=暖|実施=x) が成り立たなければ、 [実施]    温度 晴雨 暖  適  冷  計 晴  0  0  0  0 曇  a   b  1/2-a-b 1/2 雨  1/4-a 1/4-b a+b  1/2 計  1/4  1/4  1/2  1 [中止]    温度 晴雨 暖  適  冷  計 晴  c   0  2/3-c 2/3 曇  0  0  0  0 雨  2/3-c 0  c-1/3 1/3 計  2/3  0  1/3  1 となり、a,b,cは0≦a,b≦1/4、0≦c≦2/3を満たす組み合わせから選ぶことになりますが、どの値が最適と思われますか? (これが何らかの仮定が必要ということです) 十分な情報が得られていれば、それぞれの頻度を使うという手もあるでしょう。 [実施]    温度 晴雨 暖  適  冷  計 晴  0  0  0  0 曇  1/4  0  1/4  1/2 雨  0  1/4  1/4  1/2 計  1/4  1/4  1/2  1 [中止]    温度 晴雨 暖  適  冷  計 晴  2/3  0  0  2/3 曇  0  0  0  0 雨  0  0  1/3  1/3 計  2/3  0  1/3  1 さて、この場合事後確率を計算できますか?

kenthehg
質問者

お礼

ありがとうございます。 お礼が遅くなり申し訳ありません。 正直に申し上げますと、なかなか理解することが出来ませんでした。(汗) >P(晴雨,温度|実施=x) = P(晴雨|実施=x)P(温度=暖|実施=x) この式が、仮定を意味しているのでしょうか? 温度が暖かいという情報だけ、公開されていることがいまいちわかりませんでした。 尤度の算出については、理解できたものの、その後のa,b,c 等についてもいまいち理解できず、、、、 まだまだ知識が足りないようなので、もう一度体系的に学習して、振り返ってみることにします。 ご親切にご回答を下さり、ありがとうございました。

回答No.1

企業でsqcを推進する立場にある統計家です。 興味深い問題で、今、取り組んでいるところです。 (1)重みを考慮することはあります。 (2)当然、相関があれば、出現しない(低頻度の)事象が出てきますので、 起こりうる事象の確率は上がります。 でもこれは、学習の結果出てくる分布として考慮されていると思います。 あるいは、空間を直交でなく角度を付けるのかなあ? それが分かりません。 (1)(2)は、多項のディリクレ分布を使って解く問題でしょうが、 (3)は違うと思います。 ここが分からない点です。 ところで、map検定って聞いたことが無い検定法ですが、 どんな検定統計量を用いるのですか? それとも、地図の知識を問う、趣味の話? だとしたら、数学のカテで紛らわしい言葉使わないで下さいね。

kenthehg
質問者

お礼

ご回答ありがとうございます。 >学習の結果出てくる分布として考慮されていると思います。 私もこの周辺の内容が、非常にあいまいで、腑に落ちない状況でいます。 >3)は違うと思います。ここが分からない点です。 quaestioさんから頂いた、ご回答のように、(3)も重みづけの考え方で、うまくいきそうな気がします。 >map検定って聞いたことが無い検定法ですが、 正確には、MAP決定、MAP推定でした。最大事後確率推定法(Maximum a posteriori estimation method) とうものらしいです。 ご回答ありがとうございます。

関連するQ&A

  • 統計学、どの検定を使うべきか

    統計の授業をアメリカでとっているのですが、よくわからない問題があったので質問させて下さい。 とあるデータを取扱う事になり、そこでどの検定を使えば良いか、あるいはどのように考えて答えを導きだせば良いのか困っております。 エクセルに A列にyes=1 no=2という感じで数字が並んでいます。 B列にはその人の年収が入っているとして 1 100 1 150 2 200 1 300 こんな感じです。。 給与が高い人が1(yss)と答えている確率が給与が低い人より多いかどうかを調べる場合、 どのように統計学を応用して答えを導き出せが良いのでしょうか。 給与については、ここからが低い、ここからが高いという基準はありません。

  • 統計解析、検定手法(Cochran-Mantel-Haenszel法)について

    統計解析の素人なため、質問自体が根本的に問題かも知れませんが、 ご教授いただけますでしょうか。 ----------------------------------------------------- 7年間の観察期間で、2群に分けて特定の検査を実施しました。 それらのデータを集計して算出した例数を用いて それぞれ差を検定したいのですが、 Cochran-Mantel-Haenszel法が適していると聞きました。 ある部門で計算をしてもらい、結果を算出してもらいました。 漸近有意確率 (両側検定)にて、ある特定の検査項目のp値に 「*:p≦0.05」が出現したのですが、どのような説明ができるのか 教えていただけますでしょうか。 結果------------------------+ カイ2乗 5.621 自由度 1 漸近有意確率 (両側検定) 0.021 +---------------------------- 質問方法と、情報の提示に問題があるかもしれませんが、 ご協力お願い申し上げます。

  • 区間推定、尤度、検定などを利用して

    区間推定、尤度、検定などを利用して 以下の事を求めたいと思っていますが、なかなか求まらずにここ数日間四苦八苦しております。 ####【問題】############################ 今、AさんとBさん2人がいます。 「Aさんは "イケメン" だと思いますか?」という質問を 200人に聞いたら80人が「イケメンだと思う」と回答しました。 次に、それとは別に「Bさんは "イケメン" だと思いますか?」という質問を 32人に聞いたら30人が「イケメンだと思う」と回答しました。 この場合、AさんとBさんはどちらが "イケメン" でしょうか? #################################### 自分の考えた感じだと下記の様になると思うのですが・・・・・ 母集団の中でAさんを "イケメン" と回答する割合はp1、 母集団の中でBさんを "イケメン" と回答する割合はp2だとします。 この場合、p1およびp2は未知なわけですから、サンプルから推測を試みます。 Aさんを "イケメン" と言った人は、 200人中80人いる訳ですから、 この場合、割合は 80/200 = 40%  ・・・・・(1) となります。 Bさんを "イケメン" と言った人は 32人中30人いる訳ですから、 この場合、割合は 30/32 = 93.75% ・・・・・(2) となります。 ここで、これらのサンプルからp1、およびp2を区間推定します。 その結果、例えば95%の確率で a < p1 < b c < p2 < d と判断出来た場合、 区間aから区間bまでの間は正規分布になると思います(区間cから区間dまでも同様に正規分布)。 そこで、この2つの正規分布の差の合計値を求め、 その値が大きい方が "イケメン" である。 大体このように考えておりますが、 具体的な "イケメン" らしさというような数値を算出する事はできないでしょうか? 今、自分では出来ずに困っています。 つまり・・・・ Aさんの "イケメン" らしさは θ1、 Bさんの "イケメン" らしさは θ2。 この時、 θ1 > θ2 である。 したがって、Aさんの方がBさんより "イケメン" である。 というような形で判断したいのですが・・・・ 正しい、算出の仕方が判る方いらっしゃいましたら、 是非ともご教授下されば助かります。 よろしくお願い致します。

  • ベイズ推定

    ベイズ推定を用いて、ある事を判定をさせようとしています。 どういったものかがよくウィキなどを見ても 小難しくてわからないのですが・・・。 どなたか分かりやすく、ベイズ推定について教えてください>< できたら大体使われる式なども教えていただきたいです。 よろしくお願いします。

  • ベイズ推定

    ずばり、ベイズ推定とはどのようなものなのでしょうか?

  • 統計計算方法・考え方教えてください

    ある賭け事があったとして、勝ったり負けたりだけど、最終的なトータルで投資の1.2倍のリターンがあるとします。 1回の賭け単位でみれば、勝つときは投資の2倍戻ってきたり、負けるときは0倍しかもどってこなかったりします。その程度の幅のリターンです。 この勝負をN回した場合に、その結果はかなり理論値に近いと判断する方法を教えて下さい。何回程度のNでほぼ収束してると判断しても良いでしょうか? 分散とか偏差の問題であるのはわかるんですが、なにぶんかなり昔に学んだことなので(汗) >>かなり理論値に近いと判断する基準はお任せします。 曖昧な質問かもしれませんが数学統計博士教えてください。

  • 確立統計の問題がよくわかりません。

    確立統計の問題がよくわかりません。 ご教授をお願い致します。 【問題】1個のサイコロを2000回投げたとき,3の目が出る回数が300回であった.このサイコロは「正常でない」と言えるか. ただし,「正常」・「正常でない」の判断基準は回答者が与えてよいが,単に「正常だ」「正常でない」と答えただけの解答は認めないとする。考え方の基本は「検定」である。

  • サイコロの確率

    例えば 「1,2,3は1/5の確率、4,5,6は2/15の確率で出る特殊なサイコロを4回転がしたときの期待値と分散を求めよ」 という問題を解くとき 4回振った場合、サイコロの4~24までの目の確率を出すのはとても大変なので、1回だけ振った場合を想定し期待値と分散を求め、それぞれ4倍にして答えを出しました。 こういった場合、4倍して算出しても問題ないものでしょうか??

  • 統計の質問です.

    統計の質問です. 例えばの話なのですが 地点Aで降る雨が川Rのあるポイントでの水位の上昇に関係しているかどうか確かめたいとします. 川Rの水位は自動で1時間に10回測定される量的データで,地点Aでの雨は1時間ごとに降ったか降らないかチェックできる程度の曖昧なデータだとします. また川Rの水位は様々な要因で変化すると予想されるがその全ての要因を掴むことはできないとします.(例えば地点Bや地点Cで降る雨だったり,最高気温の高い日に家庭用水として多く利用される等) さらに地点Aで降った雨が川Rの水位に影響を与えるまでは時差があり,その時差が一定でないと予想されるとします(一定ではないもののある程度まとまりがある.しかし1時間以上は差が出ることがある). この様な条件下で「地点Aで降る雨は確かに川Rの水位に影響を与えている」ということを証明するにはどのような統計的手法を用いるのが良いのでしょうか? 現在,地点Aで降る雨のデータを雨が降った場合を1それ以外を0というようにして1時間おきの時系列データに無理矢理置き換え「相互相関関数」というものをつかって考察しています. しかし相互相関関数では川Rの水位が上がったときに一定時間ずれた時点で地点Aに雨が降っていなければ相関は低いとなってしまいます. これでは 雨が水位に影響を与えるまでの時間は一定ではない 川Rの水位に影響するのは地点Aの雨だけではない という条件が反映されていません. このようなケースは統計の世界ではよくあることだと思うんですよ.例えば「不定期に発表される大統領発言が物価に影響を及ぼしているかどうか」とか,「薬剤Aの服用は心拍数に影響を与えているかどうか」とか.それようの由緒正しい解析手法があるのに自分が知らないだけなのではと思うのです. ごちゃごちゃしててすいません,まとめます. 「ある現象Aがある時系列の量的データBに影響を及ぼしている」ことを確かめる解析手法はありあませんか? 以上です,よろしくお願いします.

  • 2項検定について

    ニ項検定について教えてください。 8個の中から選択したとき、当たりは1つ(残り7つははずれ)という条件で、これを8試行します。各試行は独立です(前の試行の影響を受けない)。 ただし、1発目で当たりをひけば次の試行に移れますが、はずれをひいた場合、3回までチャレンジできます。(3回チャレンジしてもはずれだった時は、次の試行に移ります) このような条件で、たとえば、 1試行 1回めで当たり 2試行 2回めで当たり 3試行 はずれ(3回チャレンジした結果) 4試行 1回めで当たり 5試行 はずれ(3回チャレンジした結果) 6試行 3回めで当たり 7試行 はずれ(3回チャレンジした結果) 8試行 1回めで当たり という結果になったとします。 このとき、8試行中、5試行で当たりを引いた確率がチャンス以上かどうかを比べるのは、どういう計算でしたらいのでしょうか? 1回目で当たる確率は1/8、2回目で当たる確率は2/8という計算の基で教えてください。 よろしくお願いします。