- 締切済み
二項分布、多項分布の尤度 最尤推定 ベイズ
統計学、主にベイズについて、独学している者です。知識があやふやなため、間違っている部分は、ご指摘ください。 例えば、 新薬の実験で、効果がある確率θ、効果がない確率(1-θ)である場合は、二項分布で、尤度を算出することはわかりました。 二項分布のような結果が2通りとなるものはわかるのですが、 結果が3通り、4通り、5通りとなるようなものは、どのように尤度を算出したら良いのかわかりません。 例えば、アンケート調査のような順位尺度(数字に意味はないが、順番には意味があるもの) のある回答データで、 例えば、1、大満足 2、満足 3、普通 4、やや不満 5、かなり不満の回答があるデータが100こあり、 それぞれ 1、20こ 2、15こ 3、30こ 4、25こ 5、10こ であった場合、尤度は、どのように算出すればよいのでしょうか? 出来れば、エクセルでできる範囲の算出方法で、ご教授していただけると助かります。 よろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- softwarelearner
- ベストアンサー率66% (2/3)
ここで尤度の最大値を与える確率の組み合わせを実際に求めても、サンプル内の比率に帰着するだけで、実用上の価値はありませんが、考え方として理解する意味はあるでしょう。 尤度 = p1^N1 * p2^N2 * p3^N3 * p4^N4 * p5^N5 で p1 + p2 + p3 + p4 + p5 = 1 ですから、 尤度 = p1^N1 * p2^N1 * p3^N3 * p4^N4 * (1-p1-p2-p3-p4)^N5 となります。 p1による偏微分は、 尤度p1 = p2^N2 * p3^N3 * p4^N4 *[N1*p1^(N1-1) * (1-p1-p2-p3-p4)^N5 - p1^N1 * N5(1-p1-p2-p3-p4)^(N5-1)] で、極大点では 尤度p1 = 0 となるので、 N1*p1^(N1-1) * (1-p1-p2-p3-p4)^N5 - p1^N1 * N5*(1-p1-p2-p3-p4)^(N5-1) = 0 両辺をp1^(N1-1) * (1-p1-p2-p3-p4)^(N5-1)で割ると、 N1*(1-p1-p2-p3-p4) - N5*p1 = 0 p1~p4で整理して、 (N1 + N5)*p1 + N1*p2 + N1*p3 + N1*p4 = N1 ---(1) 同様に尤度をp2, p3, p4で偏微分して=0と置くと N2*P1 + (N2 + N5)*p2 + N2*p3 + N2*p4 = N2 ---(2) N3*P1 + N3*p2 + (N3 + N5)*P3 + N3*p4 = N3 ---(3) N4*P1 + N4*p2 + N4*p3 + (N4 + N5)*p4 = N4 ---(4) 連立方程式(1)~(4)を解けばp1~p4が求まり、更にp5も求まります。 ご質問のデータを代入すると、 30*p1 + 20*p2 + 20*p3 + 20*p4 = 20 15*p1 + 25*p2 + 15*p3 + 15*p4 = 15 30*p1 + 30*p2 + 40*p3 + 30*p4 = 30 25*p1 + 25*p2 + 25*p3 + 35*p4 = 25 この連立方程式の解は、 p1 = 0.2 p2 = 0.15 p3 = 0.3 p4 = 0.2 p5 = 1 - p1 - p2 - p3 - p4 = 0.1 で、一生懸命計算しましたが、これは単純にサンプルの比率を求めたものと同じ値です。 この時の尤度は、 尤度max = 0.2^20 * 0.15^15 * 0.3^30 * 0.25^25 * 0.1^10 = 8.59818 * 10^(-65) ここでおそらく興味があるのは、例えば, 尤度 >= 0.9 * 尤度max となる、5次元空間(p1, p2, p3, p4, p5)中の領域でしょうか? しかし、これを具体的に求めるには、さらに高度な分析が必要となろうかと思います。 2値の場合のように視覚的に単純に表示するのも困難でしょう。 目的に応じて計算の方針を立てる必要があります。 単純なポイントチェックとして確率を例えば p1 = 0.15 p2 = 0.2 p3 = 0.25 p4 = 0.3 p5 = 0.1 としてみると 尤度 = 0.15^20 * 0.2^15 * 0.25^30 * 0.3^25 * 0.1^10 = 8.00768 * 10^(-69) であり 尤度 = 9.31323 * 10^(-5) * 尤度max ですから殆どあり得ないということは分かります。 この辺を十分に理解されたうえで高度な分析を行って頂ければと思います。
- softwarelearner
- ベストアンサー率66% (2/3)
結果が2値である場合と考え方は同じです。拡張しやすいように2値の場合を次のように書き換えてみます。 効果がある確率 = p1 効果がない確率 = p2 但し、p1 + p2 = 1 のとき実験結果が 効果ありN1回、効果なしN2回なら 尤度 = p1^N1 * p2^N2 となるわけですが、これは即ち変数としておかれた確率値によって実験結果が発生する確率を計算していることになります。 実験結果が5通りならば、 結果1となる確率 = p1 結果2となる確率 = p2 結果3となる確率 = p3 結果4となる確率 = p4 結果5となる確率 = p5 但し、p1 + p2 + p3 + p4 + p5 = 1 のときそれそれの実験結果回数がN1, N2...N5回なら 尤度 = p1^N1 * p2^N2 * p3^N3 * p4^N4 * p5^N5 となります。 さて、エクセルで計算したいとのことですが、結果が2値の場合は単純にp1を0から1まで振れば良いわけですが、結果が5値の場合は5次元空間の(1,0,0,0,0),(0,1,0,0,0)...(0,0,0,0,1)を結ぶ4次元領域が定義域となりますので、全て計算するのは困難でしょう。最尤値とそれを与える確率の組を求めるならば、 p5 = 1 - (p1 + p2 + p3 + p4) とおいて、p1 ~ p4で偏微分して極大点を求めれば良いでしょう。
お礼
お礼欄から、補足を失礼いたします。 題意の多項分布の各々の尤度を算出する際、それぞれ、 P1のサンプル数/総サンプル数 P2のサンプル数/総サンプル数 ・・・ P5のサンプル数/総サンプル数 というように、尤度を算出している、解説本がありました。 ですが、これがあまりにシンプルすぎて、気になっています。 私が、実践で応用したいことは、ここでいうサンプルが時系列に増加していくモデルであり、いざこれらの尤度を使い、ベイズ推定を試していると、精度がよくなかったため、質問させて頂きました。
補足
ご回答ありがとうございます。 勉強不足で、ご教授頂いた、偏微分の方法がわかりません。 よろしければ、補足でご教授を頂けると大変助かります。 P1の偏微分とは、 ・サンプル100個のうち1の回答が20個。 ・回答は、5択。 これらの情報から、どのような式を作るのでしょうか? 宜しくお願い申し上げます。
お礼
ありがとうございます。 お礼が遅れてしまい、申し訳ありません。 >>サンプル内の比率に帰着する 偏微分の方法など、大変勉強になりました。算出方法に、誤りはなかったことがわかり安心しました。 >>ここでおそらく興味があるのは、例えば, 尤度 >= 0.9 * 尤度maxとなる、5次元空間(p1, p2, p3, p4, p5)中の領域でしょうか? 現状の私には、難しく、まだ時間が必要なようです。 親身な回答を下さり、大変ありがとうございました。