• 締切済み

二項分布、多項分布の尤度 最尤推定 ベイズ

統計学、主にベイズについて、独学している者です。知識があやふやなため、間違っている部分は、ご指摘ください。 例えば、 新薬の実験で、効果がある確率θ、効果がない確率(1-θ)である場合は、二項分布で、尤度を算出することはわかりました。 二項分布のような結果が2通りとなるものはわかるのですが、 結果が3通り、4通り、5通りとなるようなものは、どのように尤度を算出したら良いのかわかりません。 例えば、アンケート調査のような順位尺度(数字に意味はないが、順番には意味があるもの) のある回答データで、 例えば、1、大満足 2、満足 3、普通 4、やや不満 5、かなり不満の回答があるデータが100こあり、 それぞれ 1、20こ 2、15こ 3、30こ 4、25こ 5、10こ であった場合、尤度は、どのように算出すればよいのでしょうか? 出来れば、エクセルでできる範囲の算出方法で、ご教授していただけると助かります。 よろしくお願いいたします。

みんなの回答

回答No.2

ここで尤度の最大値を与える確率の組み合わせを実際に求めても、サンプル内の比率に帰着するだけで、実用上の価値はありませんが、考え方として理解する意味はあるでしょう。 尤度 = p1^N1 * p2^N2 * p3^N3 * p4^N4 * p5^N5 で p1 + p2 + p3 + p4 + p5 = 1 ですから、 尤度 = p1^N1 * p2^N1 * p3^N3 * p4^N4 * (1-p1-p2-p3-p4)^N5 となります。 p1による偏微分は、 尤度p1 = p2^N2 * p3^N3 * p4^N4 *[N1*p1^(N1-1) * (1-p1-p2-p3-p4)^N5 - p1^N1 * N5(1-p1-p2-p3-p4)^(N5-1)] で、極大点では 尤度p1 = 0 となるので、 N1*p1^(N1-1) * (1-p1-p2-p3-p4)^N5 - p1^N1 * N5*(1-p1-p2-p3-p4)^(N5-1) = 0 両辺をp1^(N1-1) * (1-p1-p2-p3-p4)^(N5-1)で割ると、 N1*(1-p1-p2-p3-p4) - N5*p1 = 0 p1~p4で整理して、 (N1 + N5)*p1 + N1*p2 + N1*p3 + N1*p4 = N1 ---(1) 同様に尤度をp2, p3, p4で偏微分して=0と置くと N2*P1 + (N2 + N5)*p2 + N2*p3 + N2*p4 = N2 ---(2) N3*P1 + N3*p2 + (N3 + N5)*P3 + N3*p4 = N3 ---(3) N4*P1 + N4*p2 + N4*p3 + (N4 + N5)*p4 = N4 ---(4) 連立方程式(1)~(4)を解けばp1~p4が求まり、更にp5も求まります。 ご質問のデータを代入すると、 30*p1 + 20*p2 + 20*p3 + 20*p4 = 20 15*p1 + 25*p2 + 15*p3 + 15*p4 = 15 30*p1 + 30*p2 + 40*p3 + 30*p4 = 30 25*p1 + 25*p2 + 25*p3 + 35*p4 = 25 この連立方程式の解は、 p1 = 0.2 p2 = 0.15 p3 = 0.3 p4 = 0.2 p5 = 1 - p1 - p2 - p3 - p4 = 0.1 で、一生懸命計算しましたが、これは単純にサンプルの比率を求めたものと同じ値です。 この時の尤度は、 尤度max = 0.2^20 * 0.15^15 * 0.3^30 * 0.25^25 * 0.1^10 = 8.59818 * 10^(-65) ここでおそらく興味があるのは、例えば, 尤度 >= 0.9 * 尤度max となる、5次元空間(p1, p2, p3, p4, p5)中の領域でしょうか? しかし、これを具体的に求めるには、さらに高度な分析が必要となろうかと思います。 2値の場合のように視覚的に単純に表示するのも困難でしょう。 目的に応じて計算の方針を立てる必要があります。 単純なポイントチェックとして確率を例えば p1 = 0.15 p2 = 0.2 p3 = 0.25 p4 = 0.3 p5 = 0.1 としてみると 尤度 = 0.15^20 * 0.2^15 * 0.25^30 * 0.3^25 * 0.1^10 = 8.00768 * 10^(-69) であり 尤度 = 9.31323 * 10^(-5) * 尤度max ですから殆どあり得ないということは分かります。 この辺を十分に理解されたうえで高度な分析を行って頂ければと思います。

kenthehg
質問者

お礼

ありがとうございます。 お礼が遅れてしまい、申し訳ありません。 >>サンプル内の比率に帰着する 偏微分の方法など、大変勉強になりました。算出方法に、誤りはなかったことがわかり安心しました。 >>ここでおそらく興味があるのは、例えば, 尤度 >= 0.9 * 尤度maxとなる、5次元空間(p1, p2, p3, p4, p5)中の領域でしょうか? 現状の私には、難しく、まだ時間が必要なようです。 親身な回答を下さり、大変ありがとうございました。

回答No.1

結果が2値である場合と考え方は同じです。拡張しやすいように2値の場合を次のように書き換えてみます。 効果がある確率 = p1 効果がない確率 = p2 但し、p1 + p2 = 1 のとき実験結果が 効果ありN1回、効果なしN2回なら 尤度 = p1^N1 * p2^N2 となるわけですが、これは即ち変数としておかれた確率値によって実験結果が発生する確率を計算していることになります。 実験結果が5通りならば、 結果1となる確率 = p1 結果2となる確率 = p2 結果3となる確率 = p3 結果4となる確率 = p4 結果5となる確率 = p5 但し、p1 + p2 + p3 + p4 + p5 = 1 のときそれそれの実験結果回数がN1, N2...N5回なら 尤度 = p1^N1 * p2^N2 * p3^N3 * p4^N4 * p5^N5 となります。 さて、エクセルで計算したいとのことですが、結果が2値の場合は単純にp1を0から1まで振れば良いわけですが、結果が5値の場合は5次元空間の(1,0,0,0,0),(0,1,0,0,0)...(0,0,0,0,1)を結ぶ4次元領域が定義域となりますので、全て計算するのは困難でしょう。最尤値とそれを与える確率の組を求めるならば、 p5 = 1 - (p1 + p2 + p3 + p4) とおいて、p1 ~ p4で偏微分して極大点を求めれば良いでしょう。

kenthehg
質問者

お礼

お礼欄から、補足を失礼いたします。 題意の多項分布の各々の尤度を算出する際、それぞれ、 P1のサンプル数/総サンプル数 P2のサンプル数/総サンプル数 ・・・ P5のサンプル数/総サンプル数 というように、尤度を算出している、解説本がありました。 ですが、これがあまりにシンプルすぎて、気になっています。 私が、実践で応用したいことは、ここでいうサンプルが時系列に増加していくモデルであり、いざこれらの尤度を使い、ベイズ推定を試していると、精度がよくなかったため、質問させて頂きました。

kenthehg
質問者

補足

ご回答ありがとうございます。 勉強不足で、ご教授頂いた、偏微分の方法がわかりません。 よろしければ、補足でご教授を頂けると大変助かります。 P1の偏微分とは、 ・サンプル100個のうち1の回答が20個。 ・回答は、5択。 これらの情報から、どのような式を作るのでしょうか? 宜しくお願い申し上げます。

関連するQ&A

  • ベイズ統計入門書の例題の尤度について

    ベイズ統計の入門書を読んでいるのですが、いろんな適用方法があるのだとは思いますが、簡単に言うと以下のように見えます。 あのベイズの式があり、尤度が既知で、事前分布を与えると、データに依存して事後確率が変化するということをやっている、ということです。で、その事後確率を次の事前確率として次のデータでさらに次の事後確率を求めるという流れです。漸化式の計算と同じです 確率が事前から事後に流れることが時間発展のような形式となり、データに依存したシミュレーション的なアルゴリズムができそうです。 ここでやや疑問に思えるのが尤度です。尤度とは発展方程式の定数係数のような位置づけのように見てきます。尤度はこのベイズ統計で揺るぎのない確立した数値ということになるのでしょうか。尤度が時間的に変化することもありうるのでしょうか。そうなると未知数の積が出てくるので非線形という印象になるのですが。 ベイズ統計の初等的な事例で、異性が自分に好意を持つ、というようなものが紹介されています。好意を持っている異性の態度が”今日は、いい、普通、悪い”の3種であり、その確率(これが尤度表らしいですが)を既知として保持し、それとデータ(あしたの態度3種)に従って確率が変化するというような事例がありますが、尤度自体が簡単にはわからないものなのではないかと思うのですが。ただ単に興味を引く題材にした事例なのかもしれませんが。尤度についてどのように考えるのでしょうか。 異性の問題では結局、そこが難しいんじゃないか、と聞きたくなるわけですが。よろしくお願いします。

  • ガウス分布に対するベイズ推定

    計算・演算が苦手で嫌いな理系大学生です. 質題にもありますが,ガウス分布に対するベイズ推定の計算がほとんど分らない状態で困っているので,この場をお借りして質問させていただきました. 問題は以下の通りです. p(x|u)=N(x|u,b^-1) D={x_1,x_2,・・・,x_N} :観測データ集合 p(u)=N(u|m,a^-1) :uの事前分布 uは未知パラメータ,b,aは精度,m,uは平均,Nはガウス分布とする. このときのベイズ推定でパラメータ推定分布p(u|D)と推定分布p(x|D)を求めよ というものですが,計算が複雑で計算力もないため答えが求まりません. ちなみに答えは p(u|D)=N(u|Um,g^-1) Um=1/(N+λ)*(Σ^N_n=1*x_n+λ*m) g=a+N*b p(x|D)=N(x|Um,a^-1+b^-1) となるらしいです. この計算ができる方にご回答いただけたら幸いです. 詳細な説明もできるだけ含みで,ご回答よろしくお願い致します.

  • ベイズ推定についての質問です

    ベイズ推定に関する質問です。 ある料理店のコース料理のコースがnコース(ここでは5コース)あったとして、1品1品の料理が運ばれてくる中で、「今日は○コースである確率」を更新したいと考えています。 (例) 運ばれてくる料理の順番はランダム ・Aコース ピザ、パスタ、サラダ、アイス ・Bコース ピザ、パスタ、ラザニア、アイス ・Cコース ピザ、ラザニア、サラダ、アイス ・Dコース パスタ、ラザニア、サラダ、アイス ・Eコース パスタ、ラザニア、サラダ、ケーキ それぞれのコースが出やすい確率(事前分布?)はAコースから(0.3,0.3,0.2,0.1,0.1)とします。 【求めたいことをおさらいします】 たとえば今日のコースがAコースとし サラダ→アイス→ピザ→パスタ と1品ずつランダムにでてくると仮定します。 そのときのそれぞれのコースである可能性(確率)の推移を求めたいのです。 1品目(サラダが出された)の時点ではBコースである確率は○%、Eコースである確率は○%など・・・ ここでいくつか質問なのですが (1)コースは多項分布にあたるのでしょうか?または違う分布なのならば教えて頂きたいです。 (2)皆様ならどのような形で推定しますか?ベイズは用いて欲しいです。 例を用いてくださっても結構ですし、運ばれてきた料理を勝手に仮定して更新されていく様子を表してくださっても構いません。 質問の意味が伝わっているか分かりませんが、よろしくお願い致します。 皆様からの質問には返信で対応致します。 皆様の力を貸してください。

  • 最尤推定量

    ベルヌーイ試行のときに、r回目の試行で初めて成功する確率は幾何分布で与えられる。成功したら次の回に移る実験をn回行った結果、実験iではri回目(i=1,2,...,n)の試行で初めて成功というデータが得られた。このデータを用いて幾何分布のパラメタ最尤推定量をもとめよ。 ベルヌーイ試行とはナンですか? そしてこの問題は何を意味しているのか? 最後に求最尤推定量とはどうすれば求められるのか? 私にはこの問題がさっぱりわかりませんでした。どなたかわかりやすく教えてください。お願いします。

  • ベイズ推定 MAP検定 統計

    統計学を勉強している者です。 回帰分析を多少学習し、現在ベイズの定理について解説書で学習しています。 そこで、知識不足もありますが、よく理解できない問題があります。(添付画像参照) 複数の条件のもと、マラソン大会を実施するかしないかの確率を算出する問題です。 過去の記録が7つあり、判断基準は晴雨、温度、湿度、風を元に実施するか中止するかが決まります。 ここで、2つの疑問があります。 (1)判断基準は、複数ありますが、最も実施中止に影響するのが、晴雨の項目だと主観的に考えられます。この影響の度合いを考慮に入れなくてもよいのでしょうか? (2)各判断基準に、互いに相関がある場合は、結果の数値に影響するのでしょうか?(本問題では互いに独立と仮定されています) (補足) 本問題では、 尤度の算出は、当日の天候を元に、それぞれの実施確率、中止確率を算出し、4つを乗算して算出されています。 (晴雨の場合)実施4回のうち雨で実施が2回、中止3回のうち雨で中止が1回。 (温度の場合)実施4回のうち暖で実施が1回、中止3回のうち暖で中止が2回。・・・ 事前確率は、全7回から実施4回、中止3回により算出されています。 最後に (3)この問題に、「より直近の結果を重要視するものとする」といったような条件を付けて、算出することはできるのでしょうか?もしできる場合、どのような考え方で、計算をすればよいでしょうか? 質問ばかりになってしまい申し訳ありません。 どうかよろしくお願いいたします。

  • 二項分布の成功確率を求める方法

    よろしくお願いします。 二項分布はある成功確率の事象を任意の回数、試行した際の確率分布ですね。 これは公式やexcelで解ける内容ですね。 逆に既にある確率分布の結果から簡単に成功確率を求める方法はあるでしょうか? 試行毎の式をいくつか作成して最終的な確率分布の結果(累積和)に合うように無理やり数値を代入していっておおよその値を求めることはできるのですがどうも格好良くありません。 ちょっと数学に弱いものですからなかなか妙案が浮かびません。 どうぞよろしくお願いします。

  • 二項分布の成功確率を求める方法(再々)

    度々、お世話になっております。 先日、以下のような2項分布において成功確率が未知である時の求め方を教えていただきました。 成功確率:0.01 試行回数:200回 以上の二項分布は以下のようになります。 試行  0 1 2 3 4 5 ... 分布 0.1340 0.2707 0.2720 0.1814 0.0902 0.03572 ... 今回は前回の派生になるかと思います。 試行5回における分布の累積は上記結果から0.983977です。 あるいは期待値は1.898284です。 それでは逆に、この結果、すなわち試行5回までの分布情報から成功確率を求めることが可能でしょうか(成功確率が未知と言うことです)? 最終的に何をしたいのかと言うと試行5回においてある基準値(累積値)を設定した場合の成功確率を求めたいのです。

  • ベイズ統計の練習問題について

    ベイズ統計の練習問題のについてお尋ねします。 問題:1袋100g表示の袋が数多くあり、3つのサンプルを取り出して計測すると100,102,104gだったとします。 この袋の重さは分散1の正規分布であることが分かっている場合、袋の重さの事後分布を求めなさい。 ベイズの式は事後分布∝尤度×事前分布ということで、尤度と事前分布を求めて式を変形するようです。 回答によると 尤度:正規分布の式(平均=μ,分散1)に100,102,104のそれぞれを代入して得た表示式の積を取る。 事前分布:値100に対する正規分布(平均=μ,分散1)の値(表示式) として進めていきます。 ここで質問ですが、正規分布(確率密度関数)の式の値に積極的な意味があるのかなという気がして、どういうことなのだろうと思います。 確率密度関数はそれを積分したときに確率が表示されるものであり、積分しないと物理的な意味がないような気がするのですが。 さらに回答を読むと、事前分布について分散1に限定かと思ったら事前分布は未知なので(←いつもそう言われますが)分散を3にして計算してみる、ということになっています。これはなぜでしょうか。 3にしてみるという試行の結果を示すだけで回答が成立するものなのでしょうか。定期試験などで。3でないといけない理由が見出だせないのですが。 よろしくお願いします。

  • ベイズ更新について

    ベイズ統計に詳しい人に教えてもらいたいのですが、念の為に確認させてください。 ------ | A _| B 確率  | 0.6 | 0.4 --------------------- 項目1 | 0.7 | 0.1 項目2 | 0.5 | 0.3 項目3 | 0.2 | 0.5 --------------------- 尤度  | 0.07 | 0.015 の場合、項目の掛け算が尤度で、Aの事後確率は、 0.875=( 0.07*0.6 ) / ( (0.07*0.6) + (0.015*0.4) ) で、良いですか? 違っていたら、訂正おねがいします。 もし、良いのなら、ベイズ更新で事前確率になるのが、0.875になるのですよね? ------ | A _| B 確率  | 0.875| 0.125 --------------------- 項目1 | 0.7 | 0.1 項目2 | 0.5 | 0.3 項目3 | 0.2 | 0.5 --------------------- 尤度  | 0.07 | 0.015 それを計算すると、 0.970=( 0.07*0.875 ) / ( (0.07*0.875) + (0.015*0.125) ) になり、何度か更新すると、1か0になる結果になります。 そうならないために、ベイズ更新というのは、どのタイミングですればよいのでしょうか?

  • 区間推定、尤度、検定などを利用して

    区間推定、尤度、検定などを利用して 以下の事を求めたいと思っていますが、なかなか求まらずにここ数日間四苦八苦しております。 ####【問題】############################ 今、AさんとBさん2人がいます。 「Aさんは "イケメン" だと思いますか?」という質問を 200人に聞いたら80人が「イケメンだと思う」と回答しました。 次に、それとは別に「Bさんは "イケメン" だと思いますか?」という質問を 32人に聞いたら30人が「イケメンだと思う」と回答しました。 この場合、AさんとBさんはどちらが "イケメン" でしょうか? #################################### 自分の考えた感じだと下記の様になると思うのですが・・・・・ 母集団の中でAさんを "イケメン" と回答する割合はp1、 母集団の中でBさんを "イケメン" と回答する割合はp2だとします。 この場合、p1およびp2は未知なわけですから、サンプルから推測を試みます。 Aさんを "イケメン" と言った人は、 200人中80人いる訳ですから、 この場合、割合は 80/200 = 40%  ・・・・・(1) となります。 Bさんを "イケメン" と言った人は 32人中30人いる訳ですから、 この場合、割合は 30/32 = 93.75% ・・・・・(2) となります。 ここで、これらのサンプルからp1、およびp2を区間推定します。 その結果、例えば95%の確率で a < p1 < b c < p2 < d と判断出来た場合、 区間aから区間bまでの間は正規分布になると思います(区間cから区間dまでも同様に正規分布)。 そこで、この2つの正規分布の差の合計値を求め、 その値が大きい方が "イケメン" である。 大体このように考えておりますが、 具体的な "イケメン" らしさというような数値を算出する事はできないでしょうか? 今、自分では出来ずに困っています。 つまり・・・・ Aさんの "イケメン" らしさは θ1、 Bさんの "イケメン" らしさは θ2。 この時、 θ1 > θ2 である。 したがって、Aさんの方がBさんより "イケメン" である。 というような形で判断したいのですが・・・・ 正しい、算出の仕方が判る方いらっしゃいましたら、 是非ともご教授下されば助かります。 よろしくお願い致します。