• ベストアンサー

最尤推定法について

最尤法を勉強しています。 当方、確率・統計が苦手でして、できれば初心者にわかるように解説お願いします。初歩的なことなのかもしれませんが、 最尤推定法: 未知の母数pをいろいろ変化させて,調査して得られた実際のデータが起こる確率が1番大きくなるようなpの値を用いて母数の推定値とする方法 (http://izumi-math.jp/T_Syoda/estimate.pdfを参考にしました) とありますが、どうしてこのときのpを最良推定値として良いのでしょうか?これがわかれば、データの分布がこの問題のようにベルヌーイ施行だろうが、あるいはガウス分布であろうが理解できると思うのです。wikiの方も確認していますが、結局、根本は同じだと思います。 理解している方、よろしくお願い致します。

  • g47040
  • お礼率55% (125/226)

質問者が選んだベストアンサー

  • ベストアンサー
  • gef00675
  • ベストアンサー率56% (57/100)
回答No.3

#1の方の回答のように、「実際に得られた結果を実現するように母数pを選ぶのがよかろう」というのが、たぶん一番直観的な説明と思う。 あえて理屈っぽい説明をすると、質問にあった母数pの二項分布B(n,p)の例では、 n回の試行によって、k回実現する確率は C[n,k]*p^k*(1-p)^(n-k), (C[n,k]は2項係数) だから、尤度は L(p)=C[n,k]*p^k*(1-p)^(n-k) この最大値を計算するには、対数をとっておくと計算がしやすくて、 log L(p)=k*log(p)+(n-k)*log(1-p)+log C[n,k] 最大値を求めるため微分して0とおくと、 (d/dp)log L(p)=k/p+(n-k)/(1-p)=0 これを解いて得られる推定の式は、 p=k/n となる。この式は、難しいことを何も考えずに、「n回やってk回起ったのだから、1回あたりk/nの確率で起るのだろう」と単純に考えたのと何ら変わらない式である。 これが、良い推定値になっているかをチェックしてみよう。 1.まず、nを大きくしたらどうなるか?  大数の法則によって、k/nはpに収束する。あたり前である。そういう割合k/nが、確率pの意味であった。 2.k/nの平均はどうなっているか?  二項分布の平均値は、E[k]=npであったから、E[k/n]=pになっている。つまり、k/nという推定値は、平均的にpのまわりでばらつくといえる。OKである。 3.k/nの分散(=推定の誤差)はどうなっているか?  二項分布の分散は、Var[k]=np(1-p)であったから、k/nの分散はVar[k/n]=np(1-p)/n^2=p(1-p)/nになる。実は、pを推定するときの誤差をこれ以上小さくすることはできない。pを推定するために、E[θ(k)]=pを満たすような他のどんな式θ(k)をつかっても、その分散は常に Var[θ(k)]≧1/E[(((d/dp)log L(p))^2]。。。(#) =1/E[(k/p+(n-k)/(1-p))^2]=p(1-p)/n となって、最尤推定の式k/nの分散の値p(1-p)/nより大きくなってしまうのである。(#)をクラメール・ラオの不等式という。 こうして、pを推定する式p=k/nは、平均的に誤差が最も小さいという意味で、「最も良い推定値」になっているということが確認できた。 というのが、統計的推定の理論である。。。なるべく直観的にと思ったが、推定の誤差が一番小さくなるという以外に、良い推定値であることの説明を思いつかなかった。

g47040
質問者

お礼

早速の回答ありがとうございます。なんとなくですが、お蔭様でわかってきました。 まさに説明していただいているように、尤度の極値を与えるパラメータpを、どうして良い推定値としてよいか、ということがわからなかったのですが、 この最尤推定法から得られたpが平均的に誤差が最も小さくなるから、pは良い推定値といえる、ということですね。 直感的にいうと、どういうことか、というのが今いちピンとこないのが正直なところですが、もう少し考えてみます。

その他の回答 (3)

noname#227064
noname#227064
回答No.4

直感的にとのことなので図で考えたほうがよいと思います。 まず未知母数pがどんな値でもいいのですが、その確率(密度)分布を考えてください。 いうまでもなく確率(密度)の大きいあたりが実現しやすい値です。 次に、未知母数、確率変数及び確率(密度)を軸にして、3次元の図を描いてみてください。 未知母数を一定にして考えれば普通の確率(密度)分布です。 しかしわかっているのは確率変数の実現値だけですので、確率変数を一定にした未知母数対確率(密度)の図を考えて見ましょう。 確率(密度)分布の場合、確率(密度)の大きいところが実現しやすい値でしたので、未知母数対確率(密度)の図でも確率(密度)の大きいところが一番ありうることではと考えるのが最尤推定法です。 ただし、未知母数対確率(密度)の図は確率(密度)分布ではありませんので、確率(密度)の軸もそのまま確率(密度)と考えるわけにはいかなくなります。

  • gef00675
  • ベストアンサー率56% (57/100)
回答No.2

未知母数の推定とは、要するにデータXkを変数とする、ある関数をθ(X1,X2,...,Xn)を適当に作ってやり、これがなるべく母数pに近い値になるようにしてやろうということ。そのような関数θ(X1,X2,...,Xn)の決め方はいろいろあって、その一つが最尤推定(maximum likelihood estimator; MLEと略す)。対象とする分布の関数形がわかれば、MLEは割と簡単に計算できることが多い。 その際、何をもって「良い推定値」とするかには、いろいろな基準がある。 一致性: n→∞の極限で、θがpに収束すること。これが成り立たないと話にならない。MLEはたいてい、これを満たす。 不偏性: θの平均がpと等しいこと。p=E(θ)。これも成り立っていてほしいが、MLEは、不偏性を満たす場合と、満たさない場合がある。 有効性: θが不偏で、かつ、θの分散が最小であること。つまり、他の推定の式で得られた推定値よりも、必ずばらつき(=誤差)が小さくなっているということで、ある意味、これ以上良い結果は得られないといえる。ただし、そのような関数θが必ず見つかるとは限らない。(分散の最小値の存在はクラメール・ラオの不等式によって保証されるが、式の構成が難しいということである。簡単にできる例としては、最良線形不偏推定量BLUEがある。) 漸近有効性: 有効性の条件を少し緩めて、小さいnでの有効性はあきらめて、大きいnで分散が最小値に近くなればよしとする。(正確な定義は少し難しい)MLEは漸近有効性を満たす。 十分性: データXkが与えられたときのθの条件付確率分布が母数によらないこと。ちょっと説明しにくいが、条件付確率が元の母数pによらないということは、データXkから得られた情報をすべて使い尽くしていることを意味すると思ってほしい。推定値が母数に近いかどうかではなく、推定の式θを本質的に改良する余地が残っていないことを基準にしている。MLEは十分性を満たす。 一例として、独立かつ同一の正規分布から得られたデータに基づいて、分布の平均μを推定する式:θ=(x1+x2+...+xn)/nは上記の性質をすべて満たす。ありふれた式だが、その仮定のもとで、これ以上良い式はないということである。 だいたい、以上のことが、最尤推定法が用いられる根拠になっている。ただ、推定というのはいろいろな考え方ができる(答えが一つに決まらない問題!)から、絶対に最尤推定法を用いなければならない、というわけでもない。

g47040
質問者

お礼

回答ありがとうございます。 最尤推定法を使う手順は(ネットより引用) 1. 尤度方程式を作る: 確率論的モデルを作り (データがどういう確率分布に従うか,確率分布のパラメーターの関数型はどうなってるか),それを数式として定義する……これが尤度方程式である 2. 尤度最大化によって最尤推定値を計算する: そのモデルで定義される「尤度 (ゆうど)」を最大化させるパラメーター推定値を計算する……これが最尤推定値 (maximum likelihood estimate; MLE) 以上のようになっていると思いますが、この手順はほぼ理解しているんですけど、どうして尤度を際生かさせるパラメータ推定値を、最良の推定値としてよいかというのが直感的にわからないのです。 もしわかればご返答下さい。

g47040
質問者

補足

尤度を際生かさせる→尤度を最大化させる の間違いでした。

  • LTCM1998
  • ベストアンサー率31% (238/747)
回答No.1

ちょっとガサツな理解なのですが。 サイコロを5回投げて、5回とも“6”の目が出る確率は、ふつうに考えれば(1/6)^5という、低いものになりますよね。 それは、「サイコロが正六面体でゆがみがない」と知っている前提があって、確率を考えるからです。 しかし、サイコロの全体像が見えなくて、スロットマシンのような窓から出た目だけが観測できる状態だとします。 「6が出たぞ」と出た目は分かりますが、次に“7”や“100”、あるいは“-10”が出るかもしれず、予測ができません。 この場合に、「いままで連続5回、“6”が出たから、どうやらこの窓に一番出やすいのは“6”らしい」として、確率を推定するのが最尤法です。 全体像が明らかではないために、観測データをもとに、そういう値がもっとも出やすい確率を考えているわけです。 上記の「6ばっかり出る」スロットサイコロでは、“6”以外の目が出る確率が低くないと、現実の5連続“6”を説明できなくなる、と言い換えてもいいでしょう。 おっしゃるように、データの分布がどのような形をしていようと、サンプル数が大きく独立かつ同一ならば、中心極限定理が使えます。 スロットサイコロでいえば、たくさんやれば、いちばん出やすい“6”を中心とする正規分布に近づきます。 “6”がこんなに出るんだ、という事実(観測値)にあわせて、確率を知ろうとしているわけです。

g47040
質問者

お礼

回答ありがとうございます。No.2の方と重複してしまいますが、 最尤推定法を使う手順は(ネットより引用) 1. 尤度方程式を作る: 確率論的モデルを作り (データがどういう確率分布に従うか,確率分布のパラメーターの関数型はどうなってるか),それを数式として定義する……これが尤度方程式である 2. 尤度最大化によって最尤推定値を計算する: そのモデルで定義される「尤度 (ゆうど)」を最大化させるパラメーター推定値を計算する……これが最尤推定値 (maximum likelihood estimate; MLE) 以上のようになっていると思いますが、この手順はほぼ理解しているんですけど、どうして尤度を際生かさせるパラメータ推定値を、最良の推定値としてよいかというのが直感的にわからないのです。 もしわかればご返答下さい。

関連するQ&A

  • 最尤推定量

    ベルヌーイ試行のときに、r回目の試行で初めて成功する確率は幾何分布で与えられる。成功したら次の回に移る実験をn回行った結果、実験iではri回目(i=1,2,...,n)の試行で初めて成功というデータが得られた。このデータを用いて幾何分布のパラメタ最尤推定量をもとめよ。 ベルヌーイ試行とはナンですか? そしてこの問題は何を意味しているのか? 最後に求最尤推定量とはどうすれば求められるのか? 私にはこの問題がさっぱりわかりませんでした。どなたかわかりやすく教えてください。お願いします。

  • 最尤推定法の考え方

    現在統計の勉強をしています.現在,最尤推定法でつまずいていて,自分で調べたりしたのですが,いまいち理解できないので教えてください. 「尤度関数がp(z^k | x)であるとして,事前確率密度関数がp(x)である場合,最大となるp(z^k | x)がp(x)であると推定する」 という考え方でよろしいのでしょうか? よろしくお願いします.

  • 最尤推定量の期待値

    以下に挙げました問題は、最尤推定量の期待値を求めて、不偏性が成り立たないことを示すことが趣旨だと思うのですが、最尤推定量3/{2*(X_1^2 , X_2^2 ,X_3^2)}まで出した後、分母に確率変数が入っているために期待値の出し方が分からなくなってしまいました。どなたかお知恵を貸して頂けませんでしょうか。 問題 母数¥theta(>0)を含んだ密度関数f(x)=√(¥theta / ¥pi)*exp(-¥theta*x^2) (下手な書き方ですみません。一応平均が0、分散が(1/2)*¥thetaの正規分布ということになると思います。) に於いて、無作為標本X_1,X_2,X_3が与えられた時の¥thetaの最尤推定量をTとする。この時Tの期待値を求めよ。

  • 統計学、最尤推定について

    統計学、最尤推定について こんにちは。早速ですが、質問させてください。 ある分布、ここでは例としてワイブル分布W(m,η)のパラメータについて考えます。 ここに、mはワイブルパラメータ、ηは尺度パラメータです。 ワイブル分布に従うデータx1,...,xnからパラメータを最尤推定します。 このとき、例えば、m=2が真の値だとして、その値を既知としたもとで最尤推定 された\hat{η}(m)と、その値を未知としたもとで最尤推定された\hat{m}の共分散を 求めたいがどうすれば良いかと言うのが質問です。 分かりづらいシチュエーションですが、ある証明の中で個の共分散を使いたいのです。 よろしくお願いいたします。

  • 最尤推定法の式変形

    確率密度関数が多変量正規分布の場合に、最尤推定を用いて平均・分散を推定する式の導出で躓いています。 具体的には、以下のアドレスに公開されているPDFの4ページ、偏微分の部分がどのように計算しているのか理解できていません。 http://www.geocities.co.jp/technopolis/5893/4-2.pdf どのようにしてこのような式変形が行われているのか、どなたか教えていただけますか? よろしくお願い致します。

  • 最尤推定量の問題

    現在、統計の勉強をしているのですが、 最尤推定量というものが、いまいち理解できません。 確立変数Xが f(x|μ,θ)=1/2θ * exp(-|x-μ|/θ)の密度分布を持つ。 今、2m+1個のサンプルx1<x2...<x2m+1 を得たとして、 μ=0のときの、μの最尤推定量。 また、その最尤推定量の漸近分散の2つを求める 問題なのですが、どのようにして解けばいいのかがわかりません。 関数にμ=0を代入して微分すればよいのでしょうか。 また、漸近分散は普通の分散と違うのでしょうか。 よろしくお願いします。

  • 最尤推定量の問題がわかりません。

    次の問題がよくわかりません。どうやって解いたらよいのか途方に暮れています。 X1,X2.....,Xn は n個 のコインを投げて 表=1 裏=0 とするinddicator variableであるとする。 Y はXi /n の合計で、P(表)の最尤推定量(MLE)であり、確率変数であるとする。   (Y = (Σ1=<i=<n Xi)/n ) この平均をθとし、P(表)のわからない値であるとし、 MLEはバイアスがかかっていないとする。   (E[Y] = θであるなら、θの推定量Yはバイアスがかかっていない.   E[Y] = (Σ1=<i=<n E[Xi])/n = nθ/n = θ) この条件で、 a) 表、裏、表 とでたらY の値はどうなるか b) Yの分散は(nとθの関数として)何とあらわせるか? 次に上の条件のもとに、投げたコインの最初の結果以外は無視しするものとして、 たとえば表立った場合 Y’=1,そうでなければ Y’=0とした場合、 c) 表表裏とでた場合、Yはどうあらわせるか?表裏表は?裏表表は? d) この確率変数 Y’の平均と分散は(nとθの関数として)何とあらわせるか? e) θの推定量として、Y’はバイアスはかかっているか?   また、それは最尤推定量であるか?   Y,またはY’はベルヌーイの確率変数の確率を推定するのに適しているか?   なぜ? 大変困っています。よろしくお願いします。

  • ベルヌーイ分布の質問です。

    確率変数X1,X2,…,Xnが独立に同一の成功の確率Pを持つベルヌイ分布に従うときV(Xi) = P(1-P) の最尤推定量 が (ΣXi / n) (1 - (ΣXi / n) ) になる理由を教えていただきたいのですが。 よろしくお願いいたします。

  • 最尤法について

    現在、独学で最尤法について勉強しています。その中で、少し疑問に思った事があり質問させていただきました。 最尤法について調べると、 ・最尤法は、尤度と呼ばれる量を最大化する事で、確率分布のパラメータを推測する方法。 ・尤度関数が最大となるパラメータ値を求める。 などの記述があり、母集団が正規分布に従うとき標本の値から正規分布のパラメータを推測する例題などがありました。 概念としては理解できているつもりなのですが、何故最尤法が必要となってくるのかがピンときません。 というのも、例えば正規分布のパラメータを知りたいのならば、最尤法を用いなくても「平均値」「分散」という統計量を標本値から求めてしまえば良いのではないでしょうか。他の分布についても、ほとんどの分布は統計量からパラメータを求める事が出来るのではないのでしょうか。 そういった疑問を踏まえて、次の二点について悩んでいます。 ・最尤法によって求められるパラメータ値は統計量から直接求められるパラメータ値と同じものになるのか?(使用する標本は同じもの) ・もし同じものならば、最尤法を利用すべき状況とは一体何なのか。 (自分としては、統計量から求められるパラメータがどれぐらい正しいのかをcheckするぐらいしか利用価値が無いのではないかと思っています。) まだまだ勉強し始めて日も浅いので、もしかすると的外れな疑問なのかもしれませんが、お答えいただけると助かります。

  • 確率変数の問題です。

    確率変数X1,X2,…,Xnが独立に同一の成功の確率pをもつベルヌイ分布に従うとき 1)n=5,X1=1,X2=0,X3=0,X4=1,X5=1であるとき、pの推定値を1つ挙げ、その理由も述べよ。 2)尤度関数を構成し、それを最大化することによって、再尤推定量を計算せよ。 3)上と同様にしてV(Xi)の最尤推定量を求めよ。また、この推定量が不偏推定量定数かそうでないかを調べよ。 上記の3題についてなのですが、ベルヌイ分布はXを確率pで値1をとり、確率q=1-pで値0をとる確率変数ということはわかるのですが実際に数値で出された場合はどのように示せばよいのでしょうか? また2)3)については全く解答の見当がつきません。 尤度関数というのは何でしょうか?確率統計のテキストにはのっていません。ネットで調べましたがイマイチよくわかりません。 解法、考え方等教えていただきたいのですがどなたかお力を貸していただけないでしょうか? よろしくお願いいたします。