• 締切済み

ベイズ統計に関する尤度について

tukunetoの回答

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.1

迷惑メールの中で ”アイドル”が含まれる確率A1|含まれない確率B1 その他の迷惑メール条件A2_|含まれない確率B2 その他の迷惑メール条件A3_|含まれない確率B3 A1とB1を足せば1。(どちらでもないがありそれは無視すると、より良いと、素人考え的には思いますが。 こういう時って、縦の合計は1になりませんよ。 極論”アイドル”と”儲け話”が、スパムメールに100%入っていれば、縦を足したら2になりますし。 あと、表示自体は作らなくてもいいけど、項目の選出は必要かと。 項目の選出で、個性が出るのも、頻度主義でも同じですが、ベイズのほうが結果が揺れ易いというのは、あるかもしれませんね。 あと、確率がなくても、フェルミ推定とかで、ざっくり確率でも結果として、うまく行くんじゃねー?とか、思ってます。 数学は素人なので、勘違いしていたらすいません。

skmsk1941093
質問者

お礼

回答ありがとうございます。言葉は重複で入るのでそれがダブルのカウントですから足して1になる必要はないですね(列を固定した行方向の和)。しかし、その言葉が含まれているメールが迷惑(スパム)か非スパムかということであれば、重複はないから足して1になるように思えます。しかし、(私が言う)尤度表の行を固定した列方向の和(1になりそうな和)も1にはなりません。それは1つのワードに対する2つの分類が示されいるわけではないからそうはならないということなのだろうと思います。尤度表を作成するルールをどう考えたらいいのだろうというのが質問の主旨です。列・行の和が1にならなければならないという制約はない、ということですかね。

関連するQ&A

  • ベイズ統計入門書の例題の尤度について

    ベイズ統計の入門書を読んでいるのですが、いろんな適用方法があるのだとは思いますが、簡単に言うと以下のように見えます。 あのベイズの式があり、尤度が既知で、事前分布を与えると、データに依存して事後確率が変化するということをやっている、ということです。で、その事後確率を次の事前確率として次のデータでさらに次の事後確率を求めるという流れです。漸化式の計算と同じです 確率が事前から事後に流れることが時間発展のような形式となり、データに依存したシミュレーション的なアルゴリズムができそうです。 ここでやや疑問に思えるのが尤度です。尤度とは発展方程式の定数係数のような位置づけのように見てきます。尤度はこのベイズ統計で揺るぎのない確立した数値ということになるのでしょうか。尤度が時間的に変化することもありうるのでしょうか。そうなると未知数の積が出てくるので非線形という印象になるのですが。 ベイズ統計の初等的な事例で、異性が自分に好意を持つ、というようなものが紹介されています。好意を持っている異性の態度が”今日は、いい、普通、悪い”の3種であり、その確率(これが尤度表らしいですが)を既知として保持し、それとデータ(あしたの態度3種)に従って確率が変化するというような事例がありますが、尤度自体が簡単にはわからないものなのではないかと思うのですが。ただ単に興味を引く題材にした事例なのかもしれませんが。尤度についてどのように考えるのでしょうか。 異性の問題では結局、そこが難しいんじゃないか、と聞きたくなるわけですが。よろしくお願いします。

  • ベイズ更新について

    ベイズ統計に詳しい人に教えてもらいたいのですが、念の為に確認させてください。 ------ | A _| B 確率  | 0.6 | 0.4 --------------------- 項目1 | 0.7 | 0.1 項目2 | 0.5 | 0.3 項目3 | 0.2 | 0.5 --------------------- 尤度  | 0.07 | 0.015 の場合、項目の掛け算が尤度で、Aの事後確率は、 0.875=( 0.07*0.6 ) / ( (0.07*0.6) + (0.015*0.4) ) で、良いですか? 違っていたら、訂正おねがいします。 もし、良いのなら、ベイズ更新で事前確率になるのが、0.875になるのですよね? ------ | A _| B 確率  | 0.875| 0.125 --------------------- 項目1 | 0.7 | 0.1 項目2 | 0.5 | 0.3 項目3 | 0.2 | 0.5 --------------------- 尤度  | 0.07 | 0.015 それを計算すると、 0.970=( 0.07*0.875 ) / ( (0.07*0.875) + (0.015*0.125) ) になり、何度か更新すると、1か0になる結果になります。 そうならないために、ベイズ更新というのは、どのタイミングですればよいのでしょうか?

  • ベイズ統計の公式と積分について

    涌井さんの「道具としてのベイズ統計」という本で、勉強をしているのですが、理解できない点があります。 下記のベイズの公式 π(θ|D) = k f(D|θ) × π(θ) ( k = 1/p(D) ) …(1) π(θ| D) ∝ f (D | θ) × π(θ)…(2) より、比例定数kの計算方法がわかりません。 本では、kは確率の総和が1、すなわちθのすべてについて和が1になる性質を利用する と記載されていますが、いまいちピンときません。 例えば、 表が出る確率がθのコインがあり、表・表・裏・裏の順に結果が出た、という問題があります。 そこで1回目の事後分布を求める際、 理由不十分の原則で事前分布はπ(θ)=1、尤度はf(表|θ)=θ よって、事後分布π(θ|D1) ∝ θ × 1 …(3) 0≦θ≦1で確率の総和が1という条件から比例定数が求められます。 よって、1回目の事後分布π(θ|D1) = 2θ …(4) ・・・・以下省略 ここの(3)から(4)を導き出す、計算がわかりません。 どなたか、やさしく教えていただけると大変助かります。 よろしくお願いいたします。

  • 数学のベイズ統計についてお尋ねします。

    ベイズ統計における数学表記についてお尋ねします。事象A, B, Cについてベイズ統計の表記として以下のものがあります(テキストに載っていた)。 P(A|B,C)=P(A,B,C)/P(B,C) P(A,B|C)=P(A,B,C)/P(C) 左辺に出てくる表記でA|B,CというようなものはA|(B,C)というものではないかと思いますが、どうでしょうか。それとも(A|B),Cでしょうか。 A|(B,C) だと事象B,Cが成り立つという条件の下でAが成り立つという意味であり、 (A|B),C だと事象Bが成り立つという条件の下でAが成り立ち、そして(かつ)Cが成り立つ ですね。 表記として解釈が2つ成り立つように思うのですが、どのように整理されるのでしょうか。 あるいはそのどちらでもない、としたらどういう処理になるでしょうか。 また、Pというものを関数と考えたとき、表記上、1,2,3変数どれにも対応しているというところが融通無碍という感じでそれでいいのだろうかという気持ちになります。関数と考えてはいけないのでしょうか。 ベイズ統計の理論は数学的表記に従って式が展開されるので式の表現によって時間を遡ることも許していると思います(逆確率とか)。そのため数式計算としての厳密性(四則演算とかの導入)が必要だと思うのですが。P(様々な事象)ということになるとこんな式の展開はアリか?という疑問も出てきます。どのように整理するのでしょうか。 例えば”|の左右はカッコでまとめることになっている”とかの規則があるとかですが。 よろしくお願いします。

  • ベイズ統計について教えてください

    「目の前にツボが1つあり、AのツボかBのツボのどちらかである。Aのツボには9個の白球と1個の黒球が、Bのツボには2個の白球と8個の黒球が入っている。目の前のツボから1個取り出し色を確認してからツボに戻し、再び1個取り出し色を確認するものとする。 20回球を観測した時、黒球が出た回数に対応して、ツボがBである事後確率について表にしたのである」(小島寛之著「ベイズ統計学入門」pp.157)の表中の数値の求め方が分かりません。 黒の回数 0 1 2   … 事後確率 8,62×(1/10)^14 3.10×(1/10)^12 1.12×(1/10)^10  … 生起確率 1.05×(1/10)^14 8.39×(1/10)^12 3.19×(1/10)^10  … 計算の仕方が分れば、黒の回数3以降は、類推できると思います。よろしくお願いします。

  • ベイズ統計の練習問題について

    ベイズ統計の練習問題のについてお尋ねします。 問題:1袋100g表示の袋が数多くあり、3つのサンプルを取り出して計測すると100,102,104gだったとします。 この袋の重さは分散1の正規分布であることが分かっている場合、袋の重さの事後分布を求めなさい。 ベイズの式は事後分布∝尤度×事前分布ということで、尤度と事前分布を求めて式を変形するようです。 回答によると 尤度:正規分布の式(平均=μ,分散1)に100,102,104のそれぞれを代入して得た表示式の積を取る。 事前分布:値100に対する正規分布(平均=μ,分散1)の値(表示式) として進めていきます。 ここで質問ですが、正規分布(確率密度関数)の式の値に積極的な意味があるのかなという気がして、どういうことなのだろうと思います。 確率密度関数はそれを積分したときに確率が表示されるものであり、積分しないと物理的な意味がないような気がするのですが。 さらに回答を読むと、事前分布について分散1に限定かと思ったら事前分布は未知なので(←いつもそう言われますが)分散を3にして計算してみる、ということになっています。これはなぜでしょうか。 3にしてみるという試行の結果を示すだけで回答が成立するものなのでしょうか。定期試験などで。3でないといけない理由が見出だせないのですが。 よろしくお願いします。

  • ベイズ統計 確率が余る

    問 「5回に1回の割合で帽子を忘れるくせのあるK君が、正月に A、B、C 3軒を順に年始 回りをして家に帰ったとき、帽子を忘れてきたことに気がついた。2軒目の家 B に忘れて きた確率を求めよ。」 答 20/61 http://www004.upp.so-net.ne.jp/s_honma/probability/bayes.htm を見ていて、理解できないので質問します。 1軒目の家 A に忘れてきた確率 PE(A) 3軒目の家 C に忘れてきた確率 PE(C) も 20/61 となり、 1から3軒目に忘れてきた確率の合計は60/61となります。 残りの確率1/61はどこに忘れてきたのでしょうか? 1/5の確率で忘れるK君であろうと、しっかりしていて100万分の1で忘れる聖徳太子君であろうと、3軒まわって忘れていたという前提なら、K君も聖徳太子君も、A,B,Cのどれも1/3 、これ以外の答えが導かれるのが不思議です。

  • 二項分布、多項分布の尤度 最尤推定 ベイズ

    統計学、主にベイズについて、独学している者です。知識があやふやなため、間違っている部分は、ご指摘ください。 例えば、 新薬の実験で、効果がある確率θ、効果がない確率(1-θ)である場合は、二項分布で、尤度を算出することはわかりました。 二項分布のような結果が2通りとなるものはわかるのですが、 結果が3通り、4通り、5通りとなるようなものは、どのように尤度を算出したら良いのかわかりません。 例えば、アンケート調査のような順位尺度(数字に意味はないが、順番には意味があるもの) のある回答データで、 例えば、1、大満足 2、満足 3、普通 4、やや不満 5、かなり不満の回答があるデータが100こあり、 それぞれ 1、20こ 2、15こ 3、30こ 4、25こ 5、10こ であった場合、尤度は、どのように算出すればよいのでしょうか? 出来れば、エクセルでできる範囲の算出方法で、ご教授していただけると助かります。 よろしくお願いいたします。

  • ベイズ定理の式の展開と意味について

    P(A|B)=P(B|A)P(A)/P(B) はよく見るベイズ定理です。 左辺P(A|B)は条件付き確率で事後分布で、P(A)を事前分布、P(B|A)を”Aの条件での尤度”となるそうです。 ここで質問ですが、P(B|A)は見方によっては条件付き確率ということにも見えますが、尤度とのことです。これを尤度というのはなぜなのでしょうか。そも尤度の定義もよくわからない面があります。定義ですから盲目的に覚えるだけなのかもですが、定義の仕方がいろいろあるようにも見えるのですが。 また、P(A|B)=P(B|A)P(A)/P(B)の分母を表記せず、P(A|B)~P(B|A)P(A)のような表記が可能になるようです。これがなぜなのか教えて頂きたいのですが。これは目的依存なのだろうと思いますが、テキストにこのような表記がありました。 よろしくお願いします。

  • 玉を2回取り出す場合のベイズ公式

    いくつかの壺があり、その中に赤白の玉が混合して入っています(ベイズ統計の本によくあるパターン)。そこで壺を選んで玉を取り出して赤の場合のことをRと表現します。P(A|R)は玉が赤だった場合、壺がAである条件付き確率です。尤度になるのでしょうか。 その次が問題なのですが、P(A|RR)はどのように表現できるでしょうか。2回取り出して2回とも赤だった場合、壺がAだった確率ということです。2回玉を取り出しますが、壺もその都度選択するかどうかにもよるかと思いますが、これはどうやって計算するのでしょうか。P(A|R)を使って表現できるでしょうか。ベイズ公式から簡単に類推されるでしょうか。テキスト読んでいてP(A|RR)があまりにも当然のごとく出てかつ計算されているのでどう考えるのだろうと迷ってしまったのですが。よろしくお願いします。