ベストアンサー

ベイズ統計の初歩的な質問

2008/09/12 15:09

ベイズ統計を復習しているのですが、初歩的な質問があります。例えば、全人口の約0.1%を占める人がかかる病気があります。個人が病気を持っている確率をP(disease)、もっていない確率をP(no disease)とすると P(disease) = 0.001 P(no disease) = 0.999 となります。この病気を持っているか否かを知るためのテストが開発され、臨床試験において以下のような結果が出ました。このテストを、実際に病気を持っている人に行うと、陽性(+)と陰性(-)が出る条件付き確率は P(+|disease) = 0.98 P(-|disease) = 0.02 となり、実際には病気にかかっていない人に行うと P(+|no disease) = 0.03 P(-|no disease) = 0.97 と出たとします。目標は、テストで陽性が出た場合に、それが本当に病気にかかっていることを示す確率、すなわちP(disease|+)を計算する事です。式に当てはめると、以下のようになります。　　　　　　　　　　　　　P(+|disease)P(disease) P(disease|+) = ----------------------------------------------------- 　　　　　　　　P(+|disease)P(disease) + P(+|no disease)P(no disease) 　　　　　　　　　　0.98 x 0.001 P(disease|+) = ---------------------------- 　　　　　　　　0.98 x 0.001 + 0.03 x 0.999 P(disease|+) = 0.032 (非常に見苦しい点お許しを)これは3.2%というかなり小さい確率となります。これは、P(disease)が0.001と非常に小さい事に起因し、母集団の中で病気にかかっている人が少なく、P(disease|+)自体がこの母集団に対して計算されている故と理解できます。でも、一人の患者が知りたい情報は、テストが陽性だったときに限って、実際に病気にかかっている確率です。この計算をするときに、ベイズ的に事前分布を主観的に選べるとすると、P(disease)をどのように設定すべきなのでしょうか。これを0から1までの広範囲で変化させると、どのような結果も得られてしまいます。一番信頼できるのは、データが既にあるP(disease) = 0.001なので、これを使うべきことは理解出きるのですが、P(disease|+) = 0.032という数値はちょっと直感的に違うと思うのですが。ひとりの患者にとっては、P(+|disease) = 0.98を一番有用な情報とするのが無難なのでしょうか。ベイズ統計の基本的な解釈で引っかかった点なので、ご教示のほどよろしくお願いいたします。

punichapi
お礼率94% (16/17)

数学・算数
回答数2
ありがとう数3

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

arrysthmia
ベストアンサー率38% (442/1154)

2008/09/13 03:15 回答No.2

何が有用か？は、主観的な判断なので、その結論を、数学的に与えることはできません。要するに、どう感ずるかというだけの話ですから。しかし、「有用な情報」に関する薀蓄をひとまず脇に置いて、診断とは何か？を考えれば、それは、個々の患者に関して、その人が病気に罹っている確率を見積もることです。 P(disease|+) の値は、その参考になります。 P(disease) = 0.001 や P(+|disease) = 0.98 は、値が 0 や 1 に近いので、何か確実なことを言っているような感じはしますが、 P(disease) ≒ 0 は、単にその病気が珍しいこと、 P(+|disease) ≒ 1 は、その検査の感度が高いことを示しているだけで、検査が陽性だった患者の診断について、何の情報も表していません。 P(disease|+) = 0.032 という値が小さいことから「有用でない」と考えているように見受けられますが、とんでもない。世間一般的に P(disease) = 0.001 である病気が、ある患者について P(disease|+) = 0.032 と判ったということは、検査が陽性だったことによって、その病気である疑いが 32倍も高まったと解釈すべきものと思われます。

質問者

お礼 2008/11/16 10:26

arrysthmia様。お礼が大変遅れてしまいました。ご指摘もっともです。ただ、陽性である確率が32倍に膨らむというという感覚が、なかなか主観的に分かりづらいという感じがして、モヤモヤしました(解釈という意味で、おっしゃられている事がクリアでないということではありません。悪しからず)。なにか、確実性についての数値的な指標、例えば、このテストで陽性が出れば、○○%の確率で病気だ、とすっきり言えない点に、なにか引っかかるものがあるというか・・・。こういったテストは何を診断しているのかな？という感覚が残ってしまう。まだまだ私はfrequentistなのでしょうか(笑)。回答ありがとうございます。

その他の回答 (1)

cosmos-kt
ベストアンサー率29% (43/147)

2008/09/12 16:19 回答No.1

ベイズ統計の場合には、基本的に確率遷移モデルとして統計データを解析するときなどに用いることが多いですね。この場合、一番信頼できるデータは「0.01」であるが、もしも何らかの原因で伝染したり、問題が生じるなどの場合には、「0.032」になります。そして、「0.98」の確率で無事であるというのが普通のことだと思います。難しいのは、この後の処理で・・・解釈としてみれば、確かにポジティブな値の方が良い場合もありますし、ネガティブな値の方が良い場合もあります。人間という生き物が、「どちらの情報が良いのか？」という難しさを抱えているからであるというのが本当のところです。現実としてみれば、両方の値を正直に示すことが、大事ではないでしょうか？

質問者

お礼 2008/11/16 10:30

cosmos-kt様お礼が遅れてしまい申し訳ありません。主観が入るのがベイズの独特な点だと思いますが、なかなか解釈がすっきりしない時があるので、もやもやする一例でした。それ故、素直に出た値を示すことが重要だという事に同意です。回答有難うございました。

関連するQ&A

数学のベイズ統計についてお尋ねします。
ベイズ統計における数学表記についてお尋ねします。事象A, B, Cについてベイズ統計の表記として以下のものがあります（テキストに載っていた）。 P(A|B,C)=P(A,B,C)/P(B,C) P(A,B|C)=P(A,B,C)/P(C) 左辺に出てくる表記でA|B,CというようなものはA|(B,C)というものではないかと思いますが、どうでしょうか。それとも(A|B),Cでしょうか。 A|(B,C) だと事象B,Cが成り立つという条件の下でAが成り立つという意味であり、 (A|B),C だと事象Bが成り立つという条件の下でAが成り立ち、そして（かつ）Cが成り立つ　ですね。表記として解釈が２つ成り立つように思うのですが、どのように整理されるのでしょうか。あるいはそのどちらでもない、としたらどういう処理になるでしょうか。また、Pというものを関数と考えたとき、表記上、1,2,3変数どれにも対応しているというところが融通無碍という感じでそれでいいのだろうかという気持ちになります。関数と考えてはいけないのでしょうか。ベイズ統計の理論は数学的表記に従って式が展開されるので式の表現によって時間を遡ることも許していると思います（逆確率とか）。そのため数式計算としての厳密性（四則演算とかの導入）が必要だと思うのですが。P（様々な事象）ということになるとこんな式の展開はアリか？という疑問も出てきます。どのように整理するのでしょうか。例えば”｜の左右はカッコでまとめることになっている”とかの規則があるとかですが。よろしくお願いします。
- 締切済み
- 数学・算数
ベイズ更新について
ベイズ統計に詳しい人に教えてもらいたいのですが、念の為に確認させてください。 ------　｜　A　＿｜　B 確率　　｜　0.6　｜　0.4 --------------------- 項目１　｜　0.7　｜　0.1 項目２　｜　0.5　｜　0.3 項目３　｜　0.2　｜　0.5 --------------------- 尤度　　｜　0.07　｜　0.015 の場合、項目の掛け算が尤度で、Ａの事後確率は、 0.875=( 0.07*0.6 ) / ( (0.07*0.6) + (0.015*0.4) ) で、良いですか？違っていたら、訂正おねがいします。もし、良いのなら、ベイズ更新で事前確率になるのが、0.875になるのですよね？ ------　｜　A　＿｜　B 確率　　｜　0.875｜　0.125 --------------------- 項目１　｜　0.7　｜　0.1 項目２　｜　0.5　｜　0.3 項目３　｜　0.2　｜　0.5 --------------------- 尤度　　｜　0.07　｜　0.015 それを計算すると、 0.970=( 0.07*0.875 ) / ( (0.07*0.875) + (0.015*0.125) ) になり、何度か更新すると、１か０になる結果になります。そうならないために、ベイズ更新というのは、どのタイミングですればよいのでしょうか？
- ベストアンサー
- 数学・算数
ベイズ統計の公式と積分について
涌井さんの「道具としてのベイズ統計」という本で、勉強をしているのですが、理解できない点があります。下記のベイズの公式 π（θ|D) = k f(D|θ) × π(θ) ( k = 1/p(D) )　…(1) π（θ| D) ∝ f (D | θ) × π(θ）…(2) より、比例定数kの計算方法がわかりません。本では、kは確率の総和が１、すなわちθのすべてについて和が１になる性質を利用すると記載されていますが、いまいちピンときません。例えば、表が出る確率がθのコインがあり、表・表・裏・裏の順に結果が出た、という問題があります。そこで１回目の事後分布を求める際、理由不十分の原則で事前分布はπ(θ)=1、尤度はf(表|θ)=θ よって、事後分布π(θ|D1) ∝ θ × 1　…(3) 0≦θ≦1で確率の総和が1という条件から比例定数が求められます。よって、１回目の事後分布π(θ|D1) = 2θ …(4) ・・・・以下省略ここの(3)から(4)を導き出す、計算がわかりません。どなたか、やさしく教えていただけると大変助かります。よろしくお願いいたします。
- ベストアンサー
- 数学・算数
ベイズ統計に関する尤度について
ベイズ統計を展開していく際に尤度が分かっているということが前提となります。その尤度について表のようなものを作成するわけですが、例えば、迷惑メール、非迷惑メールに”アイドル”と言う言葉が含まれるかどうかを考えます。迷惑メールの中で”アイドル”が含まれる確率A、非迷惑メールの中で”アイドル”が含まれる確率Bがそれぞれ分かっていると仮定するわけですが、一方でアイドルという単語を含むメールに関して迷惑メールである確率C、非迷惑メールである確率Dも定義可能ですね。この場合、A+B≠1（これは当然）, C+D=1（迷惑か非迷惑かしかないから）という違いがあります。実際にある練習問題ではA,Bの方を使っているのですが、C,Dのように確率が足して1になるという風にして尤度を考えることもできるように思うのです。尤度表の縦、横方向に足して１になるという風にして表を作る必要は必ずしもないのでしょうか。尤度表を作るところこそがベイズ統計の肝というか個性が出るところだと思うのですが。よろしくお願いします。
- 締切済み
- 数学・算数
ベイズ統計入門書の例題の尤度について
ベイズ統計の入門書を読んでいるのですが、いろんな適用方法があるのだとは思いますが、簡単に言うと以下のように見えます。あのベイズの式があり、尤度が既知で、事前分布を与えると、データに依存して事後確率が変化するということをやっている、ということです。で、その事後確率を次の事前確率として次のデータでさらに次の事後確率を求めるという流れです。漸化式の計算と同じです確率が事前から事後に流れることが時間発展のような形式となり、データに依存したシミュレーション的なアルゴリズムができそうです。ここでやや疑問に思えるのが尤度です。尤度とは発展方程式の定数係数のような位置づけのように見てきます。尤度はこのベイズ統計で揺るぎのない確立した数値ということになるのでしょうか。尤度が時間的に変化することもありうるのでしょうか。そうなると未知数の積が出てくるので非線形という印象になるのですが。ベイズ統計の初等的な事例で、異性が自分に好意を持つ、というようなものが紹介されています。好意を持っている異性の態度が”今日は、いい、普通、悪い”の３種であり、その確率（これが尤度表らしいですが）を既知として保持し、それとデータ（あしたの態度3種）に従って確率が変化するというような事例がありますが、尤度自体が簡単にはわからないものなのではないかと思うのですが。ただ単に興味を引く題材にした事例なのかもしれませんが。尤度についてどのように考えるのでしょうか。異性の問題では結局、そこが難しいんじゃないか、と聞きたくなるわけですが。よろしくお願いします。
- 締切済み
- 数学・算数
ベイズ統計について教えてください
「目の前にツボが1つあり、AのツボかBのツボのどちらかである。Aのツボには9個の白球と1個の黒球が、Bのツボには2個の白球と8個の黒球が入っている。目の前のツボから1個取り出し色を確認してからツボに戻し、再び1個取り出し色を確認するものとする。 20回球を観測した時、黒球が出た回数に対応して、ツボがBである事後確率について表にしたのである」（小島寛之著「ベイズ統計学入門」pp.157）の表中の数値の求め方が分かりません。黒の回数 0 1 2 　 … 事後確率 8,62×(1/10)^14 3.10×(1/10)^12　1.12×(1/10)^10　 … 生起確率 1.05×(1/10)^14 8.39×(1/10)^12 3.19×(1/10)^10　 … 計算の仕方が分れば、黒の回数3以降は、類推できると思います。よろしくお願いします。
- 締切済み
- 数学・算数
ベイズの定理
ある地域の住民のうち、１％がウィルス感染者とし、このウィルスをある検査方法で、検査すると、感染者が陽性を示す確率は９８％、非感染者が陽性を示す確率を５％とする。（１）ある住人が陽性と判定されたとき、その人が感染者である確立を求めよ。（２）ある住人が陰性と判定されたとき、その人が実は感染者である確立を求めよ。この（１）（２）とも自力で解いたのですが、出てきた答えに実感がわかないので質問させて頂きました。（１）検査される人が感染者である事象をＴ、そうでない事象をＦとする。さらに、検査で陽性を示すという事象をＡとする。事象の起こる確立を、Ｐ（事象）と表すこととすると、求める確立は、Ｐ（Ｅ｜Ａ）である。ここで、ベイズの定理より、Ｐ（Ｅ｜Ａ）＝｛Ｐ（Ｅ）Ｐ（Ａ｜Ｅ）｝/｛Ｐ（Ｅ）Ｐ（Ａ｜Ｅ）＋Ｐ（Ｄ）Ｐ（Ａ｜Ｄ）｝＝｛0.01×0.98}/{0.01×0.98＋0.99×0.05｝・・・＝0.165 （２）陰性を示した事象をＢとし、求める確立はＰ（Ｅ｜Ｂ）で、ベイズの定理から、Ｐ（Ｅ｜Ｂ）＝｛Ｐ（Ｅ）Ｐ（Ｂ｜Ｅ）｝/｛Ｐ（Ｅ）Ｐ（Ｂ｜Ｅ）＋Ｐ（Ｄ）Ｐ（Ｂ｜Ｄ）＝{0.01×0.02}/{0.01×0.02＋0.99×0.95｝・・・＝0.0000213 このような考え方で正しいのでしょうか？よろしくお願いします。
- ベストアンサー
- 数学・算数
確率（統計？）の問題です。助けてください！
統計の授業で練習問題として出てきたのですが、基礎も習ってない上に問題を出されたために分からなくて困っています。病気の検査法の検出率の問題で (少し分かりにくくて恐縮ですが表計算ソフトで表されるような表だと思ってください↓) b 病人正常 0.98 0.05 陽性 | a 0.02 0.95 陰性 1.0 | 1.0 病気の罹病（りびょう）率（発症する確率）0.01とする。 Q:陽性の結果が出た場合、その人が病人である確率はどの程度か？このような問題で、ベイズの定理と呼ばれる公式がこの問題の上に記述してあります。（それを使って解くのでしょうか・・？）どなたか解答法をご存じの方が見えましたら、ご教授の程よろしくお願い申し上げます。
- 締切済み
- 数学・算数
自由意志、自由選択とベイズ統計について。
人の行動、自由意志、自由選択は、フィジカルに依存するが、本質的にはベイズ統計的なものですか？つまり、「自由選択ができたはずだ」というのは、事後確率からみた幻想であって、事後確率が出力される前の事前確率において、一番高い可能性が、選択されたにほかなりませんか？
- 締切済み
- 数学・算数
玉を2回取り出す場合のベイズ公式
いくつかの壺があり、その中に赤白の玉が混合して入っています（ベイズ統計の本によくあるパターン）。そこで壺を選んで玉を取り出して赤の場合のことをRと表現します。P(A|R)は玉が赤だった場合、壺がAである条件付き確率です。尤度になるのでしょうか。その次が問題なのですが、P(A|RR)はどのように表現できるでしょうか。2回取り出して2回とも赤だった場合、壺がAだった確率ということです。2回玉を取り出しますが、壺もその都度選択するかどうかにもよるかと思いますが、これはどうやって計算するのでしょうか。P(A|R)を使って表現できるでしょうか。ベイズ公式から簡単に類推されるでしょうか。テキスト読んでいてP(A|RR)があまりにも当然のごとく出てかつ計算されているのでどう考えるのだろうと迷ってしまったのですが。よろしくお願いします。
- 締切済み
- 数学・算数

ベイズ統計の初歩的な質問

質問者が選んだベストアンサー

お礼 2008/11/16 10:26

その他の回答 (1)

お礼 2008/11/16 10:30

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

ベイズ統計の初歩的な質問

質問者が選んだベストアンサー

お礼 2008/11/16 10:26

その他の回答 (1)

お礼 2008/11/16 10:30

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録