ベイズと頻度論はデータ量が多ければ漸近してくるもの

このQ&Aのポイント
  • ベイズの方法は計量経済学の予測に適しているのか
  • 頻度論とベイズの仮定の違いについて
  • ベイズと頻度論の使い分けとデータ量について
回答を見る
  • ベストアンサー

ベイズと頻度論はデータ量が多ければ漸近してくるもの

次に関して本当かどうか、教えて下さい。 (1)ベイズの方法は予測に価値を置いているのですか。 計量経済学は何かの予測をゴールにしていることが多いので、ベイズの方法とは相性がいいのですか。 (2)「医学の疫学研究のように間違いが決して許されない分野では、頻度論が使われる。ベイズは必ず仮定を置いて考えるが、間違いが決して許されないときには、仮定なんか置かないほうがいいという立場だ」と言っている人がいますが、仮定とは事前分布のことだと考えられますか。 頻度論のほうが強引な仮定を置くと思うのですが・・・ (3)「ベイズと頻度論は目的に応じて使い分ければよい。ビッグデータの場合には両方の結果が収束してくると思う。ベイズの方法でたとえ極端な仮定から出発しても、サンプル数が増えていけば頻度論で真値といわれる値に近づきます。 」 と言っている人がいますが、それって、ベイズで全数データを使うということを言っているのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

(1) ベイズ主義は「仮説を信じる度合いを、証拠によって更新する」と言ってるに過ぎんでしょう。信じるところに従って予測を行うのはご自由だけれども、それが当たるかどうかについては何も言ってない。 (2) 頻度主義ってのは「ある方法による予測が当たる確率を推定する」ってことであり、その典型的なヤリカタのひとつがフィッシャーの検定。帰無仮説H(棄却できないときには無に帰す仮説)を使い、帰無仮説Hを棄却するときに危険率、すなわち「間違いをどの程度許すか」を決めておく。もっと古いピアソンの検定では「仮説Hと対立仮説A」があって、これは「HとAのどっちかが正しい」という仮定を、何か統計以外の根拠に基づいて置いたという訳です。どっちも、そ(れら)の仮説のもとで事象が発生する確率が確率論で計算できるような、そういう仮説でなくちゃいけないという制約がある。いずれにせよ仮説があって初めて話が始まるのであり、「仮定なんか置かないほうがいいという立場だ」ってことではない。  もちろん、ベイズ主義でも(信念の度合い付きの)仮説がなくては始まらないし、その仮説は事象が発生したという条件のもとで仮説が成立つ確率を計算できるものでなくてはならないという制約がある。そして、ベイズの定理によればその制約は「その仮説のもとでの事象の発生確率が確率論で計算でき、かつ事前確率が与えられている」ということに他ならない。「事前確率」を除けば両方とも制約は同じ事で、だからどっちが強引ってことはないでしょ。  なお、「間違いが決して許されない」のであれば、どんな統計も無力です。確実に予言が当たるという訳には行かないのは勿論のこと、たとえば「(量的ではなく)質的に未曾有」の事象(つまり「こんなに大規模なことがおこるとは!」じゃなくて「まさかこんなことがあり得るとは!」)について発生確率を計算できる統計なんか原理的に無い。第一、統計じゃ因果関係については何も言えないんですし。  ともあれ、ベイズ主義・頻度主義(そして尤度主義)はそれぞれやろうとしていることが最初から食い違っているので、(それがやろうとしていることと、現実のある具体的な問題を解決することとの整合性を論じるのならともかく)、一般論として優劣を論じるのは、ソモソモおかしな話だと思います。 (3) 「ベイズの方法でたとえ極端な仮定から出発しても…」とは、事前分布がまるっきりデタラメでも、データを増やしていけばデタラメさが薄まって行く、ということであり、ベイズ主義が「仮説を信じる度合いを、証拠によって更新する」ということをやっていると言えるのはこの性質があるから。  しかし、「頻度論で真値といわれる値」は昔の概念じゃないのかな。「真値」なんてものが無条件にあるとは、少なくとも物理学・工学では仮定しませんし、ISO, JISからも「真値」という概念は消えたはず。  ご質問で、もし「全数データ」を「取れたサンプル全部」の事を指して仰っているのであれば、「サンプル数が増えていけば」とは「(これまでに取れたサンプルだけじゃなしに)データをもっと取れば」ということ。そうじゃなく母集団全部という意味で「全数データ」と仰っているのなら、それは母集団が無限集合なら不可能。(たとえば「あらゆるトンボ」という母集団は、将来生まれるトンボも含む。)なお、母集団が有限集合でも確率論や統計を使うことがあるのは、「有限とは言ってもあんまり要素が多いから、無限集合で近似する」ということでしょう。 というわけで、(1)~(3)が本当かどうかという以前に、それらはなんか変な話をしているようだ、というのが感想です。

kamiyasiro
質問者

お礼

ご丁寧な回答ありがとうございました。 ざっと読んで、私がこれまで勉強してきた内容と一致しており、一安心したところです。熟読して、分からないことがあれば、また質問しますので、ご指導よろしくお願いします。 さて、この記述は、まもなく創刊される●経ビッグデータという月刊誌の中の対談記事で、例のベストセラー本の著者西●啓氏が語っていた内容です(ちょうど、ネットで公開されていたのを見かけたのです)。あまりにも私の理解を逸脱しているのでご質問した次第です。対談相手のデータサイエンティスト●藤卓哉さんも迎合してみえたので、あれれ、となったのです。社会的影響が大きいですよね。

kamiyasiro
質問者

補足

ベイズにおける事前確率は、仮定なんかではなく、過学習を防ぐための手立てに過ぎないと思います。一方、古典論のP値による判定は、前提となる分布を仮定しているので、これは強い制約だと思います。

関連するQ&A

  • ベイズ統計学の利用法について

    頻度論的な統計手法では,確率分布の推定誤差を母数の区間推定という方法で表現します. この場合,標本数が大きくなるとその区間は狭まり,無限になれば区間は限りなく狭くなります. しかし,現実の標本数は有限ですから,区間の上限と下限があります. 実務上は,上限値あるいは下限値を母数の推定値にして,安全側の判断をします. さて,ベイズ統計手法の場合,予測した確率分布の推定誤差はどのように表現するべきなのでしょうか? 実務上でベイズ統計学を利用したいのですが,この部分で悩んでおります. どなたか,よいアドバイスをお願いいたします.

  • 頻度で与えられたデータから標準偏差や分散は求められますか?

    例えばある現象の影響を予測したとき、その影響が起こる頻度が下記のように求められたとします。 影響 頻度 1 , 0.1 5 , 0.4 10 , 0.1 15 , 0.13 17 , 0.1 20 , 0.07 22 , 0.07 25 , 0.03 頻度は全て合計すると1になります。このようなデータから影響の標準偏差や分散を求めることは可能なのでしょうか? 言い方を変えると、確率分布が分かっている現象があった場合に、それから標準偏差や分散が求められるのでしょうか? もしダメな場合、このようなデータ群の特徴を表現するために有効な統計値は何があるでしょうか? ご存じの方からすると非常に稚拙な質問かもしれませんが、自分ではどのように考えれば良いか分からず困っております。ぜひとも宜しくお願いいたします。

  • マルコフ連鎖モンテカルロ

    マルコフ連鎖モンテカルロ法で、既約で非周期性を満たすマルコフ連鎖の持つ不変分布を、推定パラメータの目標分布となるように推移核を構成する際に、ギブス・サンプラーアルゴリズムを用いることを考えた場合、大きな流れとして何故、推移核をギブスサンプラーで与えられる式を導入することによって、推定したいパラメータの目標分布が不変分布に収束していくのかその原理がよくわかりません。 参考書として、「東洋経済」から出版されている「ベイズ計量経済分析」を用いています。 誰か教えていただけないでしょうか?

  • ベイズ統計入門書の例題の尤度について

    ベイズ統計の入門書を読んでいるのですが、いろんな適用方法があるのだとは思いますが、簡単に言うと以下のように見えます。 あのベイズの式があり、尤度が既知で、事前分布を与えると、データに依存して事後確率が変化するということをやっている、ということです。で、その事後確率を次の事前確率として次のデータでさらに次の事後確率を求めるという流れです。漸化式の計算と同じです 確率が事前から事後に流れることが時間発展のような形式となり、データに依存したシミュレーション的なアルゴリズムができそうです。 ここでやや疑問に思えるのが尤度です。尤度とは発展方程式の定数係数のような位置づけのように見てきます。尤度はこのベイズ統計で揺るぎのない確立した数値ということになるのでしょうか。尤度が時間的に変化することもありうるのでしょうか。そうなると未知数の積が出てくるので非線形という印象になるのですが。 ベイズ統計の初等的な事例で、異性が自分に好意を持つ、というようなものが紹介されています。好意を持っている異性の態度が”今日は、いい、普通、悪い”の3種であり、その確率(これが尤度表らしいですが)を既知として保持し、それとデータ(あしたの態度3種)に従って確率が変化するというような事例がありますが、尤度自体が簡単にはわからないものなのではないかと思うのですが。ただ単に興味を引く題材にした事例なのかもしれませんが。尤度についてどのように考えるのでしょうか。 異性の問題では結局、そこが難しいんじゃないか、と聞きたくなるわけですが。よろしくお願いします。

  • 頻度分布について

    はじめて質問させていただきます。わかる方がいらっしゃればご教授いただきたいと思います。いま5年~50年の各経過年に対して(5年毎)ある事象の発生する件数のデータがあります。そのデータについて、各経過年毎の事象の標準偏差を算出したいのですが、算出方法がわかりません。下記に1つの経過年(5年後)に対するデータを示します。 ●事象A(100)の発生件数:20000件 ●事象B(75)の発生件数:500件 ●事象C(50)の発生件数:300件 ●事象D(25)の発生件数:100件 ●事象E(0)の発生件数:50件 この経過年に対する頻度分布図を描くと、事象A(100)に大きく偏りをもった頻度分布図になります。これは、経過年が違うと、偏りの位置も異なってきます。この場合、各経過年に対して、どの確立分布(極値分布か正規分布か等)にあてはめるのが妥当かの導出方法と、そ場合の標準偏差の算出方法も併せて、わかる方がいらっしゃいましたら、教えていただけませんでしょうか。よろしくお願いします。

  • データ解析

    研究のデータ解析で困っています。 装置の制度を評価するために、モデルを作成しました。 モデルを方法1で測定したデータを真値と仮定して、 そのモデルを方法2で測定しました。 知りたいのは方法2の装置の精度です。 相対値の評価でいいのですが、定性的ではなく定量的に表現したいのですが、勉強不足で方法がわかりません。。 方法1と方法2、それぞれ同じように変化をしていて傾向はみられるのですが・・・ 詳しい方、いらっしゃいましたらよろしくお願いします。

  • エクセルでの度数(頻度)分布表の作成

     エクセルでのデータ処理に関してですが、いくつかあるデータの中で、どの値が一番多いかといった、度数(頻度)分布の作成方法を教えていただきたいのです。  統計学でいう、「正規分布」というやつです。  できれば、その処理方法と、図(グラフ)作成について詳しく教えていただきたいと思っています。  簡単な説明ではありますが、よろしくお願いします。

  • 二項分布、多項分布の尤度 最尤推定 ベイズ

    統計学、主にベイズについて、独学している者です。知識があやふやなため、間違っている部分は、ご指摘ください。 例えば、 新薬の実験で、効果がある確率θ、効果がない確率(1-θ)である場合は、二項分布で、尤度を算出することはわかりました。 二項分布のような結果が2通りとなるものはわかるのですが、 結果が3通り、4通り、5通りとなるようなものは、どのように尤度を算出したら良いのかわかりません。 例えば、アンケート調査のような順位尺度(数字に意味はないが、順番には意味があるもの) のある回答データで、 例えば、1、大満足 2、満足 3、普通 4、やや不満 5、かなり不満の回答があるデータが100こあり、 それぞれ 1、20こ 2、15こ 3、30こ 4、25こ 5、10こ であった場合、尤度は、どのように算出すればよいのでしょうか? 出来れば、エクセルでできる範囲の算出方法で、ご教授していただけると助かります。 よろしくお願いいたします。

  • データの整理の仕方

    統計素人です。 変化する数値は1~5です(有効数字?1桁)。データ数(n)は現在のところ4つです(増やすことは可能。とはいえ、nは6~8個くらいが限界)。ちなみに、変化する数値1~5の出現はランダムではなく、だいたいこの数値になるだろう・・と予測が付きます(正規分布ではない!?)。 このような場合のデータのまとめ方は、せいぜい平均を求めるくらいが精一杯なのでしょうか?標準偏差などは正規分布する仮定がないとダメですよね?最頻値などという言葉も聞きますが、nが少なすぎますし。データ処理の仕方で困っております。どのように処理したらよいか、教えてください。 言葉足らずな部分もあるかと思いますが、よろしくお願いします。

  • 分散について

    分散とは確率論において、確率変数の2次の中心化モーメントの事で、確率変数の分布が期待値からどれだけばらけているかを示す値. ということは分かるのですが,これは分散が減れば期待値に近づくということでいいんですか? 私は計測した加速度データに含まれるノイズの低減プログラムを作りデータの分散を0.008減らすことができました. これは0.008m/s^2程度ノイズを減らすし計測データの真値に近づくことができたということでよいのでしょうか? 教えてください.