• ベストアンサー

Monte Carlo法 (ガウシアンノイズの付加)

Monte Carlo法とやらで、あるデータ解析の時に下記の 手順で解析を行なっているという研究論文がありました。 こうすることの利点とは何なのでしょうか? また、 この手法についてはどの本などで紹介されていますでしょうか? ------------------------------------------------------ ある複数のパラメータで変化するデータがあります。 そのデータにガウシアンノイズ(分布分散シグマ)を与えて 1000セットのデータを作ります。 1000セットのそれぞれのデータからInverse methodにて もとのパラメータのセットを別々に1000個求めて、これを 平均します。 ------------------------------------------------------

noname#29127
noname#29127

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

 直接測れないものx(ご質問で言うところのパラメータのひとつ)を x= g(y[1],y[2],…,y[k]) という関係にあるy[1],y[2],…,y[k]を測定することで推定したい。ただし、y[1],y[2],…,y[k]の測定にも誤差(これらは互いに無相関)があって、そのせいでg(y[1],y[2],…,y[k])を計算した結果にも誤差が出る。  このとき、もし測定誤差が十分小さくて、その範囲ではg( )が一次式で近似できるというのなら、∂g/∂y[j]を計算すれば、y[j]の誤差がxの推定値にどれだけの影響を与えるかを見積もれる。(感度分析)  けれども、yの誤差が十分小さいかどうかを検討することや、∂g/∂y[j]を計算することが結構難しいような場合(例えば、gの式が複雑だったり、gがアルゴリズムとしてしか与えられていないなど)に、もし、g( )の非線形性があまり強くなくて、y[1],y[2],…,y[k]それぞれの分散σ[1]^2, σ[2]^2, …, σ[k]^2がおおよそ分かっているなら、 y[j] = (平均Y[j]、分散σ[j]^2 の正規分布に従う乱数) によってデータを沢山(ご質問では1000個)作り、xを計算して分布を調べる という手は確かに有効です。これによって、難しい検討など一切抜きにして、「g( )で計算したxの推定値にはどれぐらいの誤差があるか」が見積もれる。xの推定値の(平均ではなく)分散の方にこそ興味がある訳です。  もっときちんと言うと、「この計算に使ったY[1],Y[2],…,Y[k]の値に近いy[1],y[2],…,y[k]が与えられたときに、g( )で計算したxの推定値が持つ誤差の程度」が分かる訳です。だから、何通りかY[1],Y[2],…,Y[k]のセットについてこの計算をしてみれば、「ある範囲内のy[1],y[2],…,y[k]において、g( )で計算したxの推定値の誤差は高々いくら」ということも言えるでしょう。

noname#29127
質問者

お礼

上記説明で良く分かりました。ありがとうございました。

その他の回答 (3)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

 ご質問について再度考えてみましたが、やはりANo.2の通り、感度分析を目的とした計算であって、どうもブートストラップ法とは違うように思うんです。  ブートストラップ法だとすると、「パラメータが未知の分布」に従う標本をいっぱい集める必要があるでしょう。分布全体からまんべんなくサンプルを取るわけです。  でもご質問では、あるデータがあって、それにガウシャンノイズを加えたサンプルを作ることになっている。これで得られるのは、その「あるデータ」(実現値)の近辺における情報だけです。こういう、局所的なサンプリングだけでブートストラップのようなことができるものでしょうか。  しかも、その局所的サンプルからパラメータがinversionできるという。ならばご質問で言う「パラメータ」とは、「分布のパラメータ」のことではなくて、そのパラメータを決めればデータの「実現値」が(多少のノイズはあるかも知れないが)一意的に決まるという話だろうと考えられます。

noname#29127
質問者

お礼

回答ありがとうございました。返事が遅くなりました。

回答No.3

これはブートストラップ法だと思います。ブートストラップ法は標本のリサンプリングを繰り返して情報を徹底的に絞り出すような方法です。 パラメータθを持つ分布Fθからの標本をX1, X2,…,Xn 、θの推定量を θ推定(X1,…,Xn) とします。 例)  平均θの分布で標本平均Xbar=(X1+‥+Xn)を考えると  θ = E[Xbar] = ∫Xbar d Fθ …(1) X1,…,Xn の実現値をx1,…,xn として経験分布を  F経験(x) = (1/n)Σ Θ(xi - x) で定義します。ここでΘ(x)は階段関数です。θは(1)のように推定量と 分布Fθで表わされますが、Fθは未知なので経験分布で代用するのが通常の点推定の方法です。これに対し経験分布からモンテカルロ法で標本x1*, …xn* を抽出して(1)のようにパラメータを推定し、さらに平均をB回のリサンプリングで置き換えることが考えられます。これがブートストラップ法です。ブートストラップ法の利点は(1)のような期待値が解析的に計算が難しい時にも容易に適用できることです。nが大きければ中心極限定理により   T= √n(θ推定 - θ)/σ推定 の分布は標準正規分布で近似できるので、経験分布をこれで近似したものがご質問の方法だと思います 参考書) Efron, Tibshirani;An Introduction to the Bootstrap,(1993) 汪金芳、田栗正章「統計科学のフロンティア11巻 計算統計1」(2003)

noname#29127
質問者

お礼

回答ありがとうございました。返事が遅くなりました。

noname#21330
noname#21330
回答No.1

y=f(x) という関数があり、yがガウス分布に従う場合に、xの出現の平均を求める場合に本方式は有効では? Monte Carlo法、モンテカルロ法は、乱数を使う方式で、ある程度収束が早いとされています。例えば、ある変数f(x)の積分を求める場合、台形公式で、細かい精度で端から順に計算すると、最後まで計算しないと答えはわかりませんが、xを一様乱数にし、ランダムに面積を求めていくと、少ないサンプルでなんとなく面積が見えてきます。

関連するQ&A

  • ガウシアン関数へのフィッティングについて

    現在、ガウシアン関数y=a+b*exp(-(x-c)^2/d^2)に下記のようなデータを使用しフィッティングを行いたいのですが、 手法やパラメータa,b,c,dの求め方がわかりません。 どなたか教えていただけませんか。 よろしくお願いいたします。 (x,y)={ 48.800 6092 48.805 6105 48.810 5942 48.815 6000 48.820 6021 48.825 6127 48.830 6131 48.835 6169 48.840 6146 48.845 6077 48.850 6141 48.855 6236 48.860 6115 48.865 6179 48.870 6296 48.875 6176 48.880 6272 48.885 6294 .....}

  • ガウス関数と正規分布と関係について教えて下さい。

    Wikiによれば正規分布はガウス関数の部分集合だそうですけど、 ではこれらはどうやって使い分ければ良いのでしょうか? 例えば論文を見ていると結構ガウシアンフィッティングというのを行っていますが、これっておかしくないでしょうか? 実験データの統計をとるためにはガウシアンフィッティングではなく 正規分布フィッティング(?)みたいなものを使う必要があると思うのですが・・・

  • 加速度データのノイズの分散

    加速度センサで計測した加速度データに含まれるノイズの分散や標準偏差を知る方法を知りたいのですがご存知でしたら教えてください。 又はそのような内容を扱っている論文(インターネットで閲覧可能なものが良いです)を知っていましたら教えてください。 よろしくお願いします。

  • Normdist関数を用いたノイズの解析

    Excelを用いてノイズデータの解析をしています。 時刻1~1200(1/2秒)間にノイズデータを1200点取得し、区間を設定しfrequency関数から頻度分布を求め、区間を横軸、分布を縦軸に取りグラフにしました。 ノイズは2.0から3.0までの値をランダムにとっており、区間は2.0から0.05ずつ3.0までの合計20区間をとりました。 そのグラフに各区間に対するガウス分布の値をnormdist関数によって求め、追加しました。 normdist関数の計算の際用いた平均値と標準偏差はそれぞれ2.35、1.38を基準に適当に決めております。 これは何故なのでしょうか。(関数形式は確率分布なのでtrueを用いています。) また、頻度分布をO、normdist関数によって求めた各区間に対するガウス分布の面積、つまり期待値をE、dを区間数から自由度3を引いたもの(つまり20-3=17)とすると、X^2=1/d(Σ(O-E)^2/E)で求められるX^2の値が1程度なら十分にガウス分布のデータをよくあらわしているというのですが、これはどういう意味なのでしょうか。 先程の適当に設定した平均値と標準偏差を適当に変え、X^2の値が1程度になればよいという指摘を受けたのですが、全く意味がわかりません。 どなたか、ご教授ください。

  • ウォード法(Ward's method)の文献

    当方統計学は素人です。生命科学の分野で既存のソフトを使って解析した論文の査読を受けたところ、Ward's methodの引用文献を記載するようにと言われました。一般的手法なので、なかなかオリジナル文献に行き当たりません。オリジナル文献を教えてください。

  • 正規分布に従うときの母平均と母分散の求め方

    今、数千件のデータを解析しています。 ヒストグラムから、それぞれの時点のデータが正規分布に従うことが分かりましたので、母集団も正規分布に従う、という仮定の下で話を進めます。 各時点での平均と標準偏差をプロットしたところ、右上がりの一次関数になり、一定の値にはなりませんでした。 そこで、このような場合(標本平均も標本分散も一定の値にならない)、どうやって全体の母集団のパラメータを推定するのでしょうか。 教えてください。

  • パラメータが9個ある関数(ガウス分布)の最小二乗法による近似

    ある画像から輝度ヒストグラムを取ったところ3つのガウス分布が重なっているような形状になりました。 これをサンプルデータとし、それを3つのガウス分布の和で近似しようと考えています。 求めたいパラメータはガウス分布A・B・Cの高さh1・h2・h3、平均値μ1・μ2・μ3、分散σ1・σ2・σ3です。 最小二乗法により解こうと考えましたが9元連立方程式となり、指数関数の内外にパラメータが入っており、1つの方程式自体長くなっていることにより解くことが困難です。 パラメータを求める上での条件は3つです。 ・サンプルデータを1つのガウス分布で近似しその差を取り、さらにその差をガウス分布で近似し差を取り、再びガウス分布で近似するといった方法を取らない ・h1・h2・h3は必ず正の値をとる ・パラメータはあらかじめおおよその値を予想できない これらの条件の下で解くことは可能でしょうか。 もし可能ならその解き方を教えてください。 この時、いくつかの解法の仕方がある場合はできるだけ簡単かつ計算量の少ないものを教えてください。 よろしくお願いします。

  • Pop Noise Data 補正法はありますか?

    既に収録されている Vocal Data に Pop Noise が入っているのに気付いてしまい、Audacity で何とかできないかと模索中なのですが、Spectrum 解析では下図のように「タ」と「ト」の発音の際に Speaker Diaphragm が + 側に異常に振れたような上下非対象の Peak が読み取れるものの、Level 自体は小さなものなので目で見つける事はできず、耳で聴いて Peak らしきものを 1 つずつ潰して行くしか対処法が見い出せません。 耳障りな Pop Noise 箇所は数十箇所あるのですが、十数msec ずつ潰して廻っても変な補正音には聞こえないとは言え、1 つずつ潰すのは気が遠くなるような作業でして、何か上手い方法はないものでしょうか。 声量のない女性にボソボソ喋らせるような歌い方をさせた事から Dummy Mic' を握らせておいて別の Off Setting Mic' で収録する手法でも Off Setting Mic' は Pop Noise を拾ってしまったようです。 「パ」行は Pop Noise が起きないのに「タ」と「ト」で柔らかい皮を叩くような Pop Noise が生じてしまうのに出遭ったのは初めてです(笑)。……そういう発音の癖がある人なのかな……。 Pop Noise Filter Plug-in とか……はあるわけないですよね(^^;)。

  • 分散について

    分散とは確率論において、確率変数の2次の中心化モーメントの事で、確率変数の分布が期待値からどれだけばらけているかを示す値. ということは分かるのですが,これは分散が減れば期待値に近づくということでいいんですか? 私は計測した加速度データに含まれるノイズの低減プログラムを作りデータの分散を0.008減らすことができました. これは0.008m/s^2程度ノイズを減らすし計測データの真値に近づくことができたということでよいのでしょうか? 教えてください.

  • パス解析について

    複数の説明変数間の関係を調べる手法にパス解析という手法があることを知りました。パス解析では病気の有る無しといった、性別(男女)などといった、二項分布をとる変数も扱えるのでしょうか?また、パス図でパス係数ではなく、オッズ比を示している論文があったのですが、ロジスティクス回帰分析によってもパス解析はできるのでしょうか?ご存知の方、ぜひご教授ください。