分布の評価と比較方法

このQ&Aのポイント
  • 多変量の正規分布を比較する方法についての質問です。分布同士の距離を測ることで分布の重なり具合や分離性を評価する方法を教えてください。
  • また、分布が多数ある場合と少数しかない場合を公平に評価する指標についても知りたいです。分布間の距離だけではなく、曖昧性や分布の特性も考慮した評価方法があれば教えてください。
  • アイデアをお持ちの方、ご意見をお待ちしています。
回答を見る
  • ベストアンサー

分布の評価

多変量の正規分布同士を(分散異なる)比較するよい方法はないでしょうか。 分布は5次元で、5個の平均、分散を持っています。 分布同士が分離している、重なっていない、 また、重なっているのであればどの程度重なっているか ということを示したいので、分布間の距離を測ればよいのかとは思って いますが何を用いるのがよいでしょうか。 また、分布が多数ある場合と少数しかない場合を共通に評価できる 指標はないでしょうか。単純に分布間の距離を測るだけでは、 多数の分布があるとき、分布間距離は短くなり、分布が少数しかないときより 分離性が悪いことになってしまいます。 エントロピーなどを使って曖昧性のような評価ができないものかと 考えています。 何かアイデアをお持ちの方、よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

> 5個の平均、分散を持っています というところ。平均はともあれ、分散が5個というのがよく分からないけれど、共分散行列が対角行列だ、という意味かな?まあいいや。これはどうでも良いことです。 2つの分布の分離がどの位うまくできるかは、線形判別関数を作って、それで何%が誤って分類されるかで評価すれば良いでしょう。  説明を簡単にするために、分布の分散が、どの次元も独立であって、しかも同じである、という場合を考えましょう。二つの分布の平均がベクトルm1, m2、(√分散)がσ1, σ2とすると、中心をm1とし、半径 kσ1の球と、中心をm2とし、半径 kσ2の球とがある。ここでkを調節して二つの球が接するようにします。この接平面が線形判別関数ですから、そこからはみ出すサンプルが「誤って分類されるサンプル」です。  沢山の分布が同じ空間にある場合も、その内の2種類づつをペアにして考えれば良いんです。そのペアの分離がどの位うまくできるか。  あとはご自分でやれそうですか?

yoichiro-ito
質問者

お礼

回答ありがとうございました。 判別関数でこのように評価できるとは思っていませんでした。 ありがとうございました。 しかし、対象とするデータが「はみだすサンプル」がほとんどないデータ なのです。そのため、この方法ではあまり有効に評価できないことが わかりました。 また、分散共分散行列が分布により異なるので、多くの書物にかかれて いることが、適用しにくくなっています。 まだ、試行錯誤中ですが回答ありがとうございました。

その他の回答 (1)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

サンプルの中には、はみ出す奴がないとしても、分散で議論している以上、理論分布(例えば正規分布)を仮定して居るんでしょう? だったら、何%はみだすか(危険率)は議論できるはず。  直感的に言えば、その平均と共分散行列をもつデータをモンテカルロ法でうんと沢山生成してやれば、はみ出す奴が出る筈です。  実用上、本質的には「どの位の危険率で線形判別可能か」以上に重要な指標などないと思いますよ。

yoichiro-ito
質問者

お礼

ありがとうございました。実際に試してみます。

関連するQ&A

  • コンピュータによる(混合)多変量正規分布の計算

    混合正規分布のパラメータ計算で多変量正規分布の確率値を 使うのですが、多変量正規分布(共分散行列はσ^2I)において、 ベクトルが高次元の場合、コンピュータで計算すると、 確率値が0になってしまいます。 これは、どこかが間違っているのでしょうか? 何か良い計算方法(資料)はありませんでしょうか? どうかよろしくお願い致します。

  • 多次元正規分布に関する質問

    多次元正規分布についてのシミュレーションをする課題を持っているのですが 少しわからないところがあります。 m次元正規分布の式はwikipediaにあるように http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83 N(u,S)=exp(-(x-u)'invS(x-u)/2) / (2PI)^(m/2)sqrt(detS) です。ですが分散共分散行列Sを使わず分散をスカラーとしてつまり σで書きたいのです。 (なのでm次元のどの方向においても分散はσ^2でいいです。 そういう簡単な状況でのシミュレーションをしようとしています。) この場合、m次元正規分布のしきはどうなるのでしょうか。 よろしくお願いいたします。

  • 多次元正規分布の分散共分散行列について

    p次元確率変数ベクトル X(i) が p次元正規分布 N(0,Σ) に従っているとき p次正方行列 A で X を一次変換した Y (Y=AX) が従う多次元正規分布の分散共分散行列はどうやって求めればよいでしょうか? 考え方だけでも良いのでおしえてください。 お願いします。

  • 2変量間に相関がある場合の正規分布

    2変量間に相関がある場合の正規分布について、よくわからないのですいませんが説明してもらえないでしょうか

  • 相関のある2項分布の記述

    他変量正規分布にあるみたいに、 相関のある2項分布の同時分布関数の定式化ってなされていますか? 一つ一つが2項分布に従う場合にそれぞれある相関を持って 分布するような系を考えているのですが、どのように記述してよいのやら。。

  • 正規分布へのfitting

    ある実験データがあり、正規分布に近い形をしています。しかし近いとはいえ、少々ズレているため分散と平均値を求め正規分布の曲線を実験データに重ねて描くと、、、なぜか大幅にずれてます。原因は、平均から大きく離れたところにデータが少ないとはいえポツポツとあり、分散が大きくなるからです(平均値はほぼ正しい値と思われます)。 分散を求める際に正規分布おかまいなく求めるため過大になるのかと思い、正規分布にfittingしようと考えました。つまり最小二乗法により実験データに近い正規分布を求め、分散を求めるのです。 この方法は意味ありますか?おそらく太古の昔から用いられてるような誰でも思い付く方法と思いますが。。。また、実際に計算する場合、エクセル等で関数は用意されてますか?それともlogを取り2次関数に展開しfittingする必要がありますか?

  • 2次元正規分布

    2次元正規分布に関する質問をさせてください。 xとyが独立で、かつそれぞれが標準正規分布N(0,1)に従っているとき。 また2次元正規分布f(u,v)がN(0,0,σ1,σ2,ρ)である時。 確率変数 U,VをX,Yで表す場合、どのように解いたらいいのでしょうか。よろしくお願いします。

  • 正規化された確率分布を合成する方法について

    正規化されたガンマ分布が二つあった場合に、これを合成する方法がないか探しているのですが、どうにもわからないので質問させていただきました。 標準分布の場合には、分散σの二乗和の平方根をとることで、合成後の分散を得ることができると思うのですが、ガンマ分布の場合は、何かいい手段はあるのでしょうか・・・? 宜しくお願いいたします。

  • 変動係数は正規分布を前提?

    変動係数の式にはSDが出てくることから、やはりその適用には正規分布を前提としているのでしょうか? 仮にそうだとしたら、正規分布以外の分布形の場合、変動係数に類似した指標はあるのでしょうか? どなたか教えてください。

  • 非正規分布のデータを評価する方法を知りたい

    ある施設で体力測定をしました。 正規分布をしていた項目は、そのまま分析して5段階評価しました。 正規分布していないデータは、どのようにして5段階に分けたらよいのでしょうか? 具体的には、42名に体力測定をし、開眼片足立ちと閉眼片足立ちが非正規分布になっていました。 開眼片足立ちは簡単だったようで、多くの人が最高値(120秒)まで記録したことと、閉眼片足立ちは難しすぎて、10秒以内で終える人が多かった一方で60秒以上こなす人もおられるのが原因です。 こういった場合の、統計的な5段階評価の方法を教えて下さい。 よろしくお願いします。