• ベストアンサー

マハラノビス距離による判別分析

マハラノビス(Mahalanobis)距離を用いた判別分析(30群への帰属の判定)について質問があります。 判別分析の結果の評価方法として、正判別率(誤判別率)の代わりに、マハラノビス平方距離の「標準得点(z-score)」または「順位」を用いるのは妥当でしょうか? (z-scoreは、30群のマハラノビス平方距離の平均と標準偏差から算出し、平均0、標準偏差1となるように標準化します) 誤判別された場合でも、マハラノビス平方距離が(30群の中で)相対的に小さい場合(z-scoreが-2以下、または順位が10位以内など)には、正解に近いことを示したく、このような方法を考えました。

質問者が選んだベストアンサー

  • ベストアンサー
  • goma_2000
  • ベストアンサー率48% (62/129)
回答No.2

多群の場合は仰る通りです。勘違いしておりました。 確率の話は、下の紹介サイトの内容とほぼ同じです。スコアでは絶対値の評価が難しいのかな、ということで確率のほうが良いかもしれませんという意味でした。(z-scoreが-2以下というのは近いのか?という話になるかもしれないので。確率でも同じといえばそうですけどね。) ROCやCAP曲線の話は、正誤率だけではなく、外れていても近いことを示したいというお話でしたので、これらの曲線を用いれば外れているが近い、ということがいえるのでは?ということでした。ただ、これらの曲線は順序情報しか見ないので確率なのかスコアなのかは本質的ではなくなりますが。 ※ CAP曲線はROC曲線と似たようなものと考えてください。

suzokwave
質問者

お礼

大変勉強になりました。ありがとうございました。

その他の回答 (1)

  • goma_2000
  • ベストアンサー率48% (62/129)
回答No.1

z-scoreよりはマハラノビス距離を基にした確率密度関数を用いたほうが良いかもしれません。(近いとは確率が高いということなので)。判別分析は元々はそのようにして定式化されているので。また、順序情報に直すのはよくないかもしれません。その問題点は、どれとも近くなくても順位は高くなる可能性がある点です。ただし順序情報に直すなら、単調増加関数を用いているならどの直し方でも変わらなくなりますけど。 また、30群というのが気になります。判別分析通常は2群の判別で、多群を行うときにはその2群判別を繰り返しているはずです。ですので、それらの情報を統合する時にどのように等どうするのが良いのかは良く分かりません。つまり、A,B,Cのとき、A-B,B-C,A-Cの判別を解いている(one versus one方式なら)ので、A,B,Cを同時に比較していないのではないかと。。。 って、回答になってないですね。 何がやりたいのか分からないので全く見当違いかもしれませんが、どれだけ良く判別しているかの指標として、正誤率以外の指標で見たいというなら、上記のような方法で順序情報に直した後、ROC曲線やCAP曲線を見るという手もあります。

suzokwave
質問者

補足

アドバイスありがとうございます。 各群への帰属確率を求めるということでしょうか? 距離を用いた判別分析法は、最も近い群に属すると判定するため、3群以上にも簡単に拡張できるのではないのでしょうか? CAP曲線を見るには、ROC曲線と同様、様々なカットオフ値(マハラノビス距離?)での感度・特異度を求めるのでしょうか? 参考となる文献・ウェブサイト等をご存知でしたらご教授ください。 (参考資料) http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/mahalanobis.html マハラノビスの距離による基準群への帰属確率 http://aoki2.si.gunma-u.ac.jp/R/maharanobis.html 各群までのマハラノビス距離を計算し,最も近い群に属すると判定する。 P の最も大きい群に所属すると判別する。これは,dj2 値の最も小さい群に所属すると判別することと同じであり,わざわざ各群へ所属する確率を求める必要はなさそうに思うかもしれないが,どの群にも所属しないケースの可能性を考えるとこのような方法をとる必要性がわかるであろう。 http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc2.html このような距離を用いた判別分析法は、グループ数が3以上の場合にも簡単に拡張することができる。 http://www1.doshisha.ac.jp/~mjin/R/17.html 各カットオフ値での感度・特異度を求め、ROC曲線を作成 http://www.jaclap.org/seminar_qm1.html

関連するQ&A

  • マハラノビス距離による帰属確率

    複数の郡がある場合, マハラノビス距離を用いてどの郡に帰属するか 帰属確率を確率密度関数から求められると思いますが, 郡が1つしかなく,その郡に入るか入らないかを 判別したい場合に帰属確率は求められるのでしょうか?

  • Zスコアと標準偏差について

    ある本の説明で「Zスコアは平均値が0、標準偏差は±1」とあったのですが、「Zスコアの標準偏差が±1」とはどのようなことなのでしょうか?また、標準偏差=√{偏差平方和/(測定数-1)} から求められますが、なぜ分母が測定数ではなく、(測定数-1)なのでしょうか?どなたかアドバイスの程よろしくお願い致します

  • 統計の標準化と偏差値の問題がわかりません

    テストの平均が58点、標準偏差2点の場合、偏差値40と55の点数の差は〇〇である。 〇〇の部分を答える問題なのですが、考え方がわからず困っています。 偏差値40と55の値を使ってZスコア(標準化)を出し、40の時のZスコアと55の時のZスコア を引いた答えが3となったので3点としたのですが、この答えは間違っていました。 このやり方以外にどのような解き方で解けばいいでしょうか。 友達や知り合いに聞いても、この問題自体がおかしいと言われてしまいます…。

  • 模試 各教科偏差値と合計偏差値を教えてください。宜しくお願いします。

    模試 各教科偏差値と合計偏差値を教えてください。宜しくお願いします。 国語 平均点70 標準偏差21 得点148/200 英語 平均点61 標準偏差33 得点144/200 日本史 平均点33 標準偏差16 得点88/100 3教科 平均点215 標準偏差86 得点380/500

  • 分析方法についての相談

    食品メーカーに勤める研究員(品質部門)です。 先日、解析方法についてで投稿させていただきました。 (質問内容を読み直し、自分で見てもおかしかったので削除させていただきました、 回答を考えてくださってる方いましたら申し訳ありませんでした。) 改めて質問させていただきます。 2工場で別々に作られた製品群の傾向に有意差があるかを検定したいです。 考え方としては、以下のように想定しています。 (1)A工場のA群から判別式を求めました(説明変数3)。 (2)B工場のB群に、このA群からの判別式を当てはめ、誤判定率を計算します。 (3)その判定率の結果から、有意な差が見られなければ、 A群、B群の傾向に差はないと説明をつけたいです。 A群、B群ともに標本数は約250あります。 この(2)、(3)の部分を検定する方法はどうやればいいでしょうか。 それとも、そもそもこの考え方自体が間違っているでしょうか。 統計に詳しい方、アドバイスをいただければと思います。

  • 判別関数を元のグラフに図示できますか?

    統計学の知識があまりないので、いろいろと1人で調べていても、ずっと煮詰まっております。。。 判別分析で、2次平面グラフ上にある2つの群を分ける一次式を出して、図示したいのですが、判別関数とはこの式のことではないんでしょうか? さまざまな解説を読む限り、判別関数というのは、概念的にはこの式のことだけど、 元のグラフの座標軸と関係なく、y<0、0<yで二つの群のどちらに属するかを分けるための式、のような気がしてしまうのです。 分析ソフトでやると、 「判別係数」、「標準化判別係数」、「定数項」は出るのですが・・・、 判別関数を元のグラフの上に描ける形(Y=aX+b)に落とせません、、、。 やり方をご存知の方がいらっしゃったらご教授願います。

  • データの分析と標準偏差

    標準偏差の問題を教えてください。 「20 人のクラスで数学のテストを行ったところ,得点の平均値はx,標準偏差は sx であった。また,出席番号が k (k = 1,2,…,20) の生徒の得点は xk であった。 ところが,採点後,問題に不備があることがわかった。ただし,不備のあった問題の 配点は 20 点であり,この問題を正解した生徒は一人もいなかったものとする。よく調べたところ, 問題不備の影響を受けたのは出席番号 1 の生徒のみだったので,出席番号 1 の生徒だけ 20 点加点することにした。出席番号 1 の生徒の,得点訂正前の得点について    x1= x^- であるとき,得点訂正後の標準偏差 sz を表すとどうなりますか?」

  • 標準偏差の計算がわかりません。

    標準偏差の求め方がわからなくて検索しました。 >標準偏差を求めるためには、クラス全員の得点が必要です。クラス全員の点数と平均点の差分を、自乗したものを合計し、それをクラスの人数で割ったものの平方根が標準偏差になるからです。 という記述をさがしました。でやってみようとしましたが、まず、「クラス全員の点数と平均点の差分」というところでつまづきました。 数字を書きますので、実際にどういうように計算すればいいのか、(答えでなく、計算式がしりたいです。)おしえていただけませんか。 あるテストで8人が以下の成績をとった場合 75,55,40,60,25,80,55,90, 平均点は60点。 クラス全員の点数が480なので 480-60=420 420×420=176400 176400/8=22050 22050の平方根=? ばくだいな数のなりそうですが。。。。?????

  • 結局その数値 分散,標準偏差の数値は何?

    こんにちは。  計算は公式に入れてなんとかできました。次の問題です。  問題 5人の生徒の英語のテストの得点xである。       50, 70, 90, 80, 50 (点)    (1) 偏差の2乗の平均値を求めることにより,分散s^2を求めよ。    (2) 標準偏差を求めよ。  (1) 平均値 点数総和 340なので,340/5=68(点)     偏差の平方の和 1280なので, s^2=1280/5=256  (2) 標準偏差 s=√256=16(点)  この256とか16点の数値の意味が教科書になく、16点だから何?という ことです。  分散は標準偏差をもとめる段階での数値と理解していいのでしょうか。

  • 平均と標準偏差の求め方について

    同じパラメーターについて、平均と標準偏差のみわかっているA群とB群の、2群をまとめた平均と標準偏差の求め方が知りたいのですが。