• ベストアンサー

主成分分析における出発行列の違いは?

タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!

  • icene
  • お礼率29% (45/151)

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.1

こんにちは. 多変数の情報をより少ない総合変数に集約する主成分分析では,ご質問にあるとおり,相関行列あるいは分散共分散行列を対象にするかによって,結果が異なります. この違いは相関と分散共分散(以下,共分散といいます)の違いによるものです.相関(係数)の式を見ていただければ分かると思いますが,  【データ】 → 【共分散】 → 【相関】 と相関係数の計算途中に共分散は算出されます.相関と共分散ともに,二つの変数間の直線的関係を示したものですが,共分散は極力データの情報を活かしたまま,相関はデータの情報を多少ロスはするものの人間にとって理解しやすい形に修正したもの,と違いがあります. 共分散は最大値,最小値はありませんが,相関(r)は,-1≦r≦+1の範囲をとるようになります.このため相関では絶対値が「1」に近いほど二変数の関係は強い,「0」に近いほど弱いという判断ができます.共分散の場合は,強さの程度の判定ができません. まとめると,相関とは共分散を「-1≦r≦+1」の範囲に【標準化】したものといえます. さて,主成分分析の場合で相関行列と共分散行列のいずれを使い分けるかですが,そのデータを標準化したいかどうかで判断することが多いと思います. どのような時に標準化したいかというと,対象となる変数が単位・範囲が(大きく)異なる,変数Aは10~20の範囲,変数Bは10~1000の範囲,変数Cは0.1~1の範囲,という場合では変数AとB,変数BとCとでは変数の範囲に大きく違いがありますので,当然算出される共分散もそのデータに依存して,小さい数値になったり,大きな数値になったりします.しかし,「標準化」すれば変数A,B,Cのいずれも「0を平均,1が標準偏差:ほぼ-3~+3の範囲」と同じ幅になり,元のデータの単位と独立して関係性を見ることができます. 元のデータをなるべく反映させるのならば共分散を,単位を揃えて標準化する必要があるのならば相関を,と考えて使い分けられるといいと思います.

icene
質問者

お礼

そっか、そうですね。ご説明を読んで、やっとわかりました。現在、JUSE-QCASを使用していて一応一通り多変量解析の研修も受けたのですが、そのあたりの説明がなかったので出発行列の違いで結果の式や寄与率などが変わる理由がわかりませんでした。 私が扱っているデータは単位は同じなのですが、データ間では2オーダーも幅があるので、量的な影響を排除するため相関係数行列の方がいいんでしょうね。 なんだか統計解析のソフトって不適切なデータや、誤った使い方をしても一応それっぽい結果がでてくるじゃないですか。だから諸刃の剣という感がどうしてもぬぐえません。 まだまだ勉強が足りないです。もっと取り組んでみます。 お忙しい中、ご回答いただきまいてありがとうございました。また機会がありましたら、宜しくお願いいたします。

関連するQ&A

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • 相関行列による主成分分析

    変量がp個の場合の主成分分析で、相関行列(の二乗和)に着目した時の話です。 この時の、第二主成分を求める手順、式変形、式変形が成り立つ理由がいまいち理解できません。 主成分分析、あるいは多変量解析の教科書は複数冊に目を通しているのですが、理解力が足りないようで…。 うまく説明できる方、宜しくお願いします。

  • 主成分分析

    今主成分分析を勉強しているのですが、 よく、書籍で出てくる、データセットというのは何を指しているのでしょうか? また、係数データを係数行列A(下にp×X)で示す。だとか、線形結合式で求めた値Z(下にn×k)=X(下にn×p)A(下にp×k)を主成分得点と呼ぶ などの説明がまったくもって理解不能です。 どなたか助けてくれませんでしょうか;;;;

  • 主成分分析に関する質問です。

    主成分分析に関する質問です。 平均が[0, 0],分散がσ^2*I2(I2は2*2のidentity matrix)のガウス分布に対おする共分散行列を考えます。 この共分散行列の主成分と固有値 第1主成分への投影によって再構成された値 投影によるエラーの値(真値と再構成された値の2乗誤差) を求めたいと思っていますが、とき方がわからず困っています。

  • 主成分分析における分散

    主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、 射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。 よろしくお願いします。

  • 主成分分析について

    主成分分析を行い、主成分ベクトルを求めるためには行列(共分散行列)の固有値問題を 解き、固有値・固有ベクトルを求めればよいですよね。そこで固有値行列(対角成分に固有値 λが並ぶ行列)の固有値の値から累積寄与率を求め適当な次元まで減らすということは わかっています。そこで質問です。 例えば、元々100次元あるとします。固有値問題を解けば、100個の固有値が求まりますよね。 その固有値ひとつひとつに100個の成分を持つ固有ベクトルが存在しますよね。 これを50次元に減らすとします。元々100個固有値を持つ行列から、50個分を用いることになり ますよね。ここで、次元が50になったので固有値と対応する固有ベクトルの成分の数も100から 50に減るのですか?減るとしたら、固有ベクトルの成分からどのように50個取り除けばよいかが わかりません。どうか教えていただきたいと思います。

  • 画像の主成分分析

    画像の主成分についての質問です。 http://home.a02.itscom.net/coffee/takoindex.html の内容についてなのですが、事例1 タコ国未知物体の正体は何か というところで海にうつった飛行機の陰の画像を主成分分析し、第一、第二と並べていくと飛行機の主要な形が復元できるとあるのですが、実際にこのようなことは可能なのでしょうか?それとも概念的な例え? また、可能であればどのような操作で(元の画像のデータをこんな行列データにして主成分分析をかける等、)行えるのか具体的に教えてもらえるとありがたいです。主成分分析の操作はだいたいわかるのですが、このような画像の場合にどう入力するとあのような結果が得られるのかがよくわかりません。 困っています。どうぞよろしくお願いいたします。

  • 主成分分析について

    主成分分析であるデータを解析したいのですが、主成分分析の手順や意味を詳しく記してあるページなど、ないでしょうか? 調べてみたんですが、実際にデータをどう計算して主成分をだすのかよくわかりません。 よろしくお願いします。

  • 主成分分析の対象データについて

    初めて質問いたします. 現在大学の卒論で主成分分析について学んでいる者です. 主成分分析のアルゴリズム等は把握したのですが、 主成分対象となるデータについての知識がありません。 主成分の参考書等を読んでも取り扱うデータは具体例を挙げているばかりで 統計学的にどんなデータという記述をしている本はほとんどありませんした。 私が調べたりないせいもあるかと思いますが。。。 過去の質問も見たのですが 私が知りたい部分は詳しく書いてありませんでした。 統計学的にデータ間に相関関係があるという感じで書こうと思っています。 どなたか教えてください。