• 締切済み

主成分分析と、共分散行列について

現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

みんなの回答

noname#227064
noname#227064
回答No.1

SASのサポートページにあるpdf(参考URL)によると、100例以上か変数の5倍以上であるべきだそうです。

参考URL:
http://support.sas.com/publishing/pubcat/chaps/55129.pdf

関連するQ&A

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。

  • 主成分分析における分散

    主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、 射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。 よろしくお願いします。

  • 共分散行列の固有値・固有ベクトルの行列

    以下のようなデータを用いて、共分散行列を生成するとします。 (各No.にはそれぞれx1~x5の5つのデータ) x1 x2 x3 x4 x5 No.1 [2 4 5 2 1] No.2 [3 10 8 7 9] No.3 [11 3 2 1 6] すると、共分散行列は3×3の正方行列になり、その固有値も3つ求まりますよね。 しかし、固有ベクトルに関してはデータがx1,x2,..,x5と5次元で考えているので、 ひとつの固有値に対して5つの成分を持つ固有ベクトルが求まりますよね。 よって、共分散行列の固有値行列は必ず正方行列になりますが、固有ベクトルの 行列は上の例の場合なら5×3行列(列は対応する固有値の数、行はベクトルの成分の数)となり、 必ずしも正方行列にはなりませんよね?そのあたりを教えて頂きたいと思います。 よろしくお願いします。

  • 3変数による主成分分析で求めた固有ベクトルについて

    3変数(x1,x2,x3)で主成分分析を行い、最大の固有値を用いて固有ベクトルを求めて第一主成分(z=l1x1+l2x2+l3x3)の直線を作成しようと考えています。固有ベクトルの算出のところで、l1が虚数解となってしまい、よく分からなくなってしまいました。(x1,x2,x3)空間上にzの直線を描きたいのですが、虚数を含むとどうなるのかイメージが湧きません。あるいはl1,l2,l3は実数のみで扱うのでしょうか?

  • 相関行列の主成分の求め方について

    今回レポートで再提出しなくちゃならない課題の中に 相関係数行列がありまして、 それが    1 0.4 0.3 R= 0.4 1 0      0.3 0 1   というもので、これから固有値と主成分寄与率を求めていかなければならないんです。 で、 固有値を求めるために最初のλはRa=λaでそれぞれ、 λ1=1.5 λ2=1 λ3=0.5と求める事が出来たのですが、この後の固有値を求めるための計算で詰まってしまいました。 式としてはλ3の時から求めだして    1 0.4 0.3   |X1|      |X1| R= 0.4 1 0  ×|X2| =0.5×|X2|    0.3 0 1    |X3|      |X3| より、 X1+0.4X2+0.3X3=0.5X1…(1) 0.4X1+X2   =0.5X2…(2) 0.3X1+X3   =0.5X3…(3) というところから変換していこうとしたのですが、どうにも答えとは違う固有値が出てしまい、 主成分を求めるところまで行き着けません。さらに、回答にルートが入ってきていて、どうやったらルートが出てくるのかとも悩んでいます。 どうか、固有値と主成分の求め方を教えてください。

  • 主成分分析について

    主成分分析を行い、主成分ベクトルを求めるためには行列(共分散行列)の固有値問題を 解き、固有値・固有ベクトルを求めればよいですよね。そこで固有値行列(対角成分に固有値 λが並ぶ行列)の固有値の値から累積寄与率を求め適当な次元まで減らすということは わかっています。そこで質問です。 例えば、元々100次元あるとします。固有値問題を解けば、100個の固有値が求まりますよね。 その固有値ひとつひとつに100個の成分を持つ固有ベクトルが存在しますよね。 これを50次元に減らすとします。元々100個固有値を持つ行列から、50個分を用いることになり ますよね。ここで、次元が50になったので固有値と対応する固有ベクトルの成分の数も100から 50に減るのですか?減るとしたら、固有ベクトルの成分からどのように50個取り除けばよいかが わかりません。どうか教えていただきたいと思います。

  • 主成分分析でのばらつき

    主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか? 例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、 結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか? よろしくお願いします。

  • 主成分分析に関する質問です。

    主成分分析に関する質問です。 平均が[0, 0],分散がσ^2*I2(I2は2*2のidentity matrix)のガウス分布に対おする共分散行列を考えます。 この共分散行列の主成分と固有値 第1主成分への投影によって再構成された値 投影によるエラーの値(真値と再構成された値の2乗誤差) を求めたいと思っていますが、とき方がわからず困っています。

  • 主成分分析における出発行列の違いは?

    タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!

  • 主成分分析について

    主成分分析であるデータを解析したいのですが、主成分分析の手順や意味を詳しく記してあるページなど、ないでしょうか? 調べてみたんですが、実際にデータをどう計算して主成分をだすのかよくわかりません。 よろしくお願いします。