主成分分析について

このQ&Aのポイント
  • 主成分分析を行い、主成分ベクトルを求めるためには行列の固有値問題を解く必要があります。
  • 固有値行列の固有値の値から累積寄与率を求め、適当な次元まで次元を減らします。
  • 次元を減らすと固有ベクトルの成分の数も減りますが、具体的な方法については質問者もわかっていません。
回答を見る
  • ベストアンサー

主成分分析について

主成分分析を行い、主成分ベクトルを求めるためには行列(共分散行列)の固有値問題を 解き、固有値・固有ベクトルを求めればよいですよね。そこで固有値行列(対角成分に固有値 λが並ぶ行列)の固有値の値から累積寄与率を求め適当な次元まで減らすということは わかっています。そこで質問です。 例えば、元々100次元あるとします。固有値問題を解けば、100個の固有値が求まりますよね。 その固有値ひとつひとつに100個の成分を持つ固有ベクトルが存在しますよね。 これを50次元に減らすとします。元々100個固有値を持つ行列から、50個分を用いることになり ますよね。ここで、次元が50になったので固有値と対応する固有ベクトルの成分の数も100から 50に減るのですか?減るとしたら、固有ベクトルの成分からどのように50個取り除けばよいかが わかりません。どうか教えていただきたいと思います。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

私は応用統計の学位があり,企業でSQCを推進する立場にある者です. 他の方の回答を見ていたら,求められる回答になっていませんでしたので, 私から回答します. 最初,主成分分析に使う変数は,100次元(100変数)あるとします. それをスペクトル分解して,50変数あれば大方の説明が付くことが分かったので, 次の調査からは,コストダウンのために,調査する変数を減らしたい. どのような基準で減らせばいいですか? という質問ですね. 基準は2つあります. (1)大きな固有値を持つ主成分軸(3~5くらいまで,あるいは累積寄与率を見て判断)の 固有ベクトルを見て,固有ベクトルの絶対値の小さいもの(それらの主成分に効いて いないもの)を順に除去していく. (2)小さな固有値(おしりの方)を持つ主成分軸の固有ベクトルを見て, 固有ベクトルの絶対値の大きいもの(これらの変数間には線形制約があって説明には 寄与していない)を順に除去していく. それぞれの考え方は, (1)はマハラノビス・タグチの変数選択方法に類似です. 重要な変数は残す!という考え方です. (2)は,重回帰分析において,説明変数間に多重共線性が出ているときと同じで, 説明に寄与していないのだから,その変数は取り除いても良いという考えです. ただし,変数間の共分散性は時に興味深い情報を含んでいますので, 残しておいた方が,なんらかの変化があったときに反応することが考えられます. 私は,(1)を推奨します.

その他の回答 (3)

  • hrsmmhr
  • ベストアンサー率36% (173/477)
回答No.3

100個の変数からなる50個の1次式を新たな変数とみなせばよいのです。 (a_ij)^T 1<=i<=50を固有ベクトル、{x_j} 1<=j<=100を分析する変数として {X_i=Σa_ij*x_j} を新たな変数とみなします データのばらつきがそのX_iの軸上に大きくばらけるので、ばらついた状態が分かりやすくなります 固有ベクトルの次数は減りません たまたまそのベクトルの係数のいくつかが0(もしくは0近く)になる場合だけ減ったように見えますが

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.2

ベクトルの数を100から50に減らしても、 各ベクトルは100次元のままです。 「成分」と「成分」がゴッチャになっていませんか?

回答No.1

主成分分析は重要なものを知りたいので、固有値の小さいものから減らしていけばいいです。

関連するQ&A

  • 主成分分析の固有値について

    主成分分析を行うとき、行列の固有値問題を解きますよね。 そこで、対角成分に固有値が降順に並ぶ行列において、 累積寄与率がある値になるまで固有値を上から順番に 足し合わせていくのはわかりました。そこで、質問です。 固有値を降順に並べるとは、負の固有値で大きな値も 含まれるように「固有値の絶対値」で降順なのですか? それとも、正の固有値のみで考えて降順なのですか? 初歩的な質問ですみませんが、どうか教えて頂きたいと 思います。

  • 主成分分析に関する質問です。

    主成分分析に関する質問です。 平均が[0, 0],分散がσ^2*I2(I2は2*2のidentity matrix)のガウス分布に対おする共分散行列を考えます。 この共分散行列の主成分と固有値 第1主成分への投影によって再構成された値 投影によるエラーの値(真値と再構成された値の2乗誤差) を求めたいと思っていますが、とき方がわからず困っています。

  • 主成分分析でのばらつき

    主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか? 例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、 結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか? よろしくお願いします。

  • 主成分分析の固有ベクトルの求め方

    今、3×3行列の主成分分析をしているのですが、どうしても固有ベクトルがうまく求められません。2×2行列の固有ベクトルは公式が導かれているのですが、3×3行列はよく分かりません。 ゴリゴリに計算をするしかないのでしょうか?よろしくお願いします。

  • 主成分分析とは

    主成分分析といわれる統計処理があります。これは確率・統計の勉強を進めていったら出てくるのだろうかと思うのですが、ずっと勉強していたら必ず出てくるということでも無さそうです。確率統計という学問はいろんなものに応用されていく(文理関係なく)ので基礎と応用というペアも幅広く、どのような勉強の仕方があるのだろうと思うわけですが。 名前から想像すると、ある種のデータの変動を説明する主要な要因を抽出し、その寄与を調べるという風に見えます。例えば、世界各地の気温データの時系列データを集めて、それに関係しそうなデータ(CO2排出量とか)を突き合わせてその因果関係の度合いを調べるというようなものです。そういうことなのでしょうか。分散共分散行列の固有値を調べ、その値の大小を調べるということのようですが。 少し話が飛びますが、Rという統計ソフトを使えば、それに応じた形式のデータをRに処理させれば、自然と値(寄与率とか)が出てくるというブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 よろしくお願いします。

  • 主成分分析

    こんにちは、統計学初心者の大学生です。 統計学の授業で「体力テスト(テスト項目8つ、15人)の総合成績順位をつけなさい」という課題が出され、行き詰っています・・・。 主成分分析をして、因子負荷量やら主成分得点やらは計算済みです。 第4主成分まで(累積寄与率79%)で分析する、という所まで進んだは良いのですが、そこから何をどうすればよいのか分かりません。 テストの総合成績順位をつけるには、総合力を示している主成分を見つければ良いのでしょうか?(でもそれなら第4主成分までを選択する必要はないですよね) どなたかアドバイスよろしくお願いします!

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • 主成分分析の第2主成分について

    主成分分析初心者です。基本的なところから独学で勉強しています。 2種類の変数についてグラフ上で散布図を作成したとき、各点から最も近い距離にある直線を第一主成分軸としたとき、この第一主成分が最も寄与率が高くなることは分かりました。しかしなぜ第一主成分軸と直角で交わる直線が第二主成分軸となるのでしょうか?かならず直角で交わる直線が第二主成分軸となり、寄与率が二番目となるのですか? 初心者ですので分かりにくいかと思いますが宜しくお願いします。

  • 主成分分析の寄与率等に関する質問です。

    主成分分析の寄与率等に関する質問です。 主成分分析をかけ、累計寄与率まで出したとして、 第4主成分の時点で累計寄与率90%の場合、全体情報の90%を含んでいるということになると思うのですが、 その第1~4主成分の式を使うことでもともとのデータの予測というものはできるのでしょうか? (1)できるか否か (2)できるのであれば方法 を教えてください。 勉強したてでよく分かっていない部分もありますが、よろしくおねがいいたします。

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。