• 締切済み

主成分分析の変数の減らし方

主成分分析の変数の減らし方についてです。 現在サンプル数200程度、変数30個→5個程度に絞ろうと思っています。 累計寄与率を出すところまではサイトも充実しており理解できたのですが、そこからの変数の減らし方が載っているサイトがほとんどなく分かりません。 数式だけですと理解が難しい面もあるので、できれば具体例を挙げてイメージしやすいもので教えていただけると有難く思います。 サンプル数、変数共にそんなに高いものでなくて結構です。 よろしくお願いいたします。

みんなの回答

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.2

変数を減らす? 何か勘違いをしていませんか。 主成分分析では、変数ではなく、次元を減らすんですよ。 第1~第5主成分を基底に持つ座標系へ変換してから、 寄与率の小さい成分は捨てるということ。 もとの30個の変数の中から、変数を5個に絞ったりすれば、 どんな選び方をしても、重要な情報が損なわれる可能性大です。

回答No.1

統計ソフトに固有値・固有ベクトルの表示機能があると思います. 固有値の大きなものから第1主成分,第2主成分となっていることは ご存知ですね. 固有ベクトルは,それぞれの成分への寄与の大きさを示しています. 変数の削除の考え方は2とおりあります. (1)大きな固有値を持つ主成分1~3ないし4までに 寄与していない変数を取り除く. (2)小さな固有値(ほとんど0)に大きな寄与を持つ 変数を取り除く. 主成分分析は,情報の縮約ですから,変数を取り除く必要はありませんが, 今後,同じような調査をするときに効率化したいというのであれば, 取り除く意義はあると思います.

関連するQ&A

  • 主成分分析の寄与率等に関する質問です。

    主成分分析の寄与率等に関する質問です。 主成分分析をかけ、累計寄与率まで出したとして、 第4主成分の時点で累計寄与率90%の場合、全体情報の90%を含んでいるということになると思うのですが、 その第1~4主成分の式を使うことでもともとのデータの予測というものはできるのでしょうか? (1)できるか否か (2)できるのであれば方法 を教えてください。 勉強したてでよく分かっていない部分もありますが、よろしくおねがいいたします。

  • 主成分分析の第2主成分について

    主成分分析初心者です。基本的なところから独学で勉強しています。 2種類の変数についてグラフ上で散布図を作成したとき、各点から最も近い距離にある直線を第一主成分軸としたとき、この第一主成分が最も寄与率が高くなることは分かりました。しかしなぜ第一主成分軸と直角で交わる直線が第二主成分軸となるのでしょうか?かならず直角で交わる直線が第二主成分軸となり、寄与率が二番目となるのですか? 初心者ですので分かりにくいかと思いますが宜しくお願いします。

  • 主成分分析でのばらつき

    主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか? 例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、 結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか? よろしくお願いします。

  • 主成分分析

    こんにちは、統計学初心者の大学生です。 統計学の授業で「体力テスト(テスト項目8つ、15人)の総合成績順位をつけなさい」という課題が出され、行き詰っています・・・。 主成分分析をして、因子負荷量やら主成分得点やらは計算済みです。 第4主成分まで(累積寄与率79%)で分析する、という所まで進んだは良いのですが、そこから何をどうすればよいのか分かりません。 テストの総合成績順位をつけるには、総合力を示している主成分を見つければ良いのでしょうか?(でもそれなら第4主成分までを選択する必要はないですよね) どなたかアドバイスよろしくお願いします!

  • 主成分分析について

    主成分分析を行い、主成分ベクトルを求めるためには行列(共分散行列)の固有値問題を 解き、固有値・固有ベクトルを求めればよいですよね。そこで固有値行列(対角成分に固有値 λが並ぶ行列)の固有値の値から累積寄与率を求め適当な次元まで減らすということは わかっています。そこで質問です。 例えば、元々100次元あるとします。固有値問題を解けば、100個の固有値が求まりますよね。 その固有値ひとつひとつに100個の成分を持つ固有ベクトルが存在しますよね。 これを50次元に減らすとします。元々100個固有値を持つ行列から、50個分を用いることになり ますよね。ここで、次元が50になったので固有値と対応する固有ベクトルの成分の数も100から 50に減るのですか?減るとしたら、固有ベクトルの成分からどのように50個取り除けばよいかが わかりません。どうか教えていただきたいと思います。

  • 主成分得点から変数の予測

    ある変数の共分散行列を用いて主成分分析を行いました。 各サンプルの主成分得点が得られました。 どのサンプルにも該当しない架空の主成分得点から基の変数を予測することはできますか。 例えば、第一主成分が0.1を示し他の主成分は全て0のときの基の変数値を予測するなどです。 可能か否かの概念的な説明に加えて、もしできるのならばR、SPSS、NTSYSなどの統計ソフトを用いた実践的方法も教えていただけるとありがたいです。 よろしくお願いします。

  • Rによる主成分分析

    統計解析用ソフトRを用いて主成分分析を行いたいと考えております。 しかし中々うまくいきません。 そこで、詳しい方がいたっしゃいましたら、主成分分析、主成分負荷量、バイプロットまでのプログラムを教えていただけないでしょうか。 解析対象のデータは以下の様なものです。データ数が21個、変数が13個です。   F G H ・・・  R 1  6 6  5 ・・・  2 2  5 6  1 ・・・  6 3  6 4  6 ・・・  5 : : :  : ・・・  : 21 3 6  4 ・・・  6 よろしくお願いいたします。

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。

  • varimax rotationによる第一・第二主成分の寄与率の逆転について

    考古学関係の勉強をしているものです。 各遺跡から出土した23種類のモノの量に基づいて遺跡間の類似性を調査するために、主成分分析を用いました。ソフトはSYSTATを使っています。 各主成分に対する各変量の因子負荷量をより見やすくするために、最初の主成分分析の後にvarimax rotationをおこなったところ、第一主成分と第二主成分の寄与率が逆転してしまいました。また、両主成分ともに寄与率が減少してしまいました。varimax rotationをおこなうことで各変量の寄与の程度はより見やすくなっているのですが、この場合には、varimax rotationをおこなうべきではないのでしょうか? また、おこなっていいとした場合に、どちらを第一主成分として記述するべきなのでしょうか? 教えていただけると大変助かります。 どうぞよろしくお願いします。

  • 主成分分析の固有値について

    主成分分析を行うとき、行列の固有値問題を解きますよね。 そこで、対角成分に固有値が降順に並ぶ行列において、 累積寄与率がある値になるまで固有値を上から順番に 足し合わせていくのはわかりました。そこで、質問です。 固有値を降順に並べるとは、負の固有値で大きな値も 含まれるように「固有値の絶対値」で降順なのですか? それとも、正の固有値のみで考えて降順なのですか? 初歩的な質問ですみませんが、どうか教えて頂きたいと 思います。