• ベストアンサー

主成分分析における分散

主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、 射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

 第1主成分は「データのばらつきを最も良く説明する成分」,第2主成分は,「データのばらつきのうち,第1主成分では説明できないばらつきを最も良く説明する成分(従って第1主成分とは直交)」,という風に成分を取り出していくのが主成分分析です.従って,データの第1主成分の分布は,分散が最大である.  さて,あるn次元データxから適当な線形結合で計算した一個の数値v v = a[1] x[1]+a[2] x[2]+…+a[n] x[n] (aは適当な係数) だけを知っているとします.そして,これだけの情報からデータxがどんな値であるかを推測することを考える.  当然,ぴたりと推測することはできなくて,xの推測値はある確率分布で表されることになり、これは「vの値がイクライクラである」という条件付き確率分布で表されます.そしてこの条件付き確率分布は,データ全体の確率分布からベクトルaに平行な成分を取り除いたもの(a方向への射影)に他なりません.  もちろん「適当な線形結合」の係数aの選び方によって、条件付き確率分布はいろいろ異なることになります.そして,この条件付き確率分布のばらつきが最も小さくなるのは,「適当な線形結合」というのが第1主成分を取り出す計算である場合である.言い換えれば,第1主成分だけ見てデータxがいくらであるかを推測すると,他の「適当な線形結合」を使って推測するのに比べて推測精度が高いのです.  そういうわけで,第1主成分は,「1個の数値によってデータが持つ情報量のうち出来るだけ多くを表現したもの」である,と言えるんです.

statistics_road
質問者

お礼

ありがとうございます。よくわかりました。返事が遅くなって申し訳ないです。

その他の回答 (1)

  • hrsmmhr
  • ベストアンサー率36% (173/477)
回答No.1

ピンときませんが… 分散が小さいとメジャーの分解能によってはデータ間の差が読めなくなるのでは?

statistics_road
質問者

お礼

なるほど、差がおおきければ多いほどデータ間の区別がしやすくなる、だからできるだけばらけていた方がいいんですね。

関連するQ&A

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • 主成分分析について

    主成分分析であるデータを解析したいのですが、主成分分析の手順や意味を詳しく記してあるページなど、ないでしょうか? 調べてみたんですが、実際にデータをどう計算して主成分をだすのかよくわかりません。 よろしくお願いします。

  • Rによる主成分分析

    統計解析用ソフトRを用いて主成分分析を行いたいと考えております。 しかし中々うまくいきません。 そこで、詳しい方がいたっしゃいましたら、主成分分析、主成分負荷量、バイプロットまでのプログラムを教えていただけないでしょうか。 解析対象のデータは以下の様なものです。データ数が21個、変数が13個です。   F G H ・・・  R 1  6 6  5 ・・・  2 2  5 6  1 ・・・  6 3  6 4  6 ・・・  5 : : :  : ・・・  : 21 3 6  4 ・・・  6 よろしくお願いいたします。

  • 主成分分析に関する質問です。

    主成分分析に関する質問です。 平均が[0, 0],分散がσ^2*I2(I2は2*2のidentity matrix)のガウス分布に対おする共分散行列を考えます。 この共分散行列の主成分と固有値 第1主成分への投影によって再構成された値 投影によるエラーの値(真値と再構成された値の2乗誤差) を求めたいと思っていますが、とき方がわからず困っています。

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。

  • 主成分分析

    こんにちは、統計学初心者の大学生です。 統計学の授業で「体力テスト(テスト項目8つ、15人)の総合成績順位をつけなさい」という課題が出され、行き詰っています・・・。 主成分分析をして、因子負荷量やら主成分得点やらは計算済みです。 第4主成分まで(累積寄与率79%)で分析する、という所まで進んだは良いのですが、そこから何をどうすればよいのか分かりません。 テストの総合成績順位をつけるには、総合力を示している主成分を見つければ良いのでしょうか?(でもそれなら第4主成分までを選択する必要はないですよね) どなたかアドバイスよろしくお願いします!

  • 主成分分析における出発行列の違いは?

    タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!

  • 主成分分析とは

    主成分分析といわれる統計処理があります。これは確率・統計の勉強を進めていったら出てくるのだろうかと思うのですが、ずっと勉強していたら必ず出てくるということでも無さそうです。確率統計という学問はいろんなものに応用されていく(文理関係なく)ので基礎と応用というペアも幅広く、どのような勉強の仕方があるのだろうと思うわけですが。 名前から想像すると、ある種のデータの変動を説明する主要な要因を抽出し、その寄与を調べるという風に見えます。例えば、世界各地の気温データの時系列データを集めて、それに関係しそうなデータ(CO2排出量とか)を突き合わせてその因果関係の度合いを調べるというようなものです。そういうことなのでしょうか。分散共分散行列の固有値を調べ、その値の大小を調べるということのようですが。 少し話が飛びますが、Rという統計ソフトを使えば、それに応じた形式のデータをRに処理させれば、自然と値(寄与率とか)が出てくるというブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 よろしくお願いします。

  • 主成分分析について

    超素人なのですが、主成分分析について困っています。 SPSSの結果で、主成分が9つにもなっています。 3つか、4つかに絞れるように工夫してみなさいと 言われているのですが、どうすればいいのでしょうか。 アンケートの評点データ  35項目 1~5段階評価です。 データ数は100件 不足であれば補足させていただきますので、 どうぞよろしくアドバイスお願いします。 また、わかりやすいページなどありましたら、ご紹介ください。

  • 主成分分析について

    こんにちわ。だいぶ困っていることがあるので、皆さんにお尋ねします。 私は卒論でアンケートをとったのですが、その内容がこんな感じです。 「あなたが当てはまるものをいくつでもいいので○をつけてください」 このような感じです。 そこで分析するにあたり、知人から、これを主成分分析でやってみればといわれました。 複数回答にした場合、主成分分析ってできるのでしょうか?? 普通なら5段階になっていてその平均で出したりするのではないでしょうか? でも、できたらこのアンケート項目で主成分分析をしたいのですが、もしやり方があるならおしえてください☆