- ベストアンサー
主成分分析における分散
主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、 射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。 よろしくお願いします。
- statistics_road
- お礼率84% (43/51)
- 数学・算数
- 回答数2
- ありがとう数2
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
第1主成分は「データのばらつきを最も良く説明する成分」,第2主成分は,「データのばらつきのうち,第1主成分では説明できないばらつきを最も良く説明する成分(従って第1主成分とは直交)」,という風に成分を取り出していくのが主成分分析です.従って,データの第1主成分の分布は,分散が最大である. さて,あるn次元データxから適当な線形結合で計算した一個の数値v v = a[1] x[1]+a[2] x[2]+…+a[n] x[n] (aは適当な係数) だけを知っているとします.そして,これだけの情報からデータxがどんな値であるかを推測することを考える. 当然,ぴたりと推測することはできなくて,xの推測値はある確率分布で表されることになり、これは「vの値がイクライクラである」という条件付き確率分布で表されます.そしてこの条件付き確率分布は,データ全体の確率分布からベクトルaに平行な成分を取り除いたもの(a方向への射影)に他なりません. もちろん「適当な線形結合」の係数aの選び方によって、条件付き確率分布はいろいろ異なることになります.そして,この条件付き確率分布のばらつきが最も小さくなるのは,「適当な線形結合」というのが第1主成分を取り出す計算である場合である.言い換えれば,第1主成分だけ見てデータxがいくらであるかを推測すると,他の「適当な線形結合」を使って推測するのに比べて推測精度が高いのです. そういうわけで,第1主成分は,「1個の数値によってデータが持つ情報量のうち出来るだけ多くを表現したもの」である,と言えるんです.
その他の回答 (1)
- hrsmmhr
- ベストアンサー率36% (173/477)
ピンときませんが… 分散が小さいとメジャーの分解能によってはデータ間の差が読めなくなるのでは?
お礼
なるほど、差がおおきければ多いほどデータ間の区別がしやすくなる、だからできるだけばらけていた方がいいんですね。
関連するQ&A
- 主成分分析と、共分散行列について
現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8 ・ ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。
- 締切済み
- 数学・算数
- 主成分分析について
主成分分析であるデータを解析したいのですが、主成分分析の手順や意味を詳しく記してあるページなど、ないでしょうか? 調べてみたんですが、実際にデータをどう計算して主成分をだすのかよくわかりません。 よろしくお願いします。
- ベストアンサー
- その他(学問・教育)
- 主成分分析に関する質問です。
主成分分析に関する質問です。 平均が[0, 0],分散がσ^2*I2(I2は2*2のidentity matrix)のガウス分布に対おする共分散行列を考えます。 この共分散行列の主成分と固有値 第1主成分への投影によって再構成された値 投影によるエラーの値(真値と再構成された値の2乗誤差) を求めたいと思っていますが、とき方がわからず困っています。
- 締切済み
- 数学・算数
- 主成分分析について
主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8 5 6 3 5 4 7 4 9 4 3 4 3 6 8 6 8 2 5 4 5 6 7 6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。
- ベストアンサー
- 数学・算数
- 主成分分析における出発行列の違いは?
タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!
- ベストアンサー
- 数学・算数
- 主成分分析とは
主成分分析といわれる統計処理があります。これは確率・統計の勉強を進めていったら出てくるのだろうかと思うのですが、ずっと勉強していたら必ず出てくるということでも無さそうです。確率統計という学問はいろんなものに応用されていく(文理関係なく)ので基礎と応用というペアも幅広く、どのような勉強の仕方があるのだろうと思うわけですが。 名前から想像すると、ある種のデータの変動を説明する主要な要因を抽出し、その寄与を調べるという風に見えます。例えば、世界各地の気温データの時系列データを集めて、それに関係しそうなデータ(CO2排出量とか)を突き合わせてその因果関係の度合いを調べるというようなものです。そういうことなのでしょうか。分散共分散行列の固有値を調べ、その値の大小を調べるということのようですが。 少し話が飛びますが、Rという統計ソフトを使えば、それに応じた形式のデータをRに処理させれば、自然と値(寄与率とか)が出てくるというブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 よろしくお願いします。
- 締切済み
- 数学・算数
お礼
ありがとうございます。よくわかりました。返事が遅くなって申し訳ないです。