• ベストアンサー

主成分分析

今主成分分析を勉強しているのですが、 よく、書籍で出てくる、データセットというのは何を指しているのでしょうか? また、係数データを係数行列A(下にp×X)で示す。だとか、線形結合式で求めた値Z(下にn×k)=X(下にn×p)A(下にp×k)を主成分得点と呼ぶ などの説明がまったくもって理解不能です。 どなたか助けてくれませんでしょうか;;;;

質問者が選んだベストアンサー

  • ベストアンサー
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

データセットというのは、例題に用いられているデータのことでしょう。実際には自分で実験や調査をしてデータをとることになりますけどね。要は分析に使うデータのことをデータセットというわけです。身長と体重のデータをとったならば、それは「身長と体重のデータセット」などと呼ばれることがあります。 > 係数データを係数行列A(下にp×X)で示す。だとか、線形結合式で求めた値Z(下にn×k)=X(下にn×p)A(下にp×k)を主成分得点と呼ぶ これは数学の線形代数を勉強しないとダメでしょう(^_^;) そうでなければ、数式を分かりやすく文章で説明している参考書を選択するとかですね。

関連するQ&A

  • 主成分分析について

    主成分分析について 現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。 例をあげて説明させていただくと、 x1 x2 x3 8 9 4 2 5 7 8  5  6 3  5  4 7  4  9 4  3  4 3  6  8 6  8  2 5  4  5 6  7  6 このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。 またここから固有値もわかります。 しかしここからどうやって、主成分得点を求めればよいかわかりません。 どのように計算するのですか?よろしければご回答下さい。

  • 主成分分析における出発行列の違いは?

    タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!

  • 線形回帰分析:多重共線性と主成分回帰について

     最小二乗法による線形回帰モデルのあてはめについて,説明変数間に多重共線性がある場合,回帰係数の信頼性や予測精度が低下すると習いました.これを防止する方法として,元の説明変数行列の主成分を説明変数としてあてはめを行う主成分回帰(PCR)等があるようです.  しかし,説明変数行列の線形変換は,回帰モデルのあてはめ値(fitted values),残差,新たなデータに関する予測値に影響を与えません.主成分も線形変換の1つなので,元の説明変数と同数の主成分を説明変数に用いる場合,全く同じあてはめ値,残差,予測値が得られます. それでは,主成分回帰は何故,多重共線性による回帰係数の信頼性,予測精度の低下を防止する手段と言えるのでしょうか? (主成分回帰の狙いは,元の説明変数より少数の重要な主成分のみを説明変数に用いることにもあるようですが,これは,多重共線性の問題の防止とは関係ないと思います.) 勘違いしている点もあるかもしれないので,コメントを頂ければ嬉しいです。

  • 画像の主成分分析

    画像の主成分についての質問です。 http://home.a02.itscom.net/coffee/takoindex.html の内容についてなのですが、事例1 タコ国未知物体の正体は何か というところで海にうつった飛行機の陰の画像を主成分分析し、第一、第二と並べていくと飛行機の主要な形が復元できるとあるのですが、実際にこのようなことは可能なのでしょうか?それとも概念的な例え? また、可能であればどのような操作で(元の画像のデータをこんな行列データにして主成分分析をかける等、)行えるのか具体的に教えてもらえるとありがたいです。主成分分析の操作はだいたいわかるのですが、このような画像の場合にどう入力するとあのような結果が得られるのかがよくわかりません。 困っています。どうぞよろしくお願いいたします。

  • 相関行列の主成分の求め方について

    今回レポートで再提出しなくちゃならない課題の中に 相関係数行列がありまして、 それが    1 0.4 0.3 R= 0.4 1 0      0.3 0 1   というもので、これから固有値と主成分寄与率を求めていかなければならないんです。 で、 固有値を求めるために最初のλはRa=λaでそれぞれ、 λ1=1.5 λ2=1 λ3=0.5と求める事が出来たのですが、この後の固有値を求めるための計算で詰まってしまいました。 式としてはλ3の時から求めだして    1 0.4 0.3   |X1|      |X1| R= 0.4 1 0  ×|X2| =0.5×|X2|    0.3 0 1    |X3|      |X3| より、 X1+0.4X2+0.3X3=0.5X1…(1) 0.4X1+X2   =0.5X2…(2) 0.3X1+X3   =0.5X3…(3) というところから変換していこうとしたのですが、どうにも答えとは違う固有値が出てしまい、 主成分を求めるところまで行き着けません。さらに、回答にルートが入ってきていて、どうやったらルートが出てくるのかとも悩んでいます。 どうか、固有値と主成分の求め方を教えてください。

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • 主成分分析の途中式の展開について

    主成分分析の途中式の展開について 下付は_で示します。例)xの1番目は、x_1 uの平均はuバーと示しました。 3つの変量x,y,z(各変数1番~nまで)があります。 分散を最大にする主成分 u=ax+by+cz・・・(1) の分散を最大にするa,b,cを求めるため、 係数の不定性をなくす為の条件のもと a^2+b^2+c^2=1・・・(2) そして、分散の定義より S^2_u=(u_1-uバー) ^2+(u_2-uバー) ^2+・・・+(u_n-uバー) ^2/n-1 である分散の式に(1)を代入すると S^2_u=a^2 s^2_x+ b^2 s^2_y+c^2 s^2_z+2abs_xy+2bcs_yz+2cas_zy・・・(3) ※s^2_x:xの分散  s^2_y:yの分散  s^2_z:zの分散  s_xy:xyの共分散  s_yz:yzの共分散  s_zx:zxの共分散 となる。とテキストに書かれているのですが、分散式に(1)を代入し、展開する部分が省略されています。 そのため、(3)になるように展開が上手くできません。 その部分の展開を詳しく解説して頂けると助かります。 また、その部分から後半、ラグランジュの未定係数法を用いて、行列に展開する部分までも余力ありましたら、解説お願いします。その部分より後半は理解できました。 入力お時間をお取りますがよろしくお願いします。 また、問題の文が見づらいと思いましたので、手書きですが 添付させて頂きます。

  • 主成分分析及びクラスタ分析について

    統計について今勉強している者です。 SPSSを用いて分析を実際に行っています。 主成分分析とクラスタ分析というよりSPSSの使用方法になってしまうのですが、 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。 今回自分の場合は4つの主成分になりましたので fac1_1~fac1_4が得られています。 この得られた1~4をクラスタ分析にかけるというのは どのような結果を意味するのでしょうか? 実際にクラスタ分析を行うと鎖効果もなく 非常によい結果が得られたのですが これが本当にクラスタ分析となっているのかが分からなくて。 お分かりの方が見えましたら、ご解答いただけるとありがたいです。 お願いいたします。

  • 相関行列による主成分分析

    変量がp個の場合の主成分分析で、相関行列(の二乗和)に着目した時の話です。 この時の、第二主成分を求める手順、式変形、式変形が成り立つ理由がいまいち理解できません。 主成分分析、あるいは多変量解析の教科書は複数冊に目を通しているのですが、理解力が足りないようで…。 うまく説明できる方、宜しくお願いします。

  • 主成分得点から変数の予測

    ある変数の共分散行列を用いて主成分分析を行いました。 各サンプルの主成分得点が得られました。 どのサンプルにも該当しない架空の主成分得点から基の変数を予測することはできますか。 例えば、第一主成分が0.1を示し他の主成分は全て0のときの基の変数値を予測するなどです。 可能か否かの概念的な説明に加えて、もしできるのならばR、SPSS、NTSYSなどの統計ソフトを用いた実践的方法も教えていただけるとありがたいです。 よろしくお願いします。