• 締切済み

主成分分析とは

主成分分析といわれる統計処理があります。これは確率・統計の勉強を進めていったら出てくるのだろうかと思うのですが、ずっと勉強していたら必ず出てくるということでも無さそうです。確率統計という学問はいろんなものに応用されていく(文理関係なく)ので基礎と応用というペアも幅広く、どのような勉強の仕方があるのだろうと思うわけですが。 名前から想像すると、ある種のデータの変動を説明する主要な要因を抽出し、その寄与を調べるという風に見えます。例えば、世界各地の気温データの時系列データを集めて、それに関係しそうなデータ(CO2排出量とか)を突き合わせてその因果関係の度合いを調べるというようなものです。そういうことなのでしょうか。分散共分散行列の固有値を調べ、その値の大小を調べるということのようですが。 少し話が飛びますが、Rという統計ソフトを使えば、それに応じた形式のデータをRに処理させれば、自然と値(寄与率とか)が出てくるというブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 よろしくお願いします。

みんなの回答

  • masudaya
  • ベストアンサー率47% (250/524)
回答No.5

例えば,こんな例で考えてはいかがでしょうか. 定期テストで国語,英語,日本史,世界史,数学,物理,化学 という科目を全生徒が受けたとして,各生徒得点の一覧表があります. このままでは,各生徒の得点は7次元のベクトルとなりますが, 例えば,理系の能力として,数学,物理,化学の得点についての 相関度が高い時,この3つの次元を理系能力として次元の圧縮ができます. (当然,完全に相関が取れるわけはないので,理系能力に対してばらつきますが) 同様に,語学能力(国語,英語),歴史能力(日本史,世界史)とまとめられる かもしれません.そうできると,7次元を3次元に圧縮できる可能性があります. これが,ほかの方がおっしゃっていた, 多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法 という意味です. 何となく,分かりましたか?

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.4

教科書も解説書も回答も読まずに、「用語の字面」だけで定義してはいけません。 『ご丁寧に回答頂きありがとうございます。もう少しだけ別の視点でお尋ねしたいのですが。データの構造ということですが、先の身長、体重、年齢...のデータですが、 A君(年齢、体重、身長、性別、出身地) B君(年齢、体重、身長、性別、出身地) .... というものが何百もあった場合、身長Yに対して体重a、年齢b、性別c、出身地d というのが説明変数であり、とにかくY vs a, Y vs b, Y vc c, Y vs dをプロットして最も長いもの(←不正確ですが。あるいは分散共分散行列の固有値最大)となるものが最大の寄与率を与え、それが主成分であるということであり、それを抽出する作業が主成分分析である、ということかと考えます(確認)。』 違います。それが、分散分析での「寄与率」の順であり、最大の寄与率を与える1説明変数(=1座標軸)だけで分布の主軸を求めるわけではありません。 『ご回答の例では年齢という支配的パラメータが発見されるということでした。しかしながら、Yに対して説明変数a,b c,dが挙げられている以上、年齢が支配的である可能性は最初からあったということになります。パラメータが発見されるというのは、データとしてそのパラメータの可能性があったということも含んでのことでしょうか。つまり説明変数として挙げた候補の中からしか主成分を選択できないのではないかと思うのですが。』 自覚している説明変数で統計処理をしたときに、なぜデータがこのように長く分布する方向があるのか(特定の説明変数に対応する座標軸ではなく、座標軸に斜めに存在する分布のラグビーボールの軸があるのか)、という「複数の説明変数との因果関係がある、自覚していなかったので説明変数としてのデータ採取をしていなかったが、説明変数とみなす価値がある概念」を、自覚している複数の説明変数の線形結合で見出すのが、主成分分析です。 身長と体重での2説明変数による2次元プロットで斜めにデータが分布するのは「年齢」という概念が内在しているからだ、というのは後で考えればわかるかもしれないが、先に知っているならば既にそれを説明変数としてデータ収集をしているはずです。 そのように注目すべき概念をどのような測定手法で数値化して「次回以降の統計処理・データ収集に活用すべきか」という概念を抽出する一つの参考として、主成分分析による「第一主成分」(主軸)が持つ概念は何か、という「説明」を考察して、内在する概念を測定可能なものに具現化する「統計の活用作業」なのです。 主成分分析とは|市場調査・アンケート調査のマクロミル http://www.macromill.com/landing/words/b007.html 主成分分析 第一主成分 - Google 検索 https://www.google.co.jp/search?q=%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90+%E7%AC%AC%E4%B8%80%E4%B8%BB%E6%88%90%E5%88%86

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.3

説明変数という語をご存じであれば、先の回答における「要因」は「説明変数」に読み替えていただいて構いません。 『回答ありがとうございます。この”要因”とはどのようなものだと思えばいいでしょうか。その現象を説明する変数ということで”説明変数”ということになるでしょうか。説明変数(a,b,c)が現象Xを説明する、ということを考えた場合、もっともよく説明する順番が a>c>b であったというようなことでしょうか。』 それは、「分散分析」における「寄与率」の概念。 『またご回答の中では、a,b,c間の関係がわかる、ということでしょうか。また、a,b,cを使って主成分分析を行うと新たな説明変数dが抽出されるということになるのでしょうか。そのようなことが本当にできるのだろうかと思いますが。』 新たな説明変数dとして有用なものが、説明変数a,b,c の関数として見出せるかも、ということです。 おそらく、小学1~6年生の児童の身長と体重をプロットした2次元グラフを想像されると良いでしょう。そこには、身長が大きくなるほうが体重が重くなる、というような右肩上がり細長い楕円状に分布したものができるでしょう。 この楕円(ラグビーボール)の一番長径(軸)の方向を求めるのが、主成分分析であり、では、その軸に沿ってあらわされている違い「概念」は何か、というと、「年齢」だよね、ということになるのです。 そして、じゃあ、楕円の短辺はなにか、と2軸目を考えたときに、「同年齢の中での生育度の尺度」だよね、という考え方ができるのです。 そういう、分散分析とは違う、すでに認識している2つの説明変数とは違う、2次元の分布として把握するときに有用な概念2つを見出して、それを既に認識している2つの説明変数で説明できないか、というのが「主成分分析」の試みです。

skmsk1941093
質問者

お礼

ご丁寧に回答頂きありがとうございます。もう少しだけ別の視点でお尋ねしたいのですが。データの構造ということですが、先の身長、体重、年齢...のデータですが、 A君(年齢、体重、身長、性別、出身地) B君(年齢、体重、身長、性別、出身地) .... というものが何百もあった場合、身長Yに対して体重a、年齢b、性別c、出身地d というのが説明変数であり、とにかくY vs a, Y vs b, Y vc c, Y vs dをプロットして最も長いもの(←不正確ですが。あるいは分散共分散行列の固有値最大)となるものが最大の寄与率を与え、それが主成分であるということであり、それを抽出する作業が主成分分析である、ということかと考えます(確認)。 ご回答の例では年齢という支配的パラメータが発見されるということでした。しかしながら、Yに対して説明変数a,b c,dが挙げられている以上、年齢が支配的である可能性は最初からあったということになります。パラメータが発見されるというのは、データとしてそのパラメータの可能性があったということも含んでのことでしょうか。つまり説明変数として挙げた候補の中からしか主成分を選択できないのではないかと思うのですが。 いかがでしょうか。

  • f272
  • ベストアンサー率46% (8010/17118)
回答No.2

> 名前から想像すると...その因果関係の度合いを調べるというようなものです。 ぜんぜん違う。想像で考えるのではなく,ちゃんと定義を見て考えてください。 主成分分析を一言で言えば,多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法です。 なお,統計モデルでわかるのは相関関係であって因果関係ではないです。因果関係を調べるにはメタ知識を使ったり,別の手法が必要になります。 > ブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 それでデータを理解できるのならそれでもいいけど,ソフトが何をやっているのかは確実に把握しておかねばなりません。

skmsk1941093
質問者

お礼

解答ありがとうございます。確率・統計は多岐にわたるため、確固たる定義に至る前に個別分野の事情が出てくるようなところがあり、何となくはっきりしないのです。特にエクセルのように実際に計算してみせるような本だと、定義と計算手法の区別がつかず、計算手法=定義となってしまうような感じがしています。主成分分析の最も原初的な定義が書いてある書籍とかサイトとかありますでしょうか。そこを出発点にしたいと思いますが。

  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.1

厳密性に欠けるのですが、イメージ優先であえて説明すると、 「測定したデータをグラフ(各要因を各座標軸にした座標系)にプロットして、そのデータが分布しているところをラグビーボールみたいなもので包んだとき、一番長い方向=ボールの中心軸の方向=相関係数R2が最大になる直線はどれか」 というのが、主成分です。その主成分を表す直線の式には、 ・どの座標軸(要因)が、どの割合(係数)で寄与しているか ・その直線を軸にすると最も近似ができるからには、その直線を構成する要因たちの間には何か意味があるはずだ という「データの広い分布を説明する、人間の感情や行動を、それらの要因の組み合わせ(線形結合)でモデル化できている可能性がある」という「当初は認識しておらず測定もしていなかったパラメータの存在」を見つけることができるのです。

skmsk1941093
質問者

お礼

回答ありがとうございます。この”要因”とはどのようなものだと思えばいいでしょうか。その現象を説明する変数ということで”説明変数”ということになるでしょうか。説明変数(a,b,c)が現象Xを説明する、ということを考えた場合、もっともよく説明する順番が a>c>b であったというようなことでしょうか。 またご回答の中では、a,b,c間の関係がわかる、ということでしょうか。また、a,b,cを使って主成分分析を行うと新たな説明変数dが抽出されるということになるのでしょうか。そのようなことが本当にできるのだろうかと思いますが。 私の想像ですが、Xという現象を説明する変数としてa,b,cがあり、aが最もよく説明するというのであれば、Xはよく推定できないけれどもaは観測しやすいのでaを見ておけばXが予測できる、というものなのかなと思ったのですが。でもそれだと、回帰計算と同じになるなあと思ったりしています。 また、現象と説明変数の関係を因果関係と捉えてはいけないのでしょうか。

関連するQ&A

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • 統計学 主成分分析についての問題

    問題 中学生23名の国語、社会、数学、理科、英語のテストの成績データに対し、R上で主成分分析を実行せよ。 以下は、この問題についてR上で実行した結果と、※は自分が補足したものです。これについて、間違ったことを言っていないか見てほしいです。 > record<-read.table("clipboard",header=TRUE) ※Excel上で範囲指定したデータを読み込む > attach(record) > cor(record) ※相関係数行列 J So M Sc E J 1.0000000 0.6584507 0.7018091 0.5575613 0.5875562 So 0.6584507 1.0000000 0.7299969 0.5186419 0.6316762 M 0.7018091 0.7299969 1.0000000 0.5841553 0.6861519 Sc 0.5575613 0.5186419 0.5841553 1.0000000 0.1581694 E 0.5875562 0.6316762 0.6861519 0.1581694 1.0000000 > record.pc<-princomp(record,cor=TRUE) ※主成分分析を実行 > summary(record.pc,loadings=TRUE) ※要約を表示 Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.8333663 0.9205594 0.58438974 0.53087490 0.40987649 ※標準偏差 Proportion of Variance 0.6722464 0.1694859 0.06830227 0.05636563 0.03359975 ※分散に対する寄与率 Cumulative Proportion 0.6722464 0.8417323 0.91003462 0.96640025 1.00000000 ※分散に対する累積寄与率 Loadings: ※負荷量(第1列の符号は逆) Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 J -0.470 0.801 -0.340 -0.136 So -0.476 -0.570 -0.663 M -0.498 -0.157 0.567 -0.637 Sc -0.366 0.764 0.222 0.473 E -0.413 -0.640 0.271 0.589 > record.pc$scores ※主成分得点(第1列の符号は逆) Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 [1,] 3.1167052 1.91873064 -0.83871400 1.089546316 0.47080630 [2,] -0.3534373 -0.36465137 0.23637014 0.088886431 0.40176404 [3,] -1.7374327 -0.31502988 -0.42142122 -0.213519704 0.66313826 [4,] 2.0482136 0.99571932 -0.26626371 -0.287905717 -0.32609384 [5,] -2.4780046 0.42476272 -0.53886137 0.348065492 0.01178841 [6,] 0.4515589 0.78978191 -0.82410613 -0.946674170 -0.33084616 [7,] -1.0796202 -0.18729851 0.05172686 -1.018006746 -0.08089715 [8,] -0.3208936 0.78043016 -0.85188050 -0.349434241 0.20300614 [9,] -0.7660659 -0.15184379 -0.13591157 0.179059603 -0.02711284 [10,] 0.7875685 -0.34815048 -0.71438854 0.020244171 -0.41908193 [11,] -0.8227255 -0.69943703 0.04600328 1.066671131 -0.73574783 [12,] -2.6179360 0.09915406 0.15203799 0.084791799 0.34009352 [13,] -2.0921834 0.20396311 0.31792460 0.724050456 -0.15618464 [14,] 0.8832722 0.79732795 0.75292693 -0.642132324 -0.88772451 [15,] -1.7474404 0.40030282 0.48873306 -0.310296489 0.42990499 [16,] -0.9025150 0.24674778 0.08371780 -0.330878802 -0.14212137 [17,] 3.2791963 -2.42799101 -0.17750833 0.003625541 0.42275792 [18,] -0.4456651 -0.02314190 -0.20421328 0.150554774 0.01283695 [19,] -1.5094569 -0.62043376 0.50088051 0.003922563 0.36332666 [20,] 2.1015986 -1.96268128 -0.41425625 -0.362927436 -0.06299122 [21,] -0.3412713 -0.80030873 0.26676025 0.693274422 -0.68223217 [22,] 0.4319628 0.46624772 1.32628608 -0.113553395 0.21566919 [23,] 4.1145719 0.77779954 1.16415742 0.122636322 0.31594128 ・・回答よろしくお願いします。

  • ロジスティック回帰分析のモデルのあてはまり具合の基準。

    SPSSを用いてロジスティック回帰分析で統計データを 処理しようとしています。 出力される結果のCox&Snell R2乗、Nagelkerke R2乗の 値が、統計に用いたデータのロジスティックモデルへ のあてはまり具合の指標であることはわかるのです が、これらの値がどの程度の値を基準として「モデル にあてはまっている」と言えるのかがわからなくて困 っています。 統計学の初心者で統計学の本を調べながらデータ処理 を進めているのですが、上記に示した内容についての 説明が載っていなかったためこれらの値をどう捉えて いいのかわからなくて困っています。 出来るだけ具体的な値を示して教えてくれるとありが たいです。どなたか参考になるようなCox&Snell R2 乗、Nagelkerke R2乗の基準値のようなものを教えてい ただけないでしょうか。よろしくお願いします。

  • 仕事で分析ができるようになるには?

    初めて質問を投稿いたします。 仕事で簡単な分析(抽出したデータから率などを出したりする)ことが増えてきたのですが、なぜその計算式になるのか分からないことが多々あります。 割り算や確率の基礎は分かっているのですが、応用になったとたんに分からなくなります。 分析に関して勉強しようとして本を手に取ったのですが、統計とか初心者向けでも元々計算式などを理解できている前提の話になっていて、どこから勉強し直せばいいのか悩んでおります。 何かおすすめの勉強の仕方(本・スクール・教えてもらえるサービス・副業で教えてくれる方)や、どういう入口から勉強すれば、理解していけるようになるのか、ご教示いただけますと幸いです。

  • 統計学のデータを分析するソフトは?

    データをとって、それを統計学的手法で結果・考察をしたいのですが、エクセルでできるのか?それとも統計専門SPSSのソフトが必要なのか? どうでしょうか? ちなみに、データの統計処理の内容は因子分析です。 因子負荷量や共通性、寄与率などを算出し、数少ない因子に要約して回転などを加える予定です。 この程度は、エクセルで十分でしょうか? それともSPSSでないと困難でしょうか?

  • エクセルでの重回帰分析が上手くいきません

    エクセルにて重回帰分析を行っています。下記の状況になりますが何が原因か、また、対策はどうすべきかご教授ください。 <元データ> ・説明変数16個 <エクセルの統計データ機能を使用した結果> 回帰統計 重相関 R 1 重決定 R2 1 補正 R2 65535 標準誤差 0 観測数 3 分散分析表   自由度 変動     分散    観測された分散比 有意 F 回帰 16  1.646666667 0.823333333 #NUM!     #NUM! 残差  0    0     65535 合計  16 1.646666667 t値 65535 P値 #NUM! 以上です。 どうぞよろしくお願い致します。

  • 統計の勉強法か家庭教師を教えて下さい。

    現役看護師です。看護研究のデータ分析で統計を使用しないといけません。構成的質問紙のデータから因果分析をしたいのですが、具体的にどれをどう処理していくのか判りません。因子分析とか重回帰分析とか共分散構造分析を使用するところまでは教わりました。でも意味が良く判りません。方法がずれていたら結果が出ないんですね。大学の卒論などだと教授に相談出来るのでしょうが、臨床現場ではそこまで統計を判っている人がいません。大学院を目指していて今回の研究はその第1歩にしたいのです。どのように統計を勉強すれば良いでしょうか?統計ソフトの講習会などが良いのでしょうか。

  • 分散分析のNの数

    統計全体の知識がありませんが、なんとか本をみながら統計を進めている状態です。 どなたか教えて頂けないでしょうか? まず、2要因の分散分析をしようと思って、SPSSで本をよみながらすると、 一変量の分散分析にたどり着きました。(一変量??が気になるのですが・・) 背景としては、対応なしで等分散していない値を扱っています。 従属変数をストレス値としています。 2要因の水準(?)は、2×2です。 私のためにも、例で書くと、男・女×小学生・中学生とします。 結果として、交互作用(?)のところで優位確率が0.02と出ています。 単独、男女と、年齢だけでは有意差がでていません。 これは、どのように解釈すればいいのでしょうか? 結果として論文に書けるのでしょうか? 後、気になることとして、例えば女の小学生が2名しかおりません。 ※全体数は40です。 ご助言よろしくお願いいたします。

  • 正規分布における平均値175、分散100の問題

    はじめまして。初心者で統計の勉強をしているのですが、わからない問題があって困っています。どなたかご教授おねがします。 測定値が、平均値175、分散100の正規分布にしたがっていたとして、 (1)測定値が185のとき、基準化した後の値はどうやって求めればいいでしょうか?基準化=(測定値-平均値)÷標準偏差 の数式がありますが、分散100の意味がわかりません。 また以下ははどうやって求めればいいでしょうか? (2)測定値が185以上となる確率 (3)測定値が、171≦ 測定値 ≦ 191 の条件を満たす確率 (4)Aさんが、測定値X以下となる確率を求めたら67%だったときのXの値

  • 高校数学の確率・統計領域について。

    高校数学の確率・統計領域について。 どの辺りまで扱うべきだと思いますか。 【1年】 個数の処理(集合の要素の個数,和の法則・積の法則,順列,組合せ) 確率(確率の基本的な法則,独立な事象と確率,確率の乗法定理) 【2年】 データの分析(データの散らばり,データの相関) 確率分布(確率変数の平均・分散・標準偏差,二項分布の平均・分散・標準偏差) 【3年】 正規分布,統計的な推測(母集団と標本,推定,検定)