• ベストアンサー

共分散行列の逆行列について

現在,線形判別分析(Fisher's LDA)のレポートに取り組んでいるのですが, クラス内分散Swの逆行列を持たない時,データセットがどうなっているときと言えるか という問題が分かりません. 答えが分かる人がいたら教えてください.

  • ausuz
  • お礼率13% (8/60)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

それは,観測変数の少なくとも2つの間に 線形従属関係(線形制約)があって, 分散共分散行列(あるいは相関係数行列)のランクが落ちているときです. この場合,行列式が0となって,逆行列が求まりません. 線形代数学の常識ですが・・・

関連するQ&A

  • 分散共分散行列の逆行列

    以下の行列を考えます. 行列X(M行N列,成分の値は分散1のガウスノイズ) 行列Xの分散共分散行列S(M行M列), 行列Sの逆行列Y(M行M列) N=M+1のときはN≠M+1のときに比べて行列Yの各成分の大きさがかなり大きくなる,という結果が得られました. (計算にはMATLABの関数covとpinvを用いました.) これは数学的に正しいことなのでしょうか. また,正しいとしたらどうしてこのようなことが起こるのでしょうか. 行列Yの計算結果の例を以下に示します.(行列Yを500回算出し,それらの平均値を示しています.) http://wisteria.orz.ne.jp/download/pinvcovX.jpg 縦・横方向の軸は行列Yのインデックスを,高さ方向の軸は行列Yの成分の値を示しています. 上述した現象の原因についてご教授いただけると幸いです.

  • 主成分分析における出発行列の違いは?

    タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!

  • 主成分分析と、共分散行列について

    現在、取得したデータから主成分分析を行うプログラムを実装しています。 扱うデータは、 [変数] x1 x2 x3 ・・・ xn [No. 1] 1 2 5 ・・・ 11 [No. 2] 3 5 10 ・・・ 8   ・   ・ [No. N] 4 6 35 ・・・ 9 のように次元となる変数x1~xnに対してそれぞれ値を取得し、x1~xnを一まとまりとした データ件数がNo.1~No. Nまでデータを取得するとします。 これらのデータを用いて共分散行列を生成し、固有値問題を解くことで主成分分析を行う のですが、ここで質問です。統計的に考えて、より精密に主成分分析を行うには、変数の 個数(n)に対して、データの個数(N)はどのくらい取るのが良いのでしょうか。因みに変数の数は 200程必要とします。

  • パラメータ推定量の共分散

    あるデータ集合Yに対して、AとBの2つの異なったモデルをあてはめるとします。 AとBを規定するパラメータ・ベクトルはそれぞれα、βであるとします。 このとき、同じデータにそれぞれのモデルをあてはめて、最尤推定量αhat、βhat を得たときに、これら推定量同士の共分散を得る方法があるでしょうか? ちなみに、αhatとβhatは陽に得られず、このため、直接に共分散を計算する事は できないとします。 たとえば、一般論として、Fisher情報行列や、スコアベクトルなどを使って導く方法があれば ご教示いただきますと幸いです。

  • 変則的データへの分散分析の適用の可否

    このデータで分散分析をして問題がないか教えてください。 例えば,ある小学校があり,各学年は3クラスから成り立ってます。 それぞれのクラスは,ある特定の根拠に基づいてクラスわけされています。 ただし,3年生だけはクラスわけされておらず,1クラスでなりたっています。 各クラスの構成人数は同数とします。 このような状態で一斉に行ったテストの結果があるとして, 学年による差異と,クラスわけの効果を評価したいとします。 例えば,実際に行ったテストのクラスごとの平均点は以下のようになったとします。     1年 2年 3年  4年 5年 6年 Aクラス  5 6     8  9 10 Bクラス  1 4  7  10  13 16 Cクラス  3 3     10  10 14 このようなデータの場合, 「仮に3年が3クラスだったとして」分散分析を行ってもよいものでしょうか? すなわち,3年A組,B組,C組にまったく同じデータを割り振って分散分析を行うということです。 3年のデータが同じになるので,クラスわけの主効果が小さくなるかもしれませんが, どちらかといえば,学年の効果が見たいので,そこは目をつむれます。 あるいは,いったん3年生だけを除いたデータで分散分析を行い, もし,クラスの主効果がなければ,各学年の3クラスをひとまとめにして, 学年の効果だけを見る,というやり方のほうがよいでしょうか。 ご意見をお聞かせ願えれば幸いです。どうぞよろしくお願いいたします。

  • 分散分析について。

    初歩的な質問ですみません。 ANOVA4を使い分散分析を行ったのですが、結果の見方と書き方が分かりません。 SS,df,ms,F,Pの項目があるのですが、どの値がどうなると、要因Aによってデータが変動するといえるのでしょうか? T検定まではなんとか理解できたのですが、分散分析でつまずいてしまいました…。 それと、もう一つ多重比較についてお聞きしたいことがあります。 P=0.05で実行したのですが、多重比較の結果がP<0.05なのにn.sになっています。 これはなぜでしょうか? 質問ばかりですみません。 色々検索したのですが、初心者向きのサイトが中々無かったもので。

  • 正則でない行列の固有値・固有ベクトル

    複数のデータを取得し、それらのデータを用いて「主成分分析」を行うプログラムを実装しようと考えています。そこで、取得したデータから共分散行列を生成し、固有値・固有ベクトルを求めたいのですが、固有値が0になってしまう部分に対応する固有ベクトルは当然求められないですよね。 「ある正方行列Aが正則である必要十分条件は、Aが固有値0を持たないこと」を知りました。 取得した任意の値を成分にもつ行列が正則になるなんて限らないので、この場合は主成分分析は出来ないのですか?それとも、主成分分析では固有値が0になる部分は始めから考えなくていいのですか?どうか教えてください。

  • 統計量の行列表現について

    データセットx_i (i=1,2,...n)の 分散 v を考えます(式が面倒になるので、平均は0とします)。 通常でしたら、データの2乗の平均でいいのですが(平均は0なので)、これはデータセットの各データが均等の確率で現れるという前提で求められる分散です。 一般には、 v=Σ p(i) x_i^2 となると思います(p(i)はデータx_iが現れる確率)。 次にこれを行列で表すことを考えます。 データセットのベクトルをX (列ベクトル)とすると、 v = X^{T} W X という行列の積になります。 ここでWは W=diag (p_1, p_2,...p_n) という対角行列で、まあ加重行列とでも呼びましょう。 さて、ここからが質問なのですが、この方式で歪度は表現できるのでしょうか? 平均が0なので、歪度はデータの3乗の平均です。加重を考えると、 歪度 = Σp(i)\times x_i^3 です。 これを X と Wで表現したいのですが、どうもうまくいきません。 何か知恵がございましたらよろしくご教示ください。

  • <★困っています!>等分散性が成り立たない場合等の回帰分析

    いくつかの生物種について、独立変数である環境因子Xに基づいて、ある従属変数Yがどんな値を示したかを線形回帰分析した結果を簡単に外人の専門家に見てもらった所、 ・等分散性が成り立っていないのでPerasonの係数を用いた一般的な回帰分析はできない ・生物種によっては(複数回の実験に基づく)複数回データを(回帰分析に)使っている種もあれば、1回しかデータとして登場していない種もあるので、データ間の相互独立性が必ずしも成り立っていない という指摘を受けました。 しかし英文でのやりとりであることと私の基礎的知識の不足がたたり、理解が十分にできていません。具体的には以下の2点が疑問で残っています; ・等分散性が成り立たない場合には回帰分析はできないのでしょうか?できないにしても、変数XとYの関係を何らかの方法で評価できないのでしょうか。 ・ある種は複数のデータが使用され、ある種は1つのデータしか回帰分析に使用されていないことについて指摘を受けた所ですが、その対処方法として、一つは当然「全ての種について1つずつのデータ(プロット)しか使わない」という方法があるかと思います。しかし、折角複数のデータがある種については、それらのデータを全て回帰分析に用いる方が、より有効にデータを使っている様にも思えるので、全てのデータを使いつつ適切な回帰分析を行うという方法はないのでしょうか。 以上、どちらか一つだけでもご回答頂ければ非常に助かります。また、解決につながる単語又は概念だけでもヒントを頂ければ後は自分で調べたいと思います。

  • 順序尺度での2要因分散分析につきまして

    統計を勉強中の者です。 クラスの生徒100名を国語の成績で「優」「良」「可」の3グループに分け、100名全員に国語に関する同じ内容の授業を受けてもらいました。授業前「T1」、授業直後「T2」、授業後6か月「T3」の3回アンケートを行い“国語への印象”をリッカート尺度(5段階)でききました。 今回行った教育が、3グループそれぞれの“国語への印象”に与えた影響を出したいと思っています(特に成績の低い生徒への効果を狙った授業をしたので、成績「可」グループに特に効果があった、という結果を期待しています)。 分析に際し、2要因の分散分析が適当かと思ったのですが、“国語への印象”が順序尺度であるために2要因の分散分析は使えないと言われました。 順序尺度でも便宜的に間隔尺度として2要因の分散分析をしている論文もあると聞いて、甘く考えて順序尺度でアンケートをとってしまったので、分析する今、困ることになり反省しています。 しかしアンケートに協力してもらった方々にも何らか結果をお返ししたく、何とか今回行った教育への効果を分析したいと思っています。 この場合、「優」「良」「可」それぞれのグループのデータを別々に、対応のある1要因分散分析で分析して教育の効果をみても問題ないのでしょうか? それとも別の分析方法が適切でしょうか? 何か良い分析方法がございましたらご教授いただければ幸いです。 どうぞよろしくお願いいたします。