• 締切済み

統計学についてお聞きしたいです.

現在,統計ソフトRを使って,プログラムを書いています. 内容は多重共線性問題のあるデータを主成分回帰分析を使って,解決するということをやっています. データはRを使って,変数を数個を発生させ,その中の3つの変数を足すと0になるというデータを使っています.相関関係が高い場合のみの多重共線性のデータは自分のプログラムでうまくできたのですが,線形関係をつくると多重共線性のある変数が0に近づいてしまいます.実際は1に近づくはずなのですが.それがなぜだかが分かりません.どなたかご教授お願いします.線形関係の作り方は平均1, 分散0のデータを発生させ,そのデータをエクセルを使って,並び替えて作ります.その時データは平均1,分散0のままです.また,ヒントとなるようなプログラムやコマンドなどでも全然構いませんのでお願いします.今,3カ月かかってできません.本当に困っているのでお願いします.

みんなの回答

  • d_p
  • ベストアンサー率45% (10/22)
回答No.2

なぞなぞみたいな説明ですな。大体、「変数を発生させる」のは普通じゃない。乱数のまちがいじゃないの? 「線形関係をつくると多重共線性のある変数が0に近づいてしまいます」も、何を言いたいのか謎じゃ。3カ月かかってできないのは、日本語ができないからだと思うぞ。

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.1

平均1、分散0のデータを発生させるとは、 要するに、空欄を全て1で埋めるということですが、 それで間違いないでしょうか? 最初から最後までデータは1で、 0には近づきようがないように思いますが。

komainu_2010
質問者

補足

すいません。 平均0、分散1の間違いでした。いくつか日本語の間違いがあり、訂正してからまた質問させていただきます。

関連するQ&A

  • 多重共線性について

    重回帰分析においては,変数間の相関関係から多重共線性が非常に重要な問題であることは以下のサイトから理解しました。 http://blogs.yahoo.co.jp/pironotakarabako/1048887.html この多重共線性の問題は,重回帰分析のような回帰モデルが線形回帰の場合だけに発生する問題なのでしょうか?他の多項式モデルや非線形回帰モデルの場合にもやはり多重共線性は発生するのでしょうか?

  • 文系の統計学

     当方文系ですが、文理融合の専攻に進学することになりました。「数理統計学」が必修となっているのですが、初めて取り組むことになります。シラバスには「微積分と線形代数をよく復習してから受講すること」と記載されていますが、どちらも全く経験ありません。現在、公文式に行って、やっと因数分解ができるようになりました。(公文式は質問ができない雰囲気なので、近々やめる予定です。) そこでご質問ですが、1.このような段階から、どのように「微積分と線形代数」を経て、数理統計学へ学習を進めていけばよいのか。2.予備校や学習塾で学ぶとしたら、どこがよいか。以上の2点について、ぜひ教えていただきたいです。どうぞよろしくお願いします。因みに数理統計学の内容は、以下のとおりです。 ●基礎礎統計(集合基礎論、確率、確率変数、確率密度関数、種々の確率分布、中心極限定理、母集団と標本、点推定、区間推定、推定法、有意水準、第一・二種の誤り、片側・両側検定、正規分布の平均・分散の検定、連続変数の相関(散布図、今日分散、相関係数、検定、離散変数の相関(クロス集計、関連性係数、検定) ●重回帰分析(単回帰分析、目的関数の定式化(最小自乗法、最尤法など)パラメーターの推定と検定、回帰診断、説明変数の選択、構造変数) ●その他(クロス表の多変量解析、様々な多変量解析)

  • 統計学の質問です@

    統計学の質問です.一つの目的変数と複数の説明変数の重回帰分析で求まった決定係数が0.5より低いと目的変数と説明変数の間には相関関係がほとんどないということですか? あとt値は何を表しているのですか?

  • 統計についての文を添削してください

    統計のことはぜんぜん理解していないものです。 どなたか私の文を添削していただけないでしょうか? 言葉遣いがおかしいとか、意味が違うとか指摘していただけると助かります。 サービスの品質改善というテーマで翻訳をしていたのですが、調査をおこないデータを整理して結論をだすために、統計の手法を使うことができる、という部分がでてきて困っています。 ネットでいろいろ学習??しましたが、あっているかどうかまったく自身がありません。 よろしくお願いいたします。 カイ二乗‐2つの変数の間での関連を決めるための統計技術。(1)観察されたデータが期待とマッチするかどうかを見る、(2)一方の変数の分布がもう一方の分布と関係があるかみる。 t-検定-サンプルが同じ人口から選べれているかを見るため、2つの個別サンプルの平均や割合を比較する統計技術。(3つ以上のサンプルの平均をテストするには、分散分析が使われます) 重回帰-複数の変数の値の変化によって、1つの変数の変化の値を予測するための統計技術です。 クラスタ分析-対象(学校/場所/物など)を特定された数の排他的グループ(内部的に同種)に分ける統計技術。 因子分析‐相関関係をもつ変数の大きなセットの要因を決める統計技術。 判別分析-人や物を2つ以上のカテゴリーに分類するための統計技術。 カイ二乗による相互作用の自動検出方法(CHAID)‐分岐方法を使って、因数のなかの相関と見つける統計技術。 以上です。

  • 多重共線性の検定

    重回帰分析をしています。 説明変数は2つなのですが、多重共線性があるのかないのかで判断に困っています。 説明変数間の相関は、0.5前後(n=18~24)で、比較的高いほうだと思います。 解析結果には特に不備な点は見つからないのですが、2変数の関係が気になります。 統計ソフトはエクセル統計2006が手元にあるのですが、このバージョンでは検定ができません。フリーソフトのRも試してみたのですが、使用方法がわからない部分が多いのと、うまく起動できないのとで困っています。 多重共線性の検定には、VIFやトレランスなどがあるようですが、こういった検定は特別なソフトがないとできないのでしょうか? もし、ソフトなしでできる多重共線性の検定法がありましたら、ご教示ください。

  • 重回帰と偏相関の違い

    重回帰分析も偏相関分析もともに、複数の説明変数と1つの従属変数が登場人物となって、その関係を分析するものと認識しています。 が、大きな違いとして、重回帰は多重共線性を示す説明変数を同時投入した分析はできないのに対し、偏相関分析は寧ろそういう変数たちを同時に取り扱って分析することに使うと聞きました。 どういう理由で、両者にこのような違いがあるのか、ご教示頂けないでしょうか。

  • エクセルでの重回帰分析が上手くいきません

    エクセルにて重回帰分析を行っています。下記の状況になりますが何が原因か、また、対策はどうすべきかご教授ください。 <元データ> ・説明変数16個 <エクセルの統計データ機能を使用した結果> 回帰統計 重相関 R 1 重決定 R2 1 補正 R2 65535 標準誤差 0 観測数 3 分散分析表   自由度 変動     分散    観測された分散比 有意 F 回帰 16  1.646666667 0.823333333 #NUM!     #NUM! 残差  0    0     65535 合計  16 1.646666667 t値 65535 P値 #NUM! 以上です。 どうぞよろしくお願い致します。

  • 統計エクセル 量的データと質的データの回帰分析

    エクセル2013を使用している、エクセル統計勉強中の者です。 量的データ(説明変数)と質的データ(予測したいデータ)があり、 質的データを、可能な限り詳細な数値に置き換え、相関関係を調べてみました。 すると、相関係数が0.05という、相関関係がないという結果になりました。 この時点で、回帰分析や予測などは、断念すべきなのでしょうか? 相関がないと考えられた場合の、別の対応方法などがあるのであれば、ご教授お願いいたします。

  • 統計学の課題で困っています

          A  B 北海道   5.5  4.7 青森    4.5  4.7 岩手    4   4.1 というA,B二つのデータがあるとき 1、2つのデータをそれぞれ標準化しなさい。 2、2つのデータ間の共分散を求めなさい。 3、標準化した2つのデータ間の共分散を求めなさい。 4、一方のデータを説明変数、他方のデータを被説明変数とする回帰式と決定係数を求めなさい。また、被説明変数の理論値と残差を求めなさい。 5、上記2及び4の計算結果について、標準化、共分散、相関係数の意味を説明しつつ、分析・考察を加えなさい。 6、回帰式を求める際の基本的考え方と決定係数の意味を説明しつつ、計算して得られた回帰式、決定係数について分析と考察を加えなさい。 7、残差において正または負の大きな値が出た地域について、なぜそのように大きな値が出たと考えられるか、地域の特徴を考慮しつつ思いつくことを述べなさい。 という課題が出された時どのようにして解けばいいのですか?

  • ダミー変数の中心化について

    量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか? ダミー変数は中心化すべきなのでしょうか? また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか? 詳しい方がおられましたら,是非ご教示ください。 よろしくお願いいたします。