• ベストアンサー

PLSのスケーリングにつきまして

統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 非常に焦っております。どなたかご教授いただけますでしょうか。 どうぞ宜しくお願い申し上げます。

  • uni7
  • お礼率86% (20/23)

質問者が選んだベストアンサー

  • ベストアンサー
  • ramayana
  • ベストアンサー率75% (215/285)
回答No.1

トレーニングデータとかテストデータとかの意味がいまいち分かりませんが、要は、定数に近い変数(分散が0に近い変数)をPLSの説明変数候補に組み込むことについてのご質問でしょうか? また、PLSというのは、説明変数をそのまま使うのでなく、それを直交化したうえで被説明変数との共分散が大きい因子から順に回帰モデルに組み込んでいく手法を指すのでしょうか。もしそうなら、基本的にOLSの考え方が通用します。 定数に近い変数は、それ自体がモデルの定数項と共線性を持つため、説明変数(の候補)とすることは適当でありません。「モデルの変数として組み込みたい」と書かれていますが、どういう根拠でその要請がでてくるのか、見直す余地がないのか、を検討するのが王道でしょう。 具体的にどういうモデルを想定しているか見えないので、断定はできません。しかし、仮に、強引に組み込んだ場合、次のいずれかになる可能性が大だと思います。 (1) 計算途中(多分、直交化の過程)でエラーになる。 (2) 計算できたとしても、結果が不安定になる。 (3) 計算できたとしても、被説明変数との共分散が0に近いので、因子に寄与しない。

関連するQ&A

  • 統計解析の前処理につきまして

    統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 初歩的な質問とは思いますが、どなたかご教授いただけますでしょうか。 宜しくお願い申し上げます。

  • 統計解析でのモデルに関する表現

    統計解析でのモデルに関する表現 モデルに変数や値を代入/導入/当てはめるといった表現が出てきますが、 この代入、導入、当てはめるはそれぞれ同じ意味なんでしょうか? それとも具体的に何か違うのでしょうか?

  • 統計の細かいことを教えて下さい

    一つの実験(4条件とします)で二つの従属変数が得られる場合、 それぞれの従属変数を一要因の分散分析で解析するのが妥当だとおもいますが、従属変数同士の差分を検定するにはどうすればいいのでしょうか? 従属変数を要因にして分散分析をかけるのは科学的に問題があるとおもってためらっています。どなたか統計にお詳しい方、アドバイスをお願いできませんでしょうか?

  • AIC(赤池情報量基準)について

    統計学初心者です。ピント外れな質問だったら申し訳ありません。 ある医学データの解析で、AICを用いて変数選択を行いたいのですが、 1、AICというのはそもそも相対的な基準なのでしょうか?それとも絶対的な基準なのでしょうか? 2、もし絶対的基準だとしたら、どのくらいの値より小さくなれば、モデルに意味があるとみなされるのでしょうか? よろしくお願いいたします。

  •  統計の手法(多変量解析)についてSuggestionください。あまり

     統計の手法(多変量解析)についてSuggestionください。あまり詳しくないので、質問が正確ではないかもしれません。現在 サンプル数n=20-30人の解析をしています。それらの方々の解析因子のなかで、統計的に有意に単相関するパラメーターが2つあります。ここで、その相関する因子に一般的に影響を与える因子で補正したモデル式をつくり多変量解析をしたいと考えています。ひとつのモデル式のなかで、解析に加えられる因子はこの場合 多くても従属変数 3つまでと考えていますが、補正したい因子が5-6つある場合に 従属変数に2つ固定した因子(この場合、(1)証明したい変数 (2)年齢)にひとつずつこの補正したい因子を加えていき、4-5つのモデル式を構成して証明をするのはAcceptableでしょうか?

  • 統計解析ソフトRで単回帰分析(繰り返しあり)とその95%信頼限界を求めたい

    統計初心者です。 統計解析ソフトRで単回帰分析をしようと思っています。単回帰分析は繰り返しがある場合です。さらに回帰式の95%信頼限界を求めたいと考えています。昨日、書店を回って成書を見たのですが、上記の説明がされているものを見つけることができませんでした。 テキストファイルからデータの読み込みはできましたし、散布図を作成することもできました。 しかし、n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。 そこで 1.繰り返しがある場合、普通にlmだけでは解析できないのでしょうか。 また、95%信頼限界については、どのように取り組めばいいのか、検討がつきません。 ご教示の程、よろしくお願いします。 2.さらに、95%信頼限界の求め方を教えていただけないでしょうか。 よろしくお願いします。

  • 統計の分散のイメージ

    統計で「分散」という概念がありますが、これは個々のデータの散らばり具合の大きさを表すと理解しています。ですが、何を基準に分散の値が大きいとか小さいといえるのでしょうか?たとえば分散が15と出た場合、散らばり具合が大きいか小さいかはどうやって判断すればよいのでしょうか?

  • 独立変数(複数存在)が、従属変数に対しておよぼす影響の大きさ

    独立変数(複数存在)が、従属変数に対しておよぼす影響の大きさを知りたいのですが、以下のどちらの方法を適用すればよいのでしょうか。つまり、個々の独立変数ごとに従属変数の変動に占める影響割合(%)を知りたいのです。 第一の方法は、重回帰分析を行い、その偏回帰係数を標準化して(つまり、標準偏回帰係数)、その標準偏回帰係数の大きさによって、影響の大きさを比較する。 第二の方法は、分散分析のうち一般線形モデルを使用する方法です。ここで一般線形モデルとは、私が使用している統計ソフトの定義によると、独立変数としてカテゴリーデータと計量データを同時にモデルに含めることができます(ただし、モデルに含める計量データはcovariatesとして指定することになっています)。 この方法でアプローチした場合、従属変数の全変動(つまり平方和)を独立変数ごとに分解するので、その(平方和の)比率で影響の大きさを比較できます。 実際の例(カテゴリーデータと計量データを含む)を使って、上述のふたつの方法で計算してみたところ、異なる値になってしまいました。結局、どちらが正しいのかわかりません。 よろしくお願いします。

  • 百分率の統計解析について

    百分率の値を従属変数として平均値,標準偏差を 比較し,統計解析しようと考えています. そのままの値を用いて解析を行ってよいのでしょうか? あるいは何かに換算する必要があるのでしょうか? よろしくご教授ください. ex) グループ1:12%, 13%, 14%, 15%, 16%, 17% グループ2:34%, 35%, 36%, 37%, 38%, 39% の2群に有意差はあるのか? といった場合を想定しています.

  • 二元配置分散分析 ノンパラメトリック検定

    卒論研究で得られたデータを統計解析しているところです。 Bartlett検定を行い、等分散であれば、二元配置分散分析(対応のない因子と対応のない因子)Two-way Factorial ANOVAを用いて解析し、Post-hoc testで優位差を検定しましたが、Bartlett検定で分散が等しくないと判断された場合、Two-way Factorial ANOVAに相当するノンパラメトリック検定を行えばいいと思ったのですが、その検定方法が見つかりません。もしかしたら、考え方が間違っているかもしれないのですが(独学なので)、何を用いればよいかご存じの方いらしたらご教授願います。