• ベストアンサー

統計解析の前処理につきまして

統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 初歩的な質問とは思いますが、どなたかご教授いただけますでしょうか。 宜しくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.1

トレーニングデータで全く同じ値なら、たとえ説明変数としてモデルとして組み込んでも、(トレーニングがうまくいけば)結果として構築される回帰モデルでは、完全に無視されることになるはずです。 なんで、モデルの変数として組み込んでも意味ない、としか言いようがないですけどね。 あえてやるなら、トレーニングデータでとりあえずモデルを作った後、 オンライン学習できるようなアルゴリズムにして、テストデータを使って予測をしながら、モデルを修正する、とかですかね。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • PLSのスケーリングにつきまして

    統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 非常に焦っております。どなたかご教授いただけますでしょうか。 どうぞ宜しくお願い申し上げます。

  • 統計解析でのモデルに関する表現

    統計解析でのモデルに関する表現 モデルに変数や値を代入/導入/当てはめるといった表現が出てきますが、 この代入、導入、当てはめるはそれぞれ同じ意味なんでしょうか? それとも具体的に何か違うのでしょうか?

  •  統計の手法(多変量解析)についてSuggestionください。あまり

     統計の手法(多変量解析)についてSuggestionください。あまり詳しくないので、質問が正確ではないかもしれません。現在 サンプル数n=20-30人の解析をしています。それらの方々の解析因子のなかで、統計的に有意に単相関するパラメーターが2つあります。ここで、その相関する因子に一般的に影響を与える因子で補正したモデル式をつくり多変量解析をしたいと考えています。ひとつのモデル式のなかで、解析に加えられる因子はこの場合 多くても従属変数 3つまでと考えていますが、補正したい因子が5-6つある場合に 従属変数に2つ固定した因子(この場合、(1)証明したい変数 (2)年齢)にひとつずつこの補正したい因子を加えていき、4-5つのモデル式を構成して証明をするのはAcceptableでしょうか?

  • 統計の細かいことを教えて下さい

    一つの実験(4条件とします)で二つの従属変数が得られる場合、 それぞれの従属変数を一要因の分散分析で解析するのが妥当だとおもいますが、従属変数同士の差分を検定するにはどうすればいいのでしょうか? 従属変数を要因にして分散分析をかけるのは科学的に問題があるとおもってためらっています。どなたか統計にお詳しい方、アドバイスをお願いできませんでしょうか?

  • 百分率の統計解析について

    百分率の値を従属変数として平均値,標準偏差を 比較し,統計解析しようと考えています. そのままの値を用いて解析を行ってよいのでしょうか? あるいは何かに換算する必要があるのでしょうか? よろしくご教授ください. ex) グループ1:12%, 13%, 14%, 15%, 16%, 17% グループ2:34%, 35%, 36%, 37%, 38%, 39% の2群に有意差はあるのか? といった場合を想定しています.

  • 統計解析について

    お世話になります。 最近、統計解析のソフトを使ってデータの解析をする事がある程度の初心者の質問です。 30人分の縄跳びを連続で跳んだ回数データがあります。挑戦した回数は10回です。このデータを統計的に解析したいのですが、既存のデータでは200回以上跳んだ場合200以上と記載されています。試しにソフトを使って検定を行うとそれなりの数値が計算されるのですが、この場合200回以上のデータをどう考慮されているのでしょうか?200回以上だと500や1000となると計算に影響すると思うのですが素人考えなのでしょうか?

  • 統計解析ソフトRで単回帰分析(繰り返しあり)とその95%信頼限界を求めたい

    統計初心者です。 統計解析ソフトRで単回帰分析をしようと思っています。単回帰分析は繰り返しがある場合です。さらに回帰式の95%信頼限界を求めたいと考えています。昨日、書店を回って成書を見たのですが、上記の説明がされているものを見つけることができませんでした。 テキストファイルからデータの読み込みはできましたし、散布図を作成することもできました。 しかし、n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。 そこで 1.繰り返しがある場合、普通にlmだけでは解析できないのでしょうか。 また、95%信頼限界については、どのように取り組めばいいのか、検討がつきません。 ご教示の程、よろしくお願いします。 2.さらに、95%信頼限界の求め方を教えていただけないでしょうか。 よろしくお願いします。

  • 統計解析法の選択について

    統計初心者でまだまだ勉強を始めたばかりです。 エクセル統計を購入したのですが、3つの疾病でそれぞれのあるデータ(血液データなどの数値)の平均値の差の検定、 またそのデータを異常なし、軽度異常、中等度異常、高度異常と分けた場合に疾病ごとのそれぞれの割合を解析したい場合、 後者は独立性の検定(χ2検定)でよいのでしょうか。前者に関しては何が最もよいかわかりません。 初歩的な質問で申し訳ありません。周りに相談できる人がいなく質問させていただきました。 よろしくお願い致します。

  • 統計の分散のイメージ

    統計で「分散」という概念がありますが、これは個々のデータの散らばり具合の大きさを表すと理解しています。ですが、何を基準に分散の値が大きいとか小さいといえるのでしょうか?たとえば分散が15と出た場合、散らばり具合が大きいか小さいかはどうやって判断すればよいのでしょうか?

  • ★統計について教えてください★

    ★統計について教えてください★ トレーニングの効果をみるため、統制群と実験群の差(事後テスト-事前テスト)を検定したいのですが、実験群と統制群の事前テストの結果に差があります。どの検定を用いたらよいのでしょうか? 実験群と統制群は等質の2群ではなく、統制群のほうが初めから好成績です。そこで、事前テストを共変量にした共分散分析をしようと思ったのですが、その前に二元配置の分散分析をしてみたところ交互作用がでたので、回帰の平行性という点で共分散分析は適当ではないのかと思い直しました。 グラフで表すと、統制群は事前・事後でほぼ平行、実験群は、事前が低く事後は統制群とほぼ同じ値です。このような場合、どの検定を用いたらよいのでしょうか?事後テスト-事前テストの差を対応のない2群のt検定すればいいのでしょうか?