- ベストアンサー
統計解析の平均値
お世話になります。統計学の初心者です。 あるデータの解析を実施しようと思うのですが、 例えば一週間分のカロリーの平均値を人毎に算出して、 12週間の傾向を観察したいのですが、1週間のカロリーの平均を計る際、1日食べなかった人や飲み会などに参加してしまい、平均値の変動(参考にならない数値結果)があるため、その人の平均値が大きく変動してしまいます。除外するには除外するデータが多すぎて困っています。 平均値の算出方法として食事を摂らなかった人や計算値が大きすぎる人をうまく考慮した平均値の計算方法はあるのでしょうか?
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
通常の算術平均では外れ値の影響を受けすぎてしまうという場合には、中央値(median)を使うといった事も考えられます。また外れ値に対し(推測統計的な意味で)頑健性をもつ平均として、trimmed mean や winsorized mean などがあります。 http://planetmath.org/encyclopedia/TrimmedMean.html ただ、あるデータを外れ値として扱うかどうかは、実際的な見地から判断するほうが良いように思われます。例えば1日食べなかったり、飲み会に参加したりというのが、その人にとってそれほど珍しくないのであれば、それは外れ値ではなく「正当な」データではないでしょうか。そうなれば一週毎の平均値の変動が大きくても、それが事実です。もしくは一週間という期間では統計的ばらつきを吸収するのに十分でないということかもしれません。その場合は期間を2週間にしたり、移動平均を使ったりということも考えるべきかもしれません。 その人が年に1回くらいしか飲み会に行かないのにたまたまそれが測定期間にあたってしまったという場合は外れ値かもしれません。しかし、 > 除外するには除外するデータが多すぎて困っています。 という時点で、それらを外れ値とする基準が適切ではないように思います。
お礼
ご回答ありがとうございます。確かに成人の日常生活において一食を抜いたり、週一回の飲み会など日常茶飯事ですね。平均値の算出にこだわりすぎて、データ正当性を考えなさ過ぎていたと思います。上記のご回答を考慮してもう一度考えて見ます。大変ありがとうございました。