• ベストアンサー

バラツキを考慮して平均を補正したい

会社でちょっとした統計処理をしていて、 バラツキを考慮して平均を補正するという作業をしたいのでが、、、 なかなかうまくいきませなん。 例1) a1=2, a2=2, a3=2 例2) b1=-1, b2=0, b3=7 例1)a1~a3の平均と、例2)b1~b3の平均はどちらも"2"です。 しかし、例2)はb3だけが突出していて印象的には"2"よりも若干低めの、0~1ぐらいに補正したいのです。 しかし、補正をするための数学的根拠が見つけられないのです(そもそも無いのか?)。 私のつたない知識ですと、バラツキを現す手法としては標準偏差が思い当たりますが、 例1)の標準偏差=0 例2)の標準偏差=3.56 なので、これを利用して何とかならないか、、、などなど考えています。 平均値をバラツキを考慮して補正する、数学的根拠のある方法は存在するのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • life55
  • ベストアンサー率46% (138/294)
回答No.4

#3です. まず.「補正」という考え方は捨てた方がいいと思います. この種のデータの扱いにはいろいろあります. 1.例2の「7」を捨てる  質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね. この場合は,「7」を捨てる理由が必要です. 1)異常値として扱う 測定ミス,記入ミスなどは,「異常値」と呼びます. 本来は,原因を追究して値を書き直さなければなりません.例えば,7ではなく,0.7だったとかいうことです. 異常値の場合には,3個のデータのうちの最大値だけを捨ててしまうのは,誤ったやり方です. 2)外れ値として扱う これは,異なる母集団が混ざってしまった場合です. 例えば,「1と0は20代の人の答え」「7は50代の人の答え」であって,明らかに集団が違う場合には,2個のデータと1個のデータに分けてしまって構いません. ですから,-1と0の平均をとって,答え「-0.5」として構いません. 2.本当に補正(というかどうか?)できないのか? 実はできないことはありません. ただし,事前に分布が分かっていることが必要です. 世の中には「二段階推定法」などというのもありますが,「確率紙」を使ってみるのも手でしょう(どちらも分布の仮定が必要です). いま,データが3個ありますから,それぞれのデータが全体の何パーセントの位置なのかを計算します. -1は3個の中の1番目ですから,1/(3+1)=0.25, 0は3個の中の2番目ですから,2/(3+1)=0.5 7は使いません. この2点を確率紙に打点し,確率紙に書いてある通りに線を引くと平均などが求まります. 3.その他の注意 3個のデータで平均をとってもあまり意味ありませんね. 10個あるのなら,最小値,最大値を捨てて,8個で計算してもいいのではないかと思います.

masa1214
質問者

お礼

再びありがとうございます。 そうですね、異常値があるという前提では補正は意味がないと思います。しかし、(大事な前提を書き忘れたのですが)今回の事例は基本的に異常値がありません。ですから、例2の7という数値を除外してしまうことに、少し違和感を覚えてしまうのです。 かといって単純平均ですと、7の影響が強すぎると思い、悩んでいるわけです。 life55さんの 2.本当に補正(というかどうか?)できないのか? からヒントを得て以下の方法を考えました(今回のデータは正規分布していると考えて問題ありません)。 例2の場合、 b1=-1, b2=0, b3=7 の正規分布確率密度関数f(x)を求める。 f(b1)=0.072222754 f(b2)=0.082379292 f(b3)=0.047403806 となります。 これを加重平均したものが求める補正平均値。即ち、 b1*f(b1)/(f(b1)+f(b2)+f(b3)) +b2*f(b2)/(f(b1)+f(b2)+f(b3)) +b3*f(b3)/(f(b1)+f(b2)+f(b3)) =0.428376842 となりました。 このようなやり方は、ヘンでしょうか?

その他の回答 (4)

  • larme001
  • ベストアンサー率44% (271/608)
回答No.5

標準偏差σとは、平均を真ん中とした正規分布曲線(いわゆるベルカーブ)のように数値が分布しているとしたときに、その曲線の”太さ”をあらわします。σが大きいほど、教本の数値のズレが大きいということ、つまり分散が大きいといういみです。平均mとすると、m±σの範囲におよそ68%のデータが現れるということで、実験レポートなどではm±σであらわします。たとえば質問の例2であれば、P=2±3.56などとです。(有効数字は考えていません。)ちなみに±2σでおよそ95%、±3σで99.7%のデーターが含まれる範囲になります。 ただ、例の2のように一つだけ(例a3=7)明らかに測定ミスのような数値の場合はその実験が正しく行われなかったとして棄却することもあります。 また、標準偏差というのは、ある真の値からどれだけずれているのか、という傾向を示すだけのものですので、仮に正の方向に3ずれているのと、負の方向に3ずれているものは同じ誤差とみなされます。ので、「見た感じマイナス方向にずれるべきだ」といったような直感で±を選ぶのではなくて、あくまである値のまわりにどれだけの範囲でずれるかということを示しています。質問者さんが「マイナスにずれるような気がする」のはa3の値だけが(あくまで一つあるいは全体に対してごく少数が明らかに)異常に大きいからですので、こういう場合は「このデーターは異常だから何か人為的なミスがあった」と考え、データーからはずす方が適切だと思います。

masa1214
質問者

お礼

ご回答ありがとうございます。 下の方のお礼にも書きましたが、今回の前提として ・異常値がない ・正規分布と考えて問題ない というものがあります。とすると、7を除外せずに補正する方法があるような気がしてならないのです・・・

  • life55
  • ベストアンサー率46% (138/294)
回答No.3

データ数が何個あるのかというところが気になります. データ数が多いのであれば,トリム平均(調整平均とか刈込平均とかともいいます.調和平均ではありません9というものを用いることもできます. やり方は簡単で,データを大きさの順に並べて,両側から同じ数だけ取り除き,残りのデータで平均をもとめます. 20個くらいのデータがあれば,最大値と最小値を捨てるくらいの感じでしょうかね. ただし,大きい値も小さい値もデータの出所(母集団)の状態を表す大事なデータですので,本当は捨てない方がいいですね. できれば,#1さんの言うように,データの計測間違いや記入ミスが無かったかを確認してみるのが先決です. ただ,この確認が上手く行えないときには,トリム平均を使ってみるといいでしょう. 一つだけ知っておいて欲しいのは,データの様子を表現するときには,平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本です. 例1と例2では,平均は同じでも標準偏差は違いますよね. さらに,中心からのズレや中心へのデータの集まり方をみたいのであれば,それぞれ歪み(ひずみ),尖り(とがり)などの指標を使います.

masa1214
質問者

お礼

ご回答ありがとうございます。 詳しい解説、とても参考になりました。 母集団のデータ数は3~10ぐらいで、あまり多くないのです・・・ ですから、端から数%を捨てるという方法は少し難しい気がします。 >平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本 平均と標準偏差や歪み、尖りを組み合わせて補正するのでしょうか。具体的な方法をご教授いただけないでしょうか・・・

  • NNori
  • ベストアンサー率22% (377/1669)
回答No.2

1.最大と最小を除いてから平均値をとる。 2.大きい方数%と小さい方数%を除いて平均値をとる。 2.平均ではなく真ん中の数字をとる。 というのが一般的だと思います。例えばフィギアスケートの得点とかは1ですよね。

masa1214
質問者

お礼

ご回答ありがとうございます。 なるほど、そういえばフィギアスケートの得点などは確かにそうですね。「平均ではなく真ん中の数字をとる」というのは新しい発見でした。素晴らしいです!もう少し模索してみます。

noname#58440
noname#58440
回答No.1

  測定値の補正は数学的にする事は無いと思います。 補正が必要な時は技術的に行います。 b3は測定の方法や測定条件に異常があったとか、測定系の問題で無いとしても技術的観点から除外すべきデータだとか、技術的専門知識を元にデータの選択、補正をします。  

masa1214
質問者

お礼

ご回答ありがとうございます。 技術的専門知識を元にデータの選択するのですか・・・ 扱っている問題が工学的ではないので、選択除外をするための判断基準が微妙です。 今いろいろと調べているのですが、歪度というものを利用できないでしょうか?(すみません、質問ばかりで・・・)

関連するQ&A

専門家に質問してみよう