• ベストアンサー

バラツキを考慮して平均を補正したい

会社でちょっとした統計処理をしていて、 バラツキを考慮して平均を補正するという作業をしたいのでが、、、 なかなかうまくいきませなん。 例1) a1=2, a2=2, a3=2 例2) b1=-1, b2=0, b3=7 例1)a1~a3の平均と、例2)b1~b3の平均はどちらも"2"です。 しかし、例2)はb3だけが突出していて印象的には"2"よりも若干低めの、0~1ぐらいに補正したいのです。 しかし、補正をするための数学的根拠が見つけられないのです(そもそも無いのか?)。 私のつたない知識ですと、バラツキを現す手法としては標準偏差が思い当たりますが、 例1)の標準偏差=0 例2)の標準偏差=3.56 なので、これを利用して何とかならないか、、、などなど考えています。 平均値をバラツキを考慮して補正する、数学的根拠のある方法は存在するのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • life55
  • ベストアンサー率46% (138/294)
回答No.4

#3です. まず.「補正」という考え方は捨てた方がいいと思います. この種のデータの扱いにはいろいろあります. 1.例2の「7」を捨てる  質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね. この場合は,「7」を捨てる理由が必要です. 1)異常値として扱う 測定ミス,記入ミスなどは,「異常値」と呼びます. 本来は,原因を追究して値を書き直さなければなりません.例えば,7ではなく,0.7だったとかいうことです. 異常値の場合には,3個のデータのうちの最大値だけを捨ててしまうのは,誤ったやり方です. 2)外れ値として扱う これは,異なる母集団が混ざってしまった場合です. 例えば,「1と0は20代の人の答え」「7は50代の人の答え」であって,明らかに集団が違う場合には,2個のデータと1個のデータに分けてしまって構いません. ですから,-1と0の平均をとって,答え「-0.5」として構いません. 2.本当に補正(というかどうか?)できないのか? 実はできないことはありません. ただし,事前に分布が分かっていることが必要です. 世の中には「二段階推定法」などというのもありますが,「確率紙」を使ってみるのも手でしょう(どちらも分布の仮定が必要です). いま,データが3個ありますから,それぞれのデータが全体の何パーセントの位置なのかを計算します. -1は3個の中の1番目ですから,1/(3+1)=0.25, 0は3個の中の2番目ですから,2/(3+1)=0.5 7は使いません. この2点を確率紙に打点し,確率紙に書いてある通りに線を引くと平均などが求まります. 3.その他の注意 3個のデータで平均をとってもあまり意味ありませんね. 10個あるのなら,最小値,最大値を捨てて,8個で計算してもいいのではないかと思います.

masa1214
質問者

お礼

再びありがとうございます。 そうですね、異常値があるという前提では補正は意味がないと思います。しかし、(大事な前提を書き忘れたのですが)今回の事例は基本的に異常値がありません。ですから、例2の7という数値を除外してしまうことに、少し違和感を覚えてしまうのです。 かといって単純平均ですと、7の影響が強すぎると思い、悩んでいるわけです。 life55さんの 2.本当に補正(というかどうか?)できないのか? からヒントを得て以下の方法を考えました(今回のデータは正規分布していると考えて問題ありません)。 例2の場合、 b1=-1, b2=0, b3=7 の正規分布確率密度関数f(x)を求める。 f(b1)=0.072222754 f(b2)=0.082379292 f(b3)=0.047403806 となります。 これを加重平均したものが求める補正平均値。即ち、 b1*f(b1)/(f(b1)+f(b2)+f(b3)) +b2*f(b2)/(f(b1)+f(b2)+f(b3)) +b3*f(b3)/(f(b1)+f(b2)+f(b3)) =0.428376842 となりました。 このようなやり方は、ヘンでしょうか?

その他の回答 (4)

  • larme001
  • ベストアンサー率44% (271/608)
回答No.5

標準偏差σとは、平均を真ん中とした正規分布曲線(いわゆるベルカーブ)のように数値が分布しているとしたときに、その曲線の”太さ”をあらわします。σが大きいほど、教本の数値のズレが大きいということ、つまり分散が大きいといういみです。平均mとすると、m±σの範囲におよそ68%のデータが現れるということで、実験レポートなどではm±σであらわします。たとえば質問の例2であれば、P=2±3.56などとです。(有効数字は考えていません。)ちなみに±2σでおよそ95%、±3σで99.7%のデーターが含まれる範囲になります。 ただ、例の2のように一つだけ(例a3=7)明らかに測定ミスのような数値の場合はその実験が正しく行われなかったとして棄却することもあります。 また、標準偏差というのは、ある真の値からどれだけずれているのか、という傾向を示すだけのものですので、仮に正の方向に3ずれているのと、負の方向に3ずれているものは同じ誤差とみなされます。ので、「見た感じマイナス方向にずれるべきだ」といったような直感で±を選ぶのではなくて、あくまである値のまわりにどれだけの範囲でずれるかということを示しています。質問者さんが「マイナスにずれるような気がする」のはa3の値だけが(あくまで一つあるいは全体に対してごく少数が明らかに)異常に大きいからですので、こういう場合は「このデーターは異常だから何か人為的なミスがあった」と考え、データーからはずす方が適切だと思います。

masa1214
質問者

お礼

ご回答ありがとうございます。 下の方のお礼にも書きましたが、今回の前提として ・異常値がない ・正規分布と考えて問題ない というものがあります。とすると、7を除外せずに補正する方法があるような気がしてならないのです・・・

  • life55
  • ベストアンサー率46% (138/294)
回答No.3

データ数が何個あるのかというところが気になります. データ数が多いのであれば,トリム平均(調整平均とか刈込平均とかともいいます.調和平均ではありません9というものを用いることもできます. やり方は簡単で,データを大きさの順に並べて,両側から同じ数だけ取り除き,残りのデータで平均をもとめます. 20個くらいのデータがあれば,最大値と最小値を捨てるくらいの感じでしょうかね. ただし,大きい値も小さい値もデータの出所(母集団)の状態を表す大事なデータですので,本当は捨てない方がいいですね. できれば,#1さんの言うように,データの計測間違いや記入ミスが無かったかを確認してみるのが先決です. ただ,この確認が上手く行えないときには,トリム平均を使ってみるといいでしょう. 一つだけ知っておいて欲しいのは,データの様子を表現するときには,平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本です. 例1と例2では,平均は同じでも標準偏差は違いますよね. さらに,中心からのズレや中心へのデータの集まり方をみたいのであれば,それぞれ歪み(ひずみ),尖り(とがり)などの指標を使います.

masa1214
質問者

お礼

ご回答ありがとうございます。 詳しい解説、とても参考になりました。 母集団のデータ数は3~10ぐらいで、あまり多くないのです・・・ ですから、端から数%を捨てるという方法は少し難しい気がします。 >平均のような「中心」を現す指標と,標準偏差のような「散らばり」の幅をあらわす指標の両方を使うのが基本 平均と標準偏差や歪み、尖りを組み合わせて補正するのでしょうか。具体的な方法をご教授いただけないでしょうか・・・

  • NNori
  • ベストアンサー率22% (377/1669)
回答No.2

1.最大と最小を除いてから平均値をとる。 2.大きい方数%と小さい方数%を除いて平均値をとる。 2.平均ではなく真ん中の数字をとる。 というのが一般的だと思います。例えばフィギアスケートの得点とかは1ですよね。

masa1214
質問者

お礼

ご回答ありがとうございます。 なるほど、そういえばフィギアスケートの得点などは確かにそうですね。「平均ではなく真ん中の数字をとる」というのは新しい発見でした。素晴らしいです!もう少し模索してみます。

noname#58440
noname#58440
回答No.1

  測定値の補正は数学的にする事は無いと思います。 補正が必要な時は技術的に行います。 b3は測定の方法や測定条件に異常があったとか、測定系の問題で無いとしても技術的観点から除外すべきデータだとか、技術的専門知識を元にデータの選択、補正をします。  

masa1214
質問者

お礼

ご回答ありがとうございます。 技術的専門知識を元にデータの選択するのですか・・・ 扱っている問題が工学的ではないので、選択除外をするための判断基準が微妙です。 今いろいろと調べているのですが、歪度というものを利用できないでしょうか?(すみません、質問ばかりで・・・)

関連するQ&A

  • 基準値からのばらつき

    平均からのばらつきを調べるためには標準偏差というものがありますが 平均ではなくある基準値からのばらつきを調べたいのですがその場合も 標準偏差の計算式を応用でできるのでしょうか。 例)A、B、Cという数値がある場合 標準偏差 (A-平均)^2 (B-平均)^2 (C-平均)^2 の平均の平方根   ↓ 基準値Dからのばらつき (A-基準値D)^2 (B-基準値D)^2 (C-基準値D)^2 の平均の平方根 という式は成り立つのでしょうか? 

  • ロット間のバラツキについて

    初歩的な質問で恐縮です。 ある採取したデータを解析しているのですが、ロットA、ロットBがあり それぞれのデータがN=5づつあったとします。各ロット内のバラツキは N=5での標準偏差を出せばいいのかなと思いますが、ロット間(ロットAと ロットBの間)のバラツキを見たい時は、ロットAとロットBの平均値の差を 見ればよいのでしょうか?それとも別の方法で見ないといけないのでしょう か?  どなたかお詳しい方からのアドバイスお願い致します。

  • 標準偏差の補正について

    標準偏差の補正方法がわからず困っています。 測定値Aの標準偏差をa 測定値Bの標準偏差をbとします。 AをBで割った値A/Bを求め、A/Bの標準偏差の値を求めたいのですが、どのようにすればいいのかわかりません。 どなたか教えてください。 よろしくお願いします。

  • 母平均が分からないのに母標準偏差が分かるのは何故?

    今、統計学の本の「母標準偏差が既知の場合の母平均の推定」という項目を読んでいます。 その計算自体は簡単なのですが、そもそも、母平均が分からないのに母標準偏差が分かる状況ってどんな状況ですか?母標準偏差を算出する際に母平均を使うでしょう?基準(平均)が分からないのにバラツキが分かりますか?

  • 工程能力のN数補正について

    データ数(N数)が少ない場合の工程能力を求める際、標準偏差を補正したいです。調べたところ下記2つの方法があるようなのですが、どちらが正しい考え方なのでしょうか。使い分け等あれば教えていただきたいです。補正方法(1)のほうが(2)に比べて補正係数が大きく(信頼区間にもよりますが)、その意味するところの違いも教えていただきたいです。 できれば、実用面からエクセルでの計算例もあるとありがたいです。 ※下名の知識レベルとしては、学生時代に一度統計学の講義を受けた程度でほとんど忘れています。 補正方法(1)(・・・計算方法はわかりました)  標本から求めた標準偏差をχ二乗分布で区間推定し、  母集団の標準偏差とのずれを補正する   ※参考URL:http://ouenblog.divaandco.com/?eid=940571 補正方法(2)(・・・合っているかだけでなく、計算方法も不明)  標準偏差の不偏推定量D(Wikipediaより)を直接使い、標本の標準偏差との差を補正する。  具体的には、不偏分散u^2にはエクセルにおけるSTDEV関数で求めた標準偏差を代入し、  ガンマ関数の部分はGAMMALN関数内に自由度÷2、データ数÷2を入れて計算する?   ※参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE   →"統計値の標準偏差"の上から5番目の式 統計学は難しいですね・・・ ご回答よろしくお願いします。

  • 加重平均(重み付き平均)の標準偏差の求め方

    あるデータを統計処理しています。 加重平均(重み付き平均)を計算し、 その標準偏差を求めようとしています。 私はあまり統計に詳しくないので、 加重平均の標準偏差の求め方が分かりません。 どなたかご存知の方がおられましたら是非教えて下さい。 よろしくお願い致します。

  • 標準偏差の比較

    お世話になってます。 標準偏差の大きさの比較をしたく困っております。 例えば平均値A、標準偏差A’(A±A')と平均値B、標準偏差B’(B±B')の2つの集団があった場合、標準偏差のA'とB'の大きさを比較する場合、どのようにしたらいいのでしょうか? つまり、2つの集団のバラツキの度合いを比較したいのですが、どのようにしたらいいのでしょうか? 教えて下さい。

  • 【統計学】平均回帰モデル:平均回帰速度について

    はじめまして。 わたしは大学院において経済関連の研究をしている者です。そこで、もし知っておられる方がいたらお聞きしたいのですが、 平均回帰モデルにおいて、平均回帰速度とボラティリティー(標準偏差)をサンプルデータより算出する統計学的手法は存在するのでしょうか? どなたか情報知っておられる方、いましたらよろしくお願いいたします。

  • 変動係数の評価と検定

    変動係数について質問させて下さい。 統計の初心者ですので、とんちんかんな事を聞いているかも知れませんが、そこはお許し頂きたいと思います。 今回教えていただきたいのは、変動係数についてです。 データの基本統計値を見ると、その中には簡単な物からわからない物がありました。 特に、変動係数(CV)に付いてはどう考えたらよいのかわかりません。 色々、調べてみると、計算式から考えて、標準偏差を平均で割っているので、各群から得られた平均値を単一にそろえてばらつきを見ている。 (代数幾何のベクトルで言うと単位ベクトル化していると判断しました) Wikipediaでは相対的なばらつきと書いてあり、何となくわかった感じがします。 例えば、ある2群の生データ(それぞれ100個ずつ)があるとします。 Aの平均は500、S.D.は25とします。 Bの平均は400、S.D.は18とします。 A、Bの変動係数はそれぞれAが0.05、Bが0.045になります。 ここでAにはある余分な因子が含まれているので、それを除いて加工したとします。つまり、100個の生データから個々に50を引いたとします。 当然、S.D.は変わらないと思うので、25のままで平均が450になります。 そうなると、変動係数は0.056となり若干大きくなりました。 生データではAとBは近い値なのに、Aを補正した場合に得られる変動係数は大きくなるためAとBが遠のいてしまいます。 こうなった場合は、どちらが良いのか、評価が難しくなります。 また、変動係数の検定は、どうしたらよいのでしょうか? ちなみに、インターネットで青木先生のサイトを見つけて、見ようと思ったのですが、つながらないために、この場で教えていただければと思います。 難しい統計言語はなかなか解釈が出来ない時があります。 お手数おかけしますが、出来るだけかみ砕いて教えていただけると大変ありがたいので、よろしくお願い申し上げます。

  • 統計 基準値の標準偏差はなぜ1か

    統計の勉強をしていて、標準偏差とはデータの ばらつき具合、分散と書かれていました。 平均から比べてどのくらい差があるかという事は 理解しました。 しかし基準値を勉強していて、 本には基準値の平均は必ず0である。標準偏差は 必ず1であると書かれています。標準偏差は データのばらつき具合なのに、なぜ基準値の元では すべての標準偏差は1になるのでしょうか?