• ベストアンサー

バラツキを考慮して平均を補正したい

life55の回答

  • ベストアンサー
  • life55
  • ベストアンサー率46% (138/294)
回答No.4

#3です. まず.「補正」という考え方は捨てた方がいいと思います. この種のデータの扱いにはいろいろあります. 1.例2の「7」を捨てる  質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね. この場合は,「7」を捨てる理由が必要です. 1)異常値として扱う 測定ミス,記入ミスなどは,「異常値」と呼びます. 本来は,原因を追究して値を書き直さなければなりません.例えば,7ではなく,0.7だったとかいうことです. 異常値の場合には,3個のデータのうちの最大値だけを捨ててしまうのは,誤ったやり方です. 2)外れ値として扱う これは,異なる母集団が混ざってしまった場合です. 例えば,「1と0は20代の人の答え」「7は50代の人の答え」であって,明らかに集団が違う場合には,2個のデータと1個のデータに分けてしまって構いません. ですから,-1と0の平均をとって,答え「-0.5」として構いません. 2.本当に補正(というかどうか?)できないのか? 実はできないことはありません. ただし,事前に分布が分かっていることが必要です. 世の中には「二段階推定法」などというのもありますが,「確率紙」を使ってみるのも手でしょう(どちらも分布の仮定が必要です). いま,データが3個ありますから,それぞれのデータが全体の何パーセントの位置なのかを計算します. -1は3個の中の1番目ですから,1/(3+1)=0.25, 0は3個の中の2番目ですから,2/(3+1)=0.5 7は使いません. この2点を確率紙に打点し,確率紙に書いてある通りに線を引くと平均などが求まります. 3.その他の注意 3個のデータで平均をとってもあまり意味ありませんね. 10個あるのなら,最小値,最大値を捨てて,8個で計算してもいいのではないかと思います.

masa1214
質問者

お礼

再びありがとうございます。 そうですね、異常値があるという前提では補正は意味がないと思います。しかし、(大事な前提を書き忘れたのですが)今回の事例は基本的に異常値がありません。ですから、例2の7という数値を除外してしまうことに、少し違和感を覚えてしまうのです。 かといって単純平均ですと、7の影響が強すぎると思い、悩んでいるわけです。 life55さんの 2.本当に補正(というかどうか?)できないのか? からヒントを得て以下の方法を考えました(今回のデータは正規分布していると考えて問題ありません)。 例2の場合、 b1=-1, b2=0, b3=7 の正規分布確率密度関数f(x)を求める。 f(b1)=0.072222754 f(b2)=0.082379292 f(b3)=0.047403806 となります。 これを加重平均したものが求める補正平均値。即ち、 b1*f(b1)/(f(b1)+f(b2)+f(b3)) +b2*f(b2)/(f(b1)+f(b2)+f(b3)) +b3*f(b3)/(f(b1)+f(b2)+f(b3)) =0.428376842 となりました。 このようなやり方は、ヘンでしょうか?

関連するQ&A

  • 基準値からのばらつき

    平均からのばらつきを調べるためには標準偏差というものがありますが 平均ではなくある基準値からのばらつきを調べたいのですがその場合も 標準偏差の計算式を応用でできるのでしょうか。 例)A、B、Cという数値がある場合 標準偏差 (A-平均)^2 (B-平均)^2 (C-平均)^2 の平均の平方根   ↓ 基準値Dからのばらつき (A-基準値D)^2 (B-基準値D)^2 (C-基準値D)^2 の平均の平方根 という式は成り立つのでしょうか? 

  • ロット間のバラツキについて

    初歩的な質問で恐縮です。 ある採取したデータを解析しているのですが、ロットA、ロットBがあり それぞれのデータがN=5づつあったとします。各ロット内のバラツキは N=5での標準偏差を出せばいいのかなと思いますが、ロット間(ロットAと ロットBの間)のバラツキを見たい時は、ロットAとロットBの平均値の差を 見ればよいのでしょうか?それとも別の方法で見ないといけないのでしょう か?  どなたかお詳しい方からのアドバイスお願い致します。

  • 標準偏差の補正について

    標準偏差の補正方法がわからず困っています。 測定値Aの標準偏差をa 測定値Bの標準偏差をbとします。 AをBで割った値A/Bを求め、A/Bの標準偏差の値を求めたいのですが、どのようにすればいいのかわかりません。 どなたか教えてください。 よろしくお願いします。

  • 母平均が分からないのに母標準偏差が分かるのは何故?

    今、統計学の本の「母標準偏差が既知の場合の母平均の推定」という項目を読んでいます。 その計算自体は簡単なのですが、そもそも、母平均が分からないのに母標準偏差が分かる状況ってどんな状況ですか?母標準偏差を算出する際に母平均を使うでしょう?基準(平均)が分からないのにバラツキが分かりますか?

  • 工程能力のN数補正について

    データ数(N数)が少ない場合の工程能力を求める際、標準偏差を補正したいです。調べたところ下記2つの方法があるようなのですが、どちらが正しい考え方なのでしょうか。使い分け等あれば教えていただきたいです。補正方法(1)のほうが(2)に比べて補正係数が大きく(信頼区間にもよりますが)、その意味するところの違いも教えていただきたいです。 できれば、実用面からエクセルでの計算例もあるとありがたいです。 ※下名の知識レベルとしては、学生時代に一度統計学の講義を受けた程度でほとんど忘れています。 補正方法(1)(・・・計算方法はわかりました)  標本から求めた標準偏差をχ二乗分布で区間推定し、  母集団の標準偏差とのずれを補正する   ※参考URL:http://ouenblog.divaandco.com/?eid=940571 補正方法(2)(・・・合っているかだけでなく、計算方法も不明)  標準偏差の不偏推定量D(Wikipediaより)を直接使い、標本の標準偏差との差を補正する。  具体的には、不偏分散u^2にはエクセルにおけるSTDEV関数で求めた標準偏差を代入し、  ガンマ関数の部分はGAMMALN関数内に自由度÷2、データ数÷2を入れて計算する?   ※参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE   →"統計値の標準偏差"の上から5番目の式 統計学は難しいですね・・・ ご回答よろしくお願いします。

  • 加重平均(重み付き平均)の標準偏差の求め方

    あるデータを統計処理しています。 加重平均(重み付き平均)を計算し、 その標準偏差を求めようとしています。 私はあまり統計に詳しくないので、 加重平均の標準偏差の求め方が分かりません。 どなたかご存知の方がおられましたら是非教えて下さい。 よろしくお願い致します。

  • 標準偏差の比較

    お世話になってます。 標準偏差の大きさの比較をしたく困っております。 例えば平均値A、標準偏差A’(A±A')と平均値B、標準偏差B’(B±B')の2つの集団があった場合、標準偏差のA'とB'の大きさを比較する場合、どのようにしたらいいのでしょうか? つまり、2つの集団のバラツキの度合いを比較したいのですが、どのようにしたらいいのでしょうか? 教えて下さい。

  • 【統計学】平均回帰モデル:平均回帰速度について

    はじめまして。 わたしは大学院において経済関連の研究をしている者です。そこで、もし知っておられる方がいたらお聞きしたいのですが、 平均回帰モデルにおいて、平均回帰速度とボラティリティー(標準偏差)をサンプルデータより算出する統計学的手法は存在するのでしょうか? どなたか情報知っておられる方、いましたらよろしくお願いいたします。

  • 変動係数の評価と検定

    変動係数について質問させて下さい。 統計の初心者ですので、とんちんかんな事を聞いているかも知れませんが、そこはお許し頂きたいと思います。 今回教えていただきたいのは、変動係数についてです。 データの基本統計値を見ると、その中には簡単な物からわからない物がありました。 特に、変動係数(CV)に付いてはどう考えたらよいのかわかりません。 色々、調べてみると、計算式から考えて、標準偏差を平均で割っているので、各群から得られた平均値を単一にそろえてばらつきを見ている。 (代数幾何のベクトルで言うと単位ベクトル化していると判断しました) Wikipediaでは相対的なばらつきと書いてあり、何となくわかった感じがします。 例えば、ある2群の生データ(それぞれ100個ずつ)があるとします。 Aの平均は500、S.D.は25とします。 Bの平均は400、S.D.は18とします。 A、Bの変動係数はそれぞれAが0.05、Bが0.045になります。 ここでAにはある余分な因子が含まれているので、それを除いて加工したとします。つまり、100個の生データから個々に50を引いたとします。 当然、S.D.は変わらないと思うので、25のままで平均が450になります。 そうなると、変動係数は0.056となり若干大きくなりました。 生データではAとBは近い値なのに、Aを補正した場合に得られる変動係数は大きくなるためAとBが遠のいてしまいます。 こうなった場合は、どちらが良いのか、評価が難しくなります。 また、変動係数の検定は、どうしたらよいのでしょうか? ちなみに、インターネットで青木先生のサイトを見つけて、見ようと思ったのですが、つながらないために、この場で教えていただければと思います。 難しい統計言語はなかなか解釈が出来ない時があります。 お手数おかけしますが、出来るだけかみ砕いて教えていただけると大変ありがたいので、よろしくお願い申し上げます。

  • 統計 基準値の標準偏差はなぜ1か

    統計の勉強をしていて、標準偏差とはデータの ばらつき具合、分散と書かれていました。 平均から比べてどのくらい差があるかという事は 理解しました。 しかし基準値を勉強していて、 本には基準値の平均は必ず0である。標準偏差は 必ず1であると書かれています。標準偏差は データのばらつき具合なのに、なぜ基準値の元では すべての標準偏差は1になるのでしょうか?