• 締切済み

トリム平均の良いやり方

教えてください。 外れ値を除いて平均値を出したいとき、トリム平均(あるいは中央平均)というものがあると思います。 このとき、トリムが10%だったり、20%だったりするのは恣意的な基準だと思ってしまいます。 そこで、標準偏差2つ、または3つ以上外れた数字を外れ値として定義し、外れ値を取り除いて再度平均値を求めることであるグループの数値的な特徴を把握しようとしていますが、これについて、良い方法だと思いますか? また、ほかの方法で、恣意的ではない平均値の求め方がありましたら、何か教えて頂けますでしょうか。 よろしくお願いします。

みんなの回答

回答No.2

  >3シグマを外れた数値は経験論的にも『稀な事象』と認識されるようです そうですよ そうなら、稀な物を除外すると言う事は「なにも除外しない」のと同じ。 感覚的に理解できない人が多い標準偏差とかシグマを出して胡麻化してるだけでしょ。

YKANAJAN
質問者

お礼

回答ありがとうございます。 稀な物を除外すると言う事は「なにも除外しない」のと同じ、確かに言われてみればそんな気がしてきました。 シグマによって除外することに正当性があるならば、正規分布しているという前提に立っているということであり、正規分布しているなら別にシグマを使って外れ値を定義する必要がない気がしてきました。 ところで、別の方法を考えるとして、どのような方法ならば恣意的ではない平均値を出せると思いますか?

回答No.1

  >標準偏差2つ、または3つ以上外れた数字を外れ・・・ 2σは約95%なのでトリム5%と同じ 3σは約99.7%なのでトリム0.3%と同じ こうなりませんか?  

YKANAJAN
質問者

お礼

まあ数字で示すと同じような感じになりますが、シグマ(標準偏差)を使うとより恣意性が薄くなるような気がしているのです。 3シグマを外れた数値は経験論的にも『稀な事象』と認識されるようです。 以下引用ですが、 『経験論的には、いわゆる「3シグマのルール」や「千三ツの法則」と呼ばれるものであり、ほぼすべての値が平均の3標準偏差以内にあるという従来のヒューリスティックを表している』 https://ja.wikipedia.org/wiki/68–95–99.7則

関連するQ&A

  • 代表値を選択する際の基準について

    データの分析を行っていたところ,同一データの平均値が中央値より倍以上大きくなりました.この原因として,外れ値の存在があったため,代表値には中央値を用い,ノンパラメトリックな方法で分析を進めようと考えました. そこで,代表値に中央値を選んだ理由を,数値的な基準を用いて説明したいと思うのですが,その基準にはどのようなものがあるのでしょうか. 本などを読むと,歪度などで代表値を選択することが書いているのですが,具体的な数値などの基準が分かりません. そこで,代表値を選択する際の具体的な基準について教えていただければと思います.また,外れ値が結果に影響を及ぼしているという基準も,もしあれば教えていただきたく思います. よろしくお願いいたします.

  • エクセルで指定範囲の平均値を求めたいのですが。

    エクセル2010で、列に入った数値(時系列データー)の1つ前から直近50個分のデーターの平均や標準偏差を出したいのですが。 データーが毎日増えるので入力された値を直近の50個分のデーターの統計値と比較したいのですが直近50個のデーター範囲を指定する方法を教えてください。 毎日列の一番のセルに数値が入力されていく表が有って、最後の数値を除く、直近50個のデーターの平均値と比較したいのですが。 最新(一番下)の数値が大きく外れた場合、その「外れ値」を含めて、単に入力範囲全部のデーターの統計値と比較するのは不都合が有る為です。

  • 平均偏差MDと標準偏差SDの理想と現実

    平均値からの「偏差の絶対値の総和」を平均偏差 平均値からの「偏差の2乗和」を標準偏差と定義します。 この「偏差の2乗和」を最小にする定数は平均値で、 「偏差の絶対値の総和」を最小にする定数は中央値です。 まず一つ、このことを感覚的に理解できるのですが、証明することが出来ません。 どなたか出来る方はいらっしゃいますか? そして、 正規分布では中心に平均値がくるいう前提よりも、 中心に中央値がくるという前提の方が、正しいと思います。 度数的に中央に来るべきは平均値ではないからです。 たしかに、正規分布は理想の分布であり、平均値=中央値が前提ですが、 実際の有限サンプルを元に検定する際に、 その平均を中心に持っていくよりも、中央値を中心に持っていき、 標準偏差SDではなく、平均偏差MDを使用した方が、より理想的になると感じます。 この考えは間違っているでしょうか。

  • 確率と平均値と標準偏差

    教えてください。 確率で数値を出した場合に、その確率の値から標準偏差は出せますか? barを挿入した場合に0%や100%を超える事になったりして、意味のある数値なのか気になりました。 で、標準偏差の値は平均値にそのまま足したり引いたりしたのが範囲となるのですよね? 標準偏差で出た数値の中心を平均値にもってくるのは間違いですよね?(つまり、こうすると標準偏差で出る値の半分が上限、下限となりますが)

  • 標準偏差とデータ数から平均値が求まるか

    子供の通っている塾の模試で、子供の得点、順位、受験者数、偏差値はわかっています。 塾内での位置を把握するために、講師から標準偏差の値をもらいました。しかし、平均値を聞くのを忘れました。 直接聞けばよいのですが、平均値、標準偏差とも公表しておらず、特別にもらったので頼みづらいのです。 上記データから平均値を求めることは出来ますか。 過去ログを検索したところ、順位及び受験者数から正規分布にのっとり、(1-順位/受験者数)の確立を標準偏差とし偏差値を求める方法がありました。 これを利用すれば出来るのですが、これ以外の方法はないのでしょうか。

  • 標準偏差の「数値」による判断(統計)

    業務における時間外労働時間のマネジメントを考えている とします。 その会社は、20個のグループがありそれぞれ10~30人くらい のグループとします。 時間外労働時間は少ない方がいいので、各グループの平均 の労働時間を比較したりします。 しかし、1つのグループで時間外が極端に多かったり少なかったり とバランスが悪いのもいけないと思います。 そのバランスを測る道具として「標準偏差」というものが あると思います。(他にはどんなものがありますか?) しかし、僕には「標準偏差」の「数値」が具体的に どのくらいの数字だったらどうとかっていまいちわかりません。 (少ない方が業務がそれぞれの人で均平化されること  になるということはわかりますが・・・) だいたい月の平均時間外労働時間が30時間くらいだった 場合、標準偏差がどのくらいだだったらどうなんですか? (それぞれの個体では10~50時間くらいだったとしてです) グループの人数がばらばらでも比較とかってできるんです か? いろいろ教えて下さい。 (標準偏差の計算方法はわかります)

  • 平均値の桁数に関して

    例えば、実験をして正規分布に従うデータが出たとします。 その平均値と標準偏差がそれぞれ4.567893と2.33543のような値になったとします。 このとき、4.567893±2.33543という表現で数値を表そうとしたとき、意味のある桁数(四捨五入するべき桁数)はこれら平均値と標準偏差の比から決まるという話を聞いたのですが、 具体的にどうやって決めれば良いのでしょうか? 相対誤差が関係あるようなことを聞いたのですが、どなたか知ってらっしゃったら教えて下さい。

  • 算術平均に対する標準偏差は、幾何平均に対する?

    度々お世話になります。よろしくお願いいたします。 さて現在、ある課題を10回繰り返し、それに要した時間について 3つほどのグループで比較するグラフを作成しようとしています。 (例えば、ABCと3つのグループで、それぞれに属する人が  同じテストを10回行い、その所要時間を測定します) 図中の横軸にはグループの別を、縦軸には所用時間をプロットします。 このとき、所用時間は個人差が大きいので、各人の中央値を取って、 その幾何平均を示したいと思っています。 ここで、ひとつ困ったことが発生しました。 私は、算術平均を用いるのであればグループ内のばらつきを示すために 標準偏差を添えて図示しているのですが、今回は記述の通り幾何平均を 用いたため、何を添えれば良いのかを知りません。 自分で調べてみたところ「幾何標準偏差」なる用語を見つけたのですが この正体もわからず、上述の用途に使えるものか判別できませんでした。 また、下記URLの説明文中には、 「誤差は正負ともにつけるべきです。なぜかというと血中濃度の個体差は対数席分布すると言われているため、幾何平均を用いる人もいます。その場合対数プロットした際のSDは正負同じ長さです。算術平均で求めたSDは正負で長さが異なります。つまりSDの長さで、幾何平均か算術平均か図をみればわかるのです。」 というコメントがあります。 http://www.geocities.co.jp/Technopolis-Jupiter/2752/geobook.html 標準偏差を算術平均で求める場合と幾何平均で求める場合というのは、 私の質問と関係があるのでしょうか。 あるいは対数プロットする場合の話であって、関係ないのでしょうか。 すこし質問が長くなりましたので、まとめます。 まず 1. 幾何平均した際に示す「ばらつき」の指標は何が適当か という点についてご存知であれば、ご教授いただければと思います。 また、 2.標準偏差を幾何平均で出す場合は、算術平均の場合と何が違うのか ということにつきましても、ご教授いただければ大変有難いです。 些細な情報でも結構ですので、よろしくお願いいたします。

  • 棄却後の平均の求め方(エクセル)

    例えば、5つの数字があります。 A1:0.1、A2:0.6、A3:0.2、A4:0.3、A5:0.4 平均「AVERAGE(A1:A5)」は0.32になります。 標準偏差「STDEV(A1:A5)」:0.19を求め(σ:シグマ) 平均±σの範囲内にある値の平均を求めたいと思っています。 つまり「平均-σ:0.13~平均+σ:0.51」の範囲内にある数字の平均です。 求めたい結果は、A3:0.2,A4:0.3,A5:0.4の平均で0.3となるのですが、 これらを自動的にマクロか何かで計算させる方法はあるのでしょうか? (「ある範囲内にある数字を平均化」又は「ある範囲外の数字を棄却して平均化」) ご存じの方教えて下さい。 宜しくお願いします。

  • 標準偏差と平均偏差の違い

    標準偏差と平均偏差は、数字としての意味は何が違うのでしょうか。(算出方法の違いなどは分かります) 換言すれば、平均偏差でもサンプルのばらつきが表現できるのに、わざわざ計算過程をややこしくして標準偏差を求めることにどのようなメリットがあるのかということです。 『数種類の検体を用いて同一行程の実験を行い、その結果の値の揺れ(ばらつき)を求めたい』 このレポートへのアプローチとして、平均偏差または標準偏差を利用するとき、両者が意味的にどのような違いをもつのか、ご教授ください。