• 締切済み

異常値の排除方法

ある特定の業界の財務データを集計する作業を行っています。 毎年毎年実施する統計業務です。 サンプルサイズは約5万社で、その決算書のデータを入力し、集計します。 「売上高経常利益率」など多くの財務比率が計算できるのですが、異常値の排除の仕方で悩んでいます。以下いくつか質問です。 案としては、 1.いわゆる3シグマチェックで、3シグマを超えているデータを排除 2.上限値・下限値を設定し、超えたものは排除 3.トリム平均(上位5%、下位5%を排除した上で計算) を考えています。 私としては、 1の「3シグマ」は仮平均・仮標準偏差などを経なければならないので、計算が複雑 2の「上限値・下限値」は、経済環境によっては、上限値・下限値を超える企業が多くなる年があり、サンプルサイズに影響を与えるし、上限値・下限値を見直したら経年比較ができなくなる。 3の「トリム平均」は、上限値・下限値をその年により自動的に変更する効果を持つため、経済環境の変化に柔軟に対応できる。また、ルールが簡単なため、理解しやすい。 と考え、「3」でいこうと思っています。統計学的に問題はないでしょうか? また、「トリム平均」を採用するとして、上位及び下位の何%を排除するのが一般的でしょうか? もう一つ、いずれの排除方法であれ、ある特定の財務比率で「異常」扱いとなった企業のデータは、他の財務比率において使用できるでしょうか? つまり、財務諸表は、個々の数値が独立しているわけではなく、他の項目とも影響を与え合って、全体として整合性が取れているものです。1つでも異常データとみなした以上、他の項目が正常範囲内にあるとしても、異常データの影響を受けている(あるいは正常データが影響を与えた結果、異常データとなっている)可能性があるため、もうその財務データはすべて使えない、という考え方と、 例えば「トリム平均」による正常、異常の判断は、あくまで相対的なものであって、たまたまある指標が全体の上位又は下位に属しているからといって、財務諸表全体として矛盾するわけではなく、他の指標は他の指標として集計に入れるべき、という考え方もあると思います。 また、全排除してしまうと、連鎖的にサンプルサイズが減るおそれがあり、計算方法も「仮トリム」で排除後、「本トリム」で正式な平均値を取り直すなど、複雑化するおそれがある、と私は思っています。 なるべく統計利用者にとって、簡単で理解しやすい集計方法にしたいと思っていますが、統計学的には、どういう形が適切なのでしょうか?

みんなの回答

  • info22
  • ベストアンサー率55% (2225/4034)
回答No.1

トリム平均を使うとして 排除する%は正規分布の±3σの範囲(全体の約99.7%有効、0.3%排除)、 ±2σの範囲(全体の約95.4%有効、4.6%排除) が目安になるかと思いますが如何でしょうか? これらの排除率を採用する場合のトリム平均をそれぞれ 0.15%調整平均、2.3%調整平均と言います。 もっと大まかでいいなら 正規分布の±σの範囲(全体の68.27%有効、31.73%排除)に相当する トリム平均の15.9%調整平均でもいいですね。 正規分布との対比ができますから統計的に理解されやすい集計方法かと思いますが如何でしょうか?

参考URL:
http://www.oak.dti.ne.jp/~xkana/psycho/stat/stat_18/index.html
gootaroh
質問者

お礼

早速のご回答ありがとうございました。参考になりました。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • (仮の?)標準偏差の計算方法について

    あるデータで、 上限・下限の範囲のみわかっているータがあります。(n数は不明) 例 下限データ 2.4   上限データ 4.4 この時、平均は(上限+下限)/2     標準偏差(上限ー下限)/4 で良いのでしょうか?(平均はわかるのですが、標準偏差が・・・) 理由もわからず、このように言われたのですが・・・ 説明もわかりずらいと思いますが、補足説明もしますので よろしくお願いします。

  • 製品の統計について

    統計についてお伺いしたい事があります。 製品の強度規格の設定で、一定の下限値より大きければ、上限については問題がないという条件で、統計を出したいのですが、どのような統計を用いればよろしいでしょうか? 現在、標準偏差の使用を試みたのですが、うまくいきませんでした。 引っ張り強度についての条件設定を検討しておりますが、N=40で試験を行った時、150N~398Nとばらつきが存在致しました。 下限条件として150N以上という設定を行おうと考えましたが、平均値-3σの値は非常に小さくなり、平均値から逸脱した値を用いずに計算を行っても、平均値-3σの値はなかなか大きくならず、ほとんどの値を計算から省かなくてはならないという状態でした。 つきましては、どのような統計の出し方が良いのか教えて頂きたく、質問させて頂きました。 よろしくお願い致します。

  • 統計学に関する質問

    こんにちは。 ある特定の病気の指標となる数値があり、その病気を持つ人々のデータから母平均の区間推定を行ったところ信頼区間の下限値が10であったとします。この場合、「この指標の数値が10以上であった人は、(その)病気を疑いましょう」というように、信頼区間の下限値を病気を疑う目安の値に用いても(医学的にはともかく、統計学的に)よいのでしょうか? 宜しくお願い致します。

  • 工程能力指数のエクセルでの求め方を教えてください。

    工程能力指数のエクセルでの求め方を教えてください。 A2セル以下An(nは3以上の変数)まで入力されたデータに関して 工程能力指数をA1セルに導入する関数(あるいはマクロ)を教えていただきたいです。 STDEVP関数、平均、3σを使用し (1)工程能力指数1=(規格上限-規格下限)/(6×標準偏差(σ))   →規格上限、下限が設定されているパターン (2)工程能力指数2=(規格上限-データ平均値)/(3σ)     →規格下限なしのパターン (3)工程能力指数3=(データ平均値-規格下限)/(3σ)     →規格上限なしのパターン この3パターンの関数(あるいはマクロ)を教えてください。 データ数をみて、関数を組み込み、計算はできるのですが、 データの数が変数の場合の処理がわかりません。 詳しく教えていただけると非常に助かります。 よろしくお願いします。

  • SPSSの記述統計の結果をさらに計算する方法

    現在大学4年生で、卒業論文のデータ集計のため SPSSを使用しています。 SPSSで分析⇒記述統計という流れで「平均値」と「標準偏差」 を求めることができるのですが、 私はさらにその「平均値」と「標準偏差」を合計した 数値を出したいです。 しかし、「平均値」も「標準偏差」も計算結果は出力がビューアに 出てしまうので、その数値をさらに計算することができません。 統計はかなりの初心者なので かなり初歩的な質問かと思いますが、ご存知の方 御教授お願いします。

  • 製品規準を定める統計について

    統計についてお伺いしたい事があります。 製品の強度規格の設定で、一定の下限値より大きければ、上 限については問題がないという条件で、統計を出したいのです が、どのような統計を用いればよろしいでしょうか? 現在、標準偏差の使用を試みたのですが、うまくいきませんでした。引っ張り強度についての条件設定を検討しておりますが、 N=40で試験を行った時、150N~398Nとばらつきが存在致しま した。 下限条件として150N以上という設定を行おうと考えましたが、平均値-3σの値は非常に小さくなり、平均値から逸脱した値を用いずに計算 を行っても、平均値-3σの値はなかなか大きくならず、ほとんどの値を計算か ら省かなくてはならないという状態でした。 つきましては、どのような統計の出し方が良いのか教えて頂 きたく、質問させて頂きました。 よろしくお願い致します。

  • 北陸地方は素晴らしい?

    都道府県別の統計データを見て思うのですが、北陸の特に福井、石川、富山の3県は、ほとんどの良いデータ(学力、平均寿命、持ち家率など)において上位に位置し、ほとんどの悪いデータ(失業率、犯罪率、離婚率など)において下位に位置しています。つまり、統計という客観的で否定しにくい指標において(東京など)他都道府県より優れている訳なのですが、それぞれ(申し訳ありませんが)非常に地味で、住みたい地域に挙がることは少ないかと思います。この3県の良いところと悪いところを教えてください。また、これらの地域に住んでみたいと思いますか?

  • 財務諸表の分析

    ある企業の03年度の財務指標を、その業界の平均値と比較したいのですが、業界平均のデータをどうやって調べたらいいのかわかりません。データを掲載しているHPなど、ご存知の方は教えてください。

  • 統計値に関する質問

    統計学に関する質問です。 平均が7.0、変動が6.8~7.2の間にある30個のデータがあります。新しく7.1という値が得られたとして、この値が「今までの傾向から外れ値でない」ことを示すのに適した統計指標はありますでしょうか。 宜しくお願い致します。

  • 工程能力指数 計算方法

    とある製品の粗さを測定しています。N=10 このデーターの平均値を上限規格にしたいのですが 工程能力は算出できるのでしょうか。 Cpは、(上限規格値-平均値)/3/標準偏差で算出していますが 平均値を規格にする場合、この計算式では適用出来ないと思うのですが なにか他の計算式があるのでしょうか。 独特な規格で、申し訳ないです。 宜しくお願い致します

このQ&Aのポイント
  • 固定電話の1回線のみを使用してFAXを受信したいのですができない
  • FAXを受信した際は固定電話の方でしか受信できない状態になっている
  • 接続の方法が間違っているのでしょうか
回答を見る