- 締切済み
異常値の排除方法
ある特定の業界の財務データを集計する作業を行っています。 毎年毎年実施する統計業務です。 サンプルサイズは約5万社で、その決算書のデータを入力し、集計します。 「売上高経常利益率」など多くの財務比率が計算できるのですが、異常値の排除の仕方で悩んでいます。以下いくつか質問です。 案としては、 1.いわゆる3シグマチェックで、3シグマを超えているデータを排除 2.上限値・下限値を設定し、超えたものは排除 3.トリム平均(上位5%、下位5%を排除した上で計算) を考えています。 私としては、 1の「3シグマ」は仮平均・仮標準偏差などを経なければならないので、計算が複雑 2の「上限値・下限値」は、経済環境によっては、上限値・下限値を超える企業が多くなる年があり、サンプルサイズに影響を与えるし、上限値・下限値を見直したら経年比較ができなくなる。 3の「トリム平均」は、上限値・下限値をその年により自動的に変更する効果を持つため、経済環境の変化に柔軟に対応できる。また、ルールが簡単なため、理解しやすい。 と考え、「3」でいこうと思っています。統計学的に問題はないでしょうか? また、「トリム平均」を採用するとして、上位及び下位の何%を排除するのが一般的でしょうか? もう一つ、いずれの排除方法であれ、ある特定の財務比率で「異常」扱いとなった企業のデータは、他の財務比率において使用できるでしょうか? つまり、財務諸表は、個々の数値が独立しているわけではなく、他の項目とも影響を与え合って、全体として整合性が取れているものです。1つでも異常データとみなした以上、他の項目が正常範囲内にあるとしても、異常データの影響を受けている(あるいは正常データが影響を与えた結果、異常データとなっている)可能性があるため、もうその財務データはすべて使えない、という考え方と、 例えば「トリム平均」による正常、異常の判断は、あくまで相対的なものであって、たまたまある指標が全体の上位又は下位に属しているからといって、財務諸表全体として矛盾するわけではなく、他の指標は他の指標として集計に入れるべき、という考え方もあると思います。 また、全排除してしまうと、連鎖的にサンプルサイズが減るおそれがあり、計算方法も「仮トリム」で排除後、「本トリム」で正式な平均値を取り直すなど、複雑化するおそれがある、と私は思っています。 なるべく統計利用者にとって、簡単で理解しやすい集計方法にしたいと思っていますが、統計学的には、どういう形が適切なのでしょうか?
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- info22
- ベストアンサー率55% (2225/4034)
関連するQ&A
- (仮の?)標準偏差の計算方法について
あるデータで、 上限・下限の範囲のみわかっているータがあります。(n数は不明) 例 下限データ 2.4 上限データ 4.4 この時、平均は(上限+下限)/2 標準偏差(上限ー下限)/4 で良いのでしょうか?(平均はわかるのですが、標準偏差が・・・) 理由もわからず、このように言われたのですが・・・ 説明もわかりずらいと思いますが、補足説明もしますので よろしくお願いします。
- ベストアンサー
- 数学・算数
- 製品の統計について
統計についてお伺いしたい事があります。 製品の強度規格の設定で、一定の下限値より大きければ、上限については問題がないという条件で、統計を出したいのですが、どのような統計を用いればよろしいでしょうか? 現在、標準偏差の使用を試みたのですが、うまくいきませんでした。 引っ張り強度についての条件設定を検討しておりますが、N=40で試験を行った時、150N~398Nとばらつきが存在致しました。 下限条件として150N以上という設定を行おうと考えましたが、平均値-3σの値は非常に小さくなり、平均値から逸脱した値を用いずに計算を行っても、平均値-3σの値はなかなか大きくならず、ほとんどの値を計算から省かなくてはならないという状態でした。 つきましては、どのような統計の出し方が良いのか教えて頂きたく、質問させて頂きました。 よろしくお願い致します。
- 締切済み
- 業界
- 工程能力指数のエクセルでの求め方を教えてください。
工程能力指数のエクセルでの求め方を教えてください。 A2セル以下An(nは3以上の変数)まで入力されたデータに関して 工程能力指数をA1セルに導入する関数(あるいはマクロ)を教えていただきたいです。 STDEVP関数、平均、3σを使用し (1)工程能力指数1=(規格上限-規格下限)/(6×標準偏差(σ)) →規格上限、下限が設定されているパターン (2)工程能力指数2=(規格上限-データ平均値)/(3σ) →規格下限なしのパターン (3)工程能力指数3=(データ平均値-規格下限)/(3σ) →規格上限なしのパターン この3パターンの関数(あるいはマクロ)を教えてください。 データ数をみて、関数を組み込み、計算はできるのですが、 データの数が変数の場合の処理がわかりません。 詳しく教えていただけると非常に助かります。 よろしくお願いします。
- 締切済み
- Visual Basic
- SPSSの記述統計の結果をさらに計算する方法
現在大学4年生で、卒業論文のデータ集計のため SPSSを使用しています。 SPSSで分析⇒記述統計という流れで「平均値」と「標準偏差」 を求めることができるのですが、 私はさらにその「平均値」と「標準偏差」を合計した 数値を出したいです。 しかし、「平均値」も「標準偏差」も計算結果は出力がビューアに 出てしまうので、その数値をさらに計算することができません。 統計はかなりの初心者なので かなり初歩的な質問かと思いますが、ご存知の方 御教授お願いします。
- ベストアンサー
- 心理学・社会学
- 製品規準を定める統計について
統計についてお伺いしたい事があります。 製品の強度規格の設定で、一定の下限値より大きければ、上 限については問題がないという条件で、統計を出したいのです が、どのような統計を用いればよろしいでしょうか? 現在、標準偏差の使用を試みたのですが、うまくいきませんでした。引っ張り強度についての条件設定を検討しておりますが、 N=40で試験を行った時、150N~398Nとばらつきが存在致しま した。 下限条件として150N以上という設定を行おうと考えましたが、平均値-3σの値は非常に小さくなり、平均値から逸脱した値を用いずに計算 を行っても、平均値-3σの値はなかなか大きくならず、ほとんどの値を計算か ら省かなくてはならないという状態でした。 つきましては、どのような統計の出し方が良いのか教えて頂 きたく、質問させて頂きました。 よろしくお願い致します。
- 締切済み
- 業界
- 北陸地方は素晴らしい?
都道府県別の統計データを見て思うのですが、北陸の特に福井、石川、富山の3県は、ほとんどの良いデータ(学力、平均寿命、持ち家率など)において上位に位置し、ほとんどの悪いデータ(失業率、犯罪率、離婚率など)において下位に位置しています。つまり、統計という客観的で否定しにくい指標において(東京など)他都道府県より優れている訳なのですが、それぞれ(申し訳ありませんが)非常に地味で、住みたい地域に挙がることは少ないかと思います。この3県の良いところと悪いところを教えてください。また、これらの地域に住んでみたいと思いますか?
- ベストアンサー
- 甲信越・北陸地方
- 工程能力指数 計算方法
とある製品の粗さを測定しています。N=10 このデーターの平均値を上限規格にしたいのですが 工程能力は算出できるのでしょうか。 Cpは、(上限規格値-平均値)/3/標準偏差で算出していますが 平均値を規格にする場合、この計算式では適用出来ないと思うのですが なにか他の計算式があるのでしょうか。 独特な規格で、申し訳ないです。 宜しくお願い致します
- ベストアンサー
- 数学・算数
お礼
早速のご回答ありがとうございました。参考になりました。