• ベストアンサー

異常値の決定方法

たとえば あるデータが大体ある数字前後のあたりになる場合 (ただしどの数値周りになるかは事前にわかっていない) 10,11,12,13,14 ,11,12,10,13,14,300 といったデータがあった場合 異常値は300なのですが、これを偏差値を使って求める方法を数学を忘れた私に説明いただけないでしょうか。 ※多分偏差値で求める感じなのかなと勝手に思ってますが、偏差値以外でもなにか方法があればお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • snnnmdr
  • ベストアンサー率45% (21/46)
回答No.1

(標本値-平均)が標準偏差σの+-2あるいは3倍以上なら異常値であるとする方法があります。平均が38.18、標準偏差が86.85なので (300-38.18)/86.85=3.01 なので標本値300は異常値であると言えます

muuming2001
質問者

お礼

ありがとうございます。 いろいろページをあさり、記憶をたどり、ちょうど回答いただいた内容のページをみつけ理解いたしました。 http://www.geisya.or.jp/~mwm48961/math2/source_code_2sd1.htm 助かりました!

関連するQ&A

  • フィルタをかけた後の計算

    エクセルでフィルタをかけた後に 偏差値を計算したいのですが… 例えば 名前 科目 点数   分散 偏差値 A君 国語 100点 数値    数字 B君 数学  80点   数値    数字 C君 数学  90点   数値    数字 ・・・・ 平均      90点(=Average(A1:A3)) で科目でたとえば国語でフィルタをかけると 平均点が90点のまんまでもとのデータが残ってしまいます。 それは(=Averrage(A1:A3)のまんまで・・・ 全体の科目の偏差値のままになってしまいます。 フィルタをかけるとそのフィルタリングされた 行の中の中だけで平均点や偏差値をだしたいのです。 こういう場合はどうしたらいいのでしょうか? それとも根本的にやりかたが間違っているのでしょうか? わかる方に教えていただけるとありがたいです。 よろしくお願いします!!

  • Excelで数字データ以外を取り除く方法

    Excelを使って、何千件もある数値コードのデータの修正をする必要があります。 ただ、このデータは、7桁の数値コードのはずなのに、実際には、5桁から8桁まで桁数が異なるデータもあれば、数字以外の文字や記号も入っています。 そのため、まずは、数値コードに混じる数値以外の文字や記号を取り除こうとしています。0-9の数字以外の文字が記号を削除したいのですが、なんだかうまくいきません。データを数値と認識させると、一桁目の0(ゼロ)が消えてしまったりして。。 Excelに詳しい方、どういう方法があるか教えていただけませんか。 よろしくお願いします。

  • 偏差値を上げる頭がよくなる方法

    私は今中2です。 前に高校を探していたところ、神奈川総合高校に行きたいなと思いました。でも今の私の偏差値ではとても無理です。 なのでこれから頑張って偏差値をあげたりテストも頑張ろうと思っています。 私は5教科のテストの点はだいたい70~90点代です。ですが、塾のテストの点数が数学以外とても悪くて偏差値もびっくりするほど低いです。(数学しか塾では教えてもらっていないということもありますが…) どうしても神奈川総合に行きたいです。偏差値やテストの点数を上げるコツや勉強方法があれば教えてください!お願いしますm(_ _)m

  • 四捨五入で桁が変わる場合の表記方法

    仕事で、あるデータを取り扱っています。 その際に、四捨五入して計算結果を出そうとしているのですが、その場合の表記方法に悩んでいます。 例えば、3桁で表記したい場合、『11.54 → 11.5 、10.36 → 10.4』とかにします。(敢えて書くまでもないですが・・・。) しかし、そのデータが、『9.995』だった場合は、この結果を「3桁で表示させたい」と考えたとき、『10.0』とするのと『10.00』とするのは、どちらが正しいのでしょうか。 たまたま他の数値が上に上げたように『XX.X』なので、気分的には『10.0』の方が見栄えがよくていいのですが、例えば有効数字とかの数学的な見方からすると、どうでしょうか。(この数字を出すために用いた数字に3桁のものがあるため。) また、『9.994・・・』という数字を四捨五入して『10.0』とするのは反則でしょうか。 (3桁での表示(4桁目で四捨五入)という考えから) ご意見お聞かせください。 m(_ _)m

  • 宅浪決定:予備校の勉強について教えてください(医学系)

    事情により宅浪します。志望は国公立医学部です そこで、予備校受講生と同レベルかそれ以上の学力を、あと10ヶ月(しかない!)で付けるために、予備校の勉強について、ある程度詳細に教えてください。 今の僕の力は、大体以下のとおりです。 偏差値は( )で、駿台偏差値です。  英語(68-72):平均点が高いと偏差値が落ちる。  数学(55-65):偏差値の変動が大きい。問題がやり易いと思ったら平均点が低く、逆に問題が出来なくても平均点が高いときがよくある。  化学(60前後):計算問題で失敗することが多い。  生物(60-70):駿台の偏差値で60を切ったことが無かったけれど、今年のセンター試験は40点台で大失敗だった。  世界史(58前後)  国語(50前後か60弱):苦手。変動が大きい。 上記のレベルですが、各教科でも良いので、予備校ではどういう進め方で受講者が成績を上げていっているのか、アドヴァイスや情報を、何でも良いのでお願いします!!

  • 異常値の排除方法

    ある特定の業界の財務データを集計する作業を行っています。 毎年毎年実施する統計業務です。 サンプルサイズは約5万社で、その決算書のデータを入力し、集計します。 「売上高経常利益率」など多くの財務比率が計算できるのですが、異常値の排除の仕方で悩んでいます。以下いくつか質問です。 案としては、 1.いわゆる3シグマチェックで、3シグマを超えているデータを排除 2.上限値・下限値を設定し、超えたものは排除 3.トリム平均(上位5%、下位5%を排除した上で計算) を考えています。 私としては、 1の「3シグマ」は仮平均・仮標準偏差などを経なければならないので、計算が複雑 2の「上限値・下限値」は、経済環境によっては、上限値・下限値を超える企業が多くなる年があり、サンプルサイズに影響を与えるし、上限値・下限値を見直したら経年比較ができなくなる。 3の「トリム平均」は、上限値・下限値をその年により自動的に変更する効果を持つため、経済環境の変化に柔軟に対応できる。また、ルールが簡単なため、理解しやすい。 と考え、「3」でいこうと思っています。統計学的に問題はないでしょうか? また、「トリム平均」を採用するとして、上位及び下位の何%を排除するのが一般的でしょうか? もう一つ、いずれの排除方法であれ、ある特定の財務比率で「異常」扱いとなった企業のデータは、他の財務比率において使用できるでしょうか? つまり、財務諸表は、個々の数値が独立しているわけではなく、他の項目とも影響を与え合って、全体として整合性が取れているものです。1つでも異常データとみなした以上、他の項目が正常範囲内にあるとしても、異常データの影響を受けている(あるいは正常データが影響を与えた結果、異常データとなっている)可能性があるため、もうその財務データはすべて使えない、という考え方と、 例えば「トリム平均」による正常、異常の判断は、あくまで相対的なものであって、たまたまある指標が全体の上位又は下位に属しているからといって、財務諸表全体として矛盾するわけではなく、他の指標は他の指標として集計に入れるべき、という考え方もあると思います。 また、全排除してしまうと、連鎖的にサンプルサイズが減るおそれがあり、計算方法も「仮トリム」で排除後、「本トリム」で正式な平均値を取り直すなど、複雑化するおそれがある、と私は思っています。 なるべく統計利用者にとって、簡単で理解しやすい集計方法にしたいと思っていますが、統計学的には、どういう形が適切なのでしょうか?

  • 標準偏差について

    標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 -----  計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 -----  計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。

  • 高校入試勉強方法+α について

    こんにちわ~ 高校入試まで@半年を切ってしまいました・・ 実力テスト(県下一斉テスト)ではいつも125/250点あたり 学年順位110/206位あたりで・・・ ひどい点数を取ってしまっています。 こんな点数で公立高校を目指しているのですが 志望校はパソコン好きということもあって 商業高校の情報処理科を目指しています。 某教材販売会社調べによるとその「科」へ行く為の 偏差値が59と記されています。 しかし、僕にはこの59という数字は実力テストでいうと何点ぐらいなのかが分かっていません。 この高校へ行くのはほぼ無理かな・・と諦め状態です テストでは英語.社会.数学が低いです。 いまごろ遅いのですが 社会の歴史は時代ごとに区切り、出来事.だれがこんなことをした。ということをまとめています。 数学はひたすら問題を解きまくっています。 英語はとりあえず単語を覚えるようにしています。 社会は最近始めたのでわからないのですが 数学と英語はたいしてテストの点に影響がなくて困っています。 他に効率の良い勉強方法はあるのでしょうか? 僕が困っているのは・・・ (1)偏差値59という数字は県下一斉実力テストの点でいうと何点ぐらいなのか(いつもの点.順位.人数は上記) (2)いまからでも間に合うのか・・・ (3)上記の社会.英語.数学の勉強方法以外に効率のいい 勉強方法はあるのか。 です。どうか教えてください><

  • EXCELで同じ数字だけを抽出する方法

    Windows XP です。 A列に数字が入力されています。 この中には、 Aという数値の数字が複数個 Bという数値の数字が複数個 入力されている可能性があり、それ以外の数字は それぞれ1個づつ入力されています。 このような場合、A、Bだけを抽出する方法を 教えてください。 宜しくお願いいたします。

  • パワーポイントのみで、グラフ作成するときの平均値±標準偏差の表示方法

    説明がわかりづらかったらすみません。 エクセルを使った方法は過去の質問・回答にあったのですが、パワーポイントのみの機能で下のようなデータから一つのグラフ内で作成できる方法があれば教えていただきたいです。 例  検査項目  平均±標準偏差   ○○    100±5  ■■    120±3  ××    110±2  △△    130±4 エクセルだと、データ系列の書式設定→Y誤差範囲→正方向→指定から各項目に対応したそれぞれ違う数値の「±標準偏差」(棒グラフの上にTのような形をしたもの(これの長さが違う)が付く)がいれられるのですが、パワーポイントだとグラフを右クリックしデータ系列の書式設定をえらんでもその中にY誤差範囲のタブがなく、またその項目に「指定」がないため標準偏差やパーセンテージの項目に数値を入れると、例題での各検査項目における標準偏差がすべて同じ数値(長さ)になってしまいます。個別の標準偏差の数値をいれる方法がありましたらよろしくお願いします。