• ベストアンサー

統計学の外れ値について

4つの予備校の数学テストの結果で、それぞれにMean,Median,Max,Minの値が与えられているとします。 (Maxはどの予備校も100点) 4つの予備校のいずれかで満点が外れ値だと分かっているとき、どの予備校であるかを推定するためにはヒストグラムを書く以外に、さらにどのような統計量を算出して検討すればよいですか?

質問者が選んだベストアンサー

  • ベストアンサー
  • sunasearch
  • ベストアンサー率35% (632/1788)
回答No.2

Mean,Median,Max,Minしか使えないとすれば、 満点が外れ値であるためには、 集団が100点より下方にありますので、 平均点が低いところです。 #例外はいくらでもあるでしょうが。 分散が分かるなら、 偏差値を求めるのがより確実です。

kanakana19
質問者

お礼

ありがとうございます! 分散も少し習ったので、偏差値でも考えてみます。

その他の回答 (2)

  • solla
  • ベストアンサー率59% (45/76)
回答No.3

平均値は中央値と比較して外れ値に敏感であることを利用して、(平均値-中央値)が最大になる予備校で点数の高い側に外れ値があると推定します。 ただしこの方法は点数の高い側に外れ値がある予備校で同時に点数の低い側にも外れ値があると適切ではなくなりますので注意が必要ですが…。

kanakana19
質問者

お礼

ありがとうございます!

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.1

普通に、Medianか、場合によってはMeanを見れば分かると思いますが。

kanakana19
質問者

お礼

お答えいただきありがとうございます!

関連するQ&A

  • float.h のテスト結果がおかしい

     float.h  をテストするため、次のようなプログラムを作りました。  float.h に書かれている値が書き出されると思ったのですが、少し値が違います。  FLT_MAX と DBL_MAX の値が違っています。本当にこのヘッダファイルを読んでいるかと思い、 #define FLT_MAX 3.4e+3f    と変更すれば、 Max= 3.400000000000000000E+03 と出てきます。  一致しない原因は何でしょう。  コンパイラはルネサスのHEWで、CPUはH8/3052です。 *** float.h *** #define FLT_MAX 3.4028235677973364e+38f #define FLT_MIN 1.175494351e-38F #define DBL_MAX 1.7976931348623158e+308 #define DBL_MIN 2.2250738585072014e-308 *** プログラム *** sprintf(str," float :%ldBytes Max= %.18E Min= %.18E\r\n", sizeof(float), FLT_MAX, FLT_MIN) ; Put_str(str) ; sprintf(str," double:%ldBytes Max= %.18E Min= %.18E\r\n", sizeof(double), DBL_MAX, DBL_MIN) ; Put_str(str) ; *** 結果 *** float :4Bytes Max= 3.402823466385288600E+38         Min= 1.175494350822287500E-38 double:8Bytes Max= 1.797693134862315700E+308          Min= 2.225073858507201400E-308 *** まとめて整理 ***  元の原稿は比較し易いように縦に数字が並ぶように書いているのですが、 ここに書き込むとずれてしまいます。 #define FLT_MAX 3.4028235677973364e+38f         Max= 3.402823466385288600E+38  FLT_MIN に比べ有効桁数が多いのが気になる。  同じ有効桁数で区切っても ...567 と ...466 とでは誤差が大きい。    FLT_MAX 3.402823567 7973364e+38f       Max= 3.402823466 385288600E+38     FLT_MIN 1.175494351e-38F #define FLT_MIN 1.175494351e-38F         Min= 1.175494350822287500E-38  四捨五入なら分かる。 #define DBL_MAX 1.7976931348623158e+308         Max= 1.797693134862315700E+308  最後が8と7で違う。しかし、DBL_MAX は8バイトで表せる値に対して四捨五入したために7が8になったと考えれば納得出来る。 #define DBL_MIN 2.2250738585072014e-308         Min= 2.225073858507201400E-308  ピッタリ合っている  宜しくお願いします。

  • 資料の整理の問題です。

    下の図は,ある高校の1年1組の数学の小テスト(30点満点)の結果をヒストグラム(度数分布のようすを表したグラフ)に表したものである。次の問に答えなさい。 (1)下の度数分布表を完成させなさい。 (2)25点以上30点未満の階級の相対度数を求めなさい。 (3)メジアン(中央値)の入る階級を答えなさい。 (4)モード(最頻値)を答えなさい。 お願いしますm(_ _)m

  • どんな統計本を読めば、この問題が解けますか?

    心理系大学院の試験で、基礎的な統計の問題が出題されます。 そのために統計学の勉強を進めているのですが、問題が難しくて解けません。 試験計画を立てたいのですが、どんな本を読めばその水準に達するか見当もつきません。 どういった本を今後読む必要があるのか(演習本を読む必要があるのか、 更に発展教材に進む必要があるのか)教えて頂けないでしょうか。 また、具体的な書籍を教えていただけると助かります。ちなみに数学の知識は全くありません。 具体的には、以下のような問題です。 「因子分析し、2因子解を求めた所、累積寄与率は25%だった。累積寄与率を高める方法を述べよ」 「多重共線性の問題がいつ生じるか説明し、また問題の有無を検討する指標をあげよ」 「mean,median,avarage等の代表値の利点を述べよ」 「統計検定と区間推定における平均値の差の関係について述べよ」 現在は統計の本を読み、検定に関する最低限の理解(t検定やχ2検定、共分散構造分析とは何のために行い、どんな特徴があるのか)は捉える事が出来ていると思います。 (個人的には、例題と仮データが掲載されている本を元に実際に解析すればよいかとも思うのですが、自習範囲が広範で、費用対効果が望めず、すごく非効率的だと思っています)

  • 統計データの「タイル値」とは何でしょうか?

    医療データ(他のデータでも使われるとは思いますが)でタイル値という統計の値が良く使われ、前後の文章からはある程度意味はわかるのですが、具体的にどのように算出されるのかがわからず悩んでおります。私は数学が余り得意でありませんのでそのようなレベルの人にもわかるようにご教授願い致します。不躾な質問の仕方で申し訳ありませんが宜しくお願い致します。

  • int型変数の簡潔なプログラム

    #include<iostream> using namespace std; int main(void){ int max = a; int min = a; if(a > b){ min = b; }else{ max = b; } cout << "小さい方の値は" << min << "です。\n"; cout << "大きい方の値は" << max << "です。\n"; } これの、    int max = a; int min = a; と     if(a > b){ min = b; }else{ max = b; } が解りません。 何故変数をaからbにチェンジしているのでしょうか 初心者なのでお手柔らかにお願いします。 よろしくお願いします。

  • 分布形の決定と確率密度関数の算出

    こんにちは。 統計について質問させていただきます。 10,000個のデータ(平均値5.4E-05、標準偏差2.5E-04)を ヒストグラムに変換したところ、その分布形が対数正規分布とみなせそうです。 そこで、ks検定で分布形の推定を行っているのですが、ヒストグラムに対応しそうな 確率密度関数(pdf)と累積分布関数(cdf)の算出が分からず困っております。 ここ何日か、書籍やネットなどで調べてみたものの、何度やってもうまくいきません・・・。 ヒストグラムのデータ区間が小さすぎるのが問題ではないかと考えておりますが。 恥ずかしながら、統計学に関してはあまり学んだことがありませんので、 言葉足らで分かりにくいかと思いますが、 どなたか詳しい方、説明して頂けませんでしょうか。 少しでも分かりやすいように、画像を添付しておきます。 よろしくお願いいたします。

  • センター数学2Bの第5問『統計』について

    こんばんは。 残りあと20日となったセンター試験を受ける高3です 唐突ですが、有名予備校の講師のHPに 「統計はすぐに満点が狙える」というような事が書かれていました。 学校では数列とベクトルを習っています。 僕の第一志望の大学の センター:二次の比率が8:2とかなりセンター重視です。 そこでセンターではわりと得意な数列と統計をやって、少しでも良い点をとれるようにしたいのですが… ベクトルは得意でもないし、苦手でもありません。 二次試験は数学(2Bまで)だけです。 仮にベクトルを選ぶとすると、計算ミスを犯す可能性が… 先ほど、過去に受けた模試で統計を解答をみながらみてみたんですが、統計の計算だとそこまで計算ミスをするような計算はありませんでした しかし残りあと20日!! どうしようか迷っています… どうかアドバイスをください!!よろしくお願いします。

  • 統計学について教えてください

    初めまして、今私は授業で統計学を勉強しているのですが、その中でわからない問題がありましたので質問させてもらいます。 問題 ある国の数学のテスト結果から無作為に10人を抽出して、点数を記録したデータは以下である。 64 55 49 67 88 70 71 45 31 68 1)もし母集団の分散がサンプルからの推定値と等しいとわかるとすれば、全国平均点数の50%信頼区間を求めなさい 2)母集団の分散について何もわからないとすれば、全国平均点数の50%信頼区間を求めなさい の2問がわかりません。 自分なりに教科書を読んだりしているのですが、なかなか理解できなくて・・・ 申し訳ありませんが、この問題が解ける方はぜひ解答と解説をお願いします! よろしくお願いします(>_<)

  • 統計的手法  3σ管理

    このカテゴリーでいいのかわかりませんが職場である分析をしてその結果に対して どう考えていいか統計的手法を用いて証明したいのですがよくわかりません。 初心者でもわかるように詳しい説明をしていただけないでしょうか。宜しくお願いします 分析結果より、上限規格の30個以上には まずならないというのを統計的手法を用いて証明して 欲しいと上司から言われています。結果だけを見ても超える事はないと一目でわかりますが。 分析結果から得られた情報として n=69 σ=3.7  平均=4.0  max=14  min=0 上記の結果が得られて上限の規格を30以下とした場合、自分なりに考えてみました。(下限は考えなくてもいいです。より0に近いほうがいいので無視して下さい) (1)3σの幅で 3×3.7=11.1  平均が4.0なので4.0+11.1=15.1になります。  よって。3σは99.7%が3σにおさまるので(1000個だと997個がok、残り3つが不良)と考えられる ので上限規格の30以下を考えると30を超えるのは極めて少ないという結論でよろしいでしょうか? 6σでみても6×3.7=22.2  4+22.2=26.2になるので26.2個が100%に限りなく近くおさまっている と考えていいのでしょうか? (2)工程能力指数で片側 (30-4.0)/3√3.7=Cp= 4.48となり工程能力指数も十分満足しており  30個は超える事がないと考えていいのでしょうか?そもそもここで工程能力指数をだしても 無意味でしょうか? (3)その他何か推定とか検定して30個は超えないということが証明できるか又は  上記の統計結果から上限はいくらぐらいになるか(1)の他に推定とかは出来るでしょうか? 自分の考えとしては(1)と(2)で30個を超えることはないとこれで証明できると思うのですが そのあたりがよくわかりません。 どなたか詳しい方、指導の程、宜しくお願いします。   

  • 歪度はゼロに近いのに、ヒストグラムは正規分布してない

    以下のような20個のデータ(テストの点数)があります。 57, 82, 62, 53, 70, 69, 71, 68, 67, 72, 53, 75, 83, 69, 73, 70,66, 54, 54, 59 このデータの歪度をSPSSで算出すると、-0.01とほぼゼロに近い値だったので正規分布かなと思っていました。そこでヒストグラムを書いてみたら、全然正規分布とはほど遠い分布になっていました。 どうしてでしょうか?