代表値の選択基準と外れ値の影響について

このQ&Aのポイント
  • データ分析において代表値を選ぶ際の基準について説明します。
  • 中央値を代表値とする理由や、歪度などの数値的な基準についても解説します。
  • また、外れ値の存在が結果に与える影響も明らかにします。
回答を見る
  • ベストアンサー

代表値を選択する際の基準について

データの分析を行っていたところ,同一データの平均値が中央値より倍以上大きくなりました.この原因として,外れ値の存在があったため,代表値には中央値を用い,ノンパラメトリックな方法で分析を進めようと考えました. そこで,代表値に中央値を選んだ理由を,数値的な基準を用いて説明したいと思うのですが,その基準にはどのようなものがあるのでしょうか. 本などを読むと,歪度などで代表値を選択することが書いているのですが,具体的な数値などの基準が分かりません. そこで,代表値を選択する際の具体的な基準について教えていただければと思います.また,外れ値が結果に影響を及ぼしているという基準も,もしあれば教えていただきたく思います. よろしくお願いいたします.

質問者が選んだベストアンサー

  • ベストアンサー
  • vzb04330
  • ベストアンサー率74% (577/778)
回答No.1

はじめに確認しますが,データの尺度水準は,間隔尺度以上ですね? 間隔尺度以上の場合に,平均,中央値,最頻値のいずれも用いることができます. 質問の内容に関しては,絶対的な基準は存在しません(森・吉田,1990). また,他のデータに比べ,どの程度離れていれば,外れ値とみなすかについても明確な基準はありません(吉田,1998). したがって,どの代表値を用いるかや,どの個別データを外れ値とみなすかについては,主観的な判断に任されているといっても過言ではありません. ただし,南風原(2002)にあるように,次のように考えることはできると思います(南風原,2002,pp.17-27): 1.代表値の適切さの基準を明確に定義し,それを最大にする値を求めるというアプローチを基本的には,採用する. 2.データがN個あると仮定して,「代表値tと,そこに含まれるN個のデータとの近さ」という基準を,「tと各値との距離の絶対値の総和の小ささ」と解釈する,と考える. 3.このように考えると,その総和を最小にするtが,「データ全体に含まれる各値にもっとも近い」という基準を満たす,適切な代表値ということになる. なお,外れ値の存在が,測定ミスによるものではなく,正しく測定されたにもかかわらず,他のデータからは,相当はずれた値になったという前提で,この説明は成り立ちます. また,最近の統計書にはあまり書かれていないようですが,正規分布から外れた値と見なせるかどうかに関して,「棄却検定法」があります. 古い本ですが,岩原(1967)のp.135にその説明が,あります. 数式を記述するのが煩雑でしたので,文章で説明してみました. 文献リストを掲げておきますから,ご覧ください. 森敏昭・吉田寿夫(編著)(1990):心理学のためのデータ解析テクニカルブック.北大路書房. 吉田寿夫(1998):本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本.北大路書房. 南風原朝和(2002):心理統計学の基礎-統合的理解のために-.有斐閣(有斐閣アルマ). 岩原信九郎(1967):増補版推計学による新教育統計法.日本文化科学社.

igamata
質問者

お礼

詳しいご回答ありがとうございます.絶対的な基準はないようですね.討論する際に代表値の選定やはずれ値の基準を聞かれますので,何かあればと思ったのですが・・・.ご紹介いただいた文献を読んでみて,再考してみます.ありがとうございました.

関連するQ&A

  • トリム平均の良いやり方

    教えてください。 外れ値を除いて平均値を出したいとき、トリム平均(あるいは中央平均)というものがあると思います。 このとき、トリムが10%だったり、20%だったりするのは恣意的な基準だと思ってしまいます。 そこで、標準偏差2つ、または3つ以上外れた数字を外れ値として定義し、外れ値を取り除いて再度平均値を求めることであるグループの数値的な特徴を把握しようとしていますが、これについて、良い方法だと思いますか? また、ほかの方法で、恣意的ではない平均値の求め方がありましたら、何か教えて頂けますでしょうか。 よろしくお願いします。

  • 基準化したデータより得られた回帰式に新たな説明変数を代入する際の取り扱いについて

    基準化したデータより得られた回帰式に新たな説明変数の数値を代入し、従属変数の数値を計算(予測)する際、その代入される説明変数も基準化されている必要があると思いますが、その基準化の方法はどのように行えばよいのでしょうか? 例えば、サンプル数10、従属変数1、説明変数4というデータセットがあり、全変数を基準化し回帰係数を求めたとします。 得られた回帰式を用い新しいデータの説明変数の数値を代入することにより説明変数の値を予測したいと思います。 この際、この新たなデータも基準化される必要があると思うのですが、基準化する際には回帰係数を求めるために用いた10個のサンプルより計算された各説明変数の平均及び標準偏差を用いて、基準化を行うのでしょうか? 具体的には10個のサンプルから計算された説明変数a,b,c,dの平均がそれぞれ2,4,6,8、及び標準偏差が10,20,30,40であったとします。 新たなデータの説明変数a,b,c,dの値が3,6,9,12であった場合は、それぞれ(3-2)/10, (6-4)/20, (9-6)/30, (12-8)/40の値を計算し、その数値を回帰式に代入するのでしょうか? 長くなってしまい申し訳ありませんが、どなたか詳しい方がいましたら是非教えていただきたくお願いします。

  • 統計の代表値から正規分布かどうかを知る

    タイトル通りですが、統計の代表値(平均 中央値 最大最小値 尖度 歪度)からその集団のデータが正規分布しているかどうかをしるにはどうしたらよいでしょうか??

  • 血液データの基準値の決め方について

    血液データの基準値の改定を行っている者ですが、 母集団が3万人で、その中から正常人の条件で三千人まで絞り、ソフトを使い、かい二乗log変換し、反復切断をしたら、 γーGPTやALTの標準偏差の値が大きくなってしまい、基準値の下限がマイナスになってしまいます。 いずれも中央値より極端に高いデータがあるのでそのせいだと思いますが、 極端に高いまたは低いデータを除外する統計的な方法(たとえば中央値の4倍以上を除外)があれば教えてください。

  • 「賢明なる投資家」の銘柄選択の一つが分かりません。

    投資本で有名な「賢明なる投資家」という本を買いました。 この中で普通株を選ぶ四つの基準というのがあるのですが、その中のひとつに "ある銘柄を買い付けるに際しては、過去七年程度の平均企業収益に照らして支払うべき価格の上限を決めること。この上限価格としてわれわれが目安としているのは、過去七年間の平均企業収益の二五倍、そして過去一二ヶ月の企業収益の二〇倍である。" という文があるのですが、この"企業収益"が具体的に何を指し示しているのかが分かりません。 ググってみると、 「"1株益"を指し示している」 というような情報があったのですが、例えば現状のニトリの株だと 【業績】   売上    営業利益   経常利益  利益    1株益(円)  1株配(円) 連11. 2予  313,000  51,500     52,800    29,000   522.7     50~55 こんな感じですが、仮にニトリの一株益の過去七年間の平均が522.7だった場合、その25倍、つまり13067.5となり、ニトリの株価がここまで下がるわけがないので、私がどこか激しく勘違いをしているのだと思うのですが……。 具体的に、この本の"企業収益"とは何を示しているのかお教え願えませんでしょうか? よろしくお願いいたします。

  • 放射性物質の基準値が、怪しい

    「直ちに健康が出るレベルではない」 「少量を食べたからといって健康に影響はない」 と、いやと言うほど聞かされてますが、、、 4000世帯には水道水の基準値が安全レベルを超えたのに、報告されたのは7日後。 知らずに飲んでしまった乳児は? 「数回飲んだ程度なら影響ない」 でも当初、血相変えてペットボトルを一世帯につき3本づつ配布していたのに? どうも納得いかない。 万が一基準値超えても、安全であるとは決して言わないで、「ただちに健康には、、、」とか、「一年に○○食べてもレントゲン1回分」とか。 まわりくどすぎてわかりにくいです。 そしてなにより疑問なのは、 風評被害とは、まったく害のないものが敬遠されてしまうことであって、事実、少量であれ汚染されているもに対してそれを拒否するのは、風評被害ではないと思う。 ちょっとならいいじゃん食べろって?お断りします。 報道番組で横一列にならんだタレントたちが福島県産のいちごをおもむろにつかんで、 「あま~い」「一粒一粒が大きい~」など、放射線物質の基準値とは全く無関係な感想を発している姿をみて、いよいよ日本もおしまいかなと情けなくなりました。 タバコを吸う、吸わないと同じで、食べる食べないは個人の自由だと思います。 けど、ちゃんと放射性物質の数値をきちんと告示してください。 うまくごまかさないでください。 なぜほうれん草を検査するとき一枚一枚念入りにこすり洗ってから測定するのですか? 洗ってからの測定値だということを知らない人が大勢いますよ。 家庭では普通は洗うから?一枚一枚?こすって?(私は流水もしくはボールに水をためて束でザブザブ数回ゆすいで調理します。一枚一枚洗うの常識ですか???) だったら洗う前と洗った後の数値の違いを公表してください。 洗う前の、そのまま測定した数値を知らせてください。 ある番組では、洗う前と後では、測定値が半分だったと報告してました。 さらに、基準値を最初の二倍に設定し直すのはルール違反です。最初の基準値はじゃあなんだったのですか?洗ったうえに基準値を倍にして測定したら、最大測定誤差は4倍、ですよ! こんなトリックにひっかかりたくありません。 食べない選択もさせてください。 正しい情報を得られる方法、ご存知のかた、お願いします。

  • グラフ作成の際の範囲選択

    パソコンスクールに通っています。 パソコンスクールの教科書には「データの範囲選択:グラフの基になるデータを選択するには、グラフの項目名として使用するセルと数値データとして使用するセルを含めて範囲選択します」とあり、授業でもそうするよう習いました。 しかし、MOS(旧MOUS)の試験の対策本では項目名は範囲選択しないのが正解という問題がありました。FOM出版の書籍です。 項目名は範囲選択するのかしないのかお教え下さい。 よろしくお願いします。

  • 統計 基準値の標準偏差はなぜ1か

    統計の勉強をしていて、標準偏差とはデータの ばらつき具合、分散と書かれていました。 平均から比べてどのくらい差があるかという事は 理解しました。 しかし基準値を勉強していて、 本には基準値の平均は必ず0である。標準偏差は 必ず1であると書かれています。標準偏差は データのばらつき具合なのに、なぜ基準値の元では すべての標準偏差は1になるのでしょうか?

  • 二元配置の分散分析、多重比較法のときデータの数が合わない場合は?

    反応時間を測定して分散分析を行ないたいのですが、外れ値を検出してそのデータを捨てると、各水準のデータの数が異なってくるため、繰り返しのある二元配置分散分析や多重比較(方法によっては)ができません。 ボタンを押して反応時間を測定してもらうため、押し間違えや押しそびれなどがどうしても生じてしまいます。そのためデータの数が少し異なってしまいます。 このような場合は平均値を代用値として使って埋めてもいいのでしょうか? 代用値の決め方や他の分析方法があればご教示のほうお願いします。

  • 長期投資の銘柄選択基準が具体的に書いてある本は?

     これまで投資信託(ETF含む)をやっていたのですが、そろそろ個別銘柄にも挑戦しようかなと思っています。  そこで、長期投資の銘柄選択基準が具体的に書いてある本をおしえてください?  既読・予定の本は「バフェットの銘柄選択術」・シーゲル「株式投資」・木村剛「投資戦略の発想法」です。