• 締切済み

統計 異常値の棄却

気温とビールの消費量についての関係式をつくり、気温からビールの消費量を見積もるとします。(実際の検討内容を公開できませんので、置き換えて質問しています) まず、ビール消費量は気温と関係すると予想し、過去の事例から、「気温」と「ビール消費量」のデータを集め、散布図を作成、回帰式を算出しました。 データは概ね正の相関を示し、このような方法で見積もりのための算出式を得ることは妥当と思えます。 ただし、問題となっているのは (1)データのばらつきが大きい (2)データが等しく分布していない(低い気温のデータに比較し、高い気温のデータが少ない、またばらつきは高い気温で大きい) ことです。 データがばらつくのは当然なのですが、データが外れるもっともな理由があり、それを根拠にデータを棄却するという他に、数学的処理によって外れ値を棄却する方法があるのかどうか知りたいのです。 自分で探した中で、「平均値+-σから外れるものを棄却する」という方法があったのですが、今回のデータは、ある等しいxに対して複数のyをとった実験のようなデータではなく、x(気温)の値はまったくバラバラに分布しているので、xについての平均値+-σということができません。 このような場合にできる棄却方法があれば、ご教授ください。 よろしくお願いします。

みんなの回答

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.5

おっしゃるような状況でしたら、私なら何らかの頑健推定をやります。 > 頑健推定をすることによって、回答者が誤解したデータによる影響を小さくすることができる、また気温以外の影響を大きく受けたデータはこの直線から外れることになるので、このようなデータの影響を小さくし、気温の影響が主となるデータに基づく回帰式を出せる、ということになるでしょうか? そう思います。 > 私は回答者が質問内容を誤解をしたまま気温や消費量ではない値を提出した可能性があると思っています。 > しかし、今回はこれを材料とするしかないので、ここを疑っても仕方がなく、正しく回答されたデータであるとみなして解析を始めることとしました。 ここを疑うのが頑健推定で、異常値を捨てる根拠です。疑ってもしかたがないとするなら、正しく回答されたデータを単に自分にとって都合が悪いから捨てる、ということになってしまいます。 あらましについては www.econ.aoyama.ac.jp/~yasuto_yoshizoe/econstat/stat200809.pdf がわかりやすいと思います。データ点がたくさんあるなら、たとえば p.5 左にある最小刈り込み2乗法のような贅沢な方法でも採用できるでしょう。その場合、半分は異常値とみなすことになります。この手法は R にあると書いてありますから、 http://www.okada.jp.org/RWiki/ を見て使えば楽だと思います。只です。 数値例については、ちょっと調べてみたところでは、南山大学の卒論集 http://www-g00.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/ の、木村研究室によくあります。 http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2004/kimura/01mm004.pdf http://www-g00.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2006/kimura/03mm052.pdf http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2004/kimura/01mm029.pdf など。他にもいろいろな所、特に外国に文献がたくさんあります。 それから報告や発表では、もとの散布図と異常値除去後の散布図を必ず両方、合わせて提示する必要があります。それをしないでいると、データの捏造と言われても反論に困ります。老婆心ながら。

natsuro
質問者

お礼

ur2c様 どうもありがとうございました。 参考文献まで丁寧に教えてくださって、感謝しています。 統計の基礎ができていないので、用語を調べながら読んでいますが、ゴールには最短距離で近づけた気がします。 本当にありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.4

> 全データのグラフと共に説明用のきれいなグラフが必要であるらしく それなら、No.2 を採用するべきでしょう。 気温以外の要因の影響を除去して、調整後のデータとしてグラフを示すのは普通のことだと思います。頑健推定を考えるのは、そのあとのことになります。

natsuro
質問者

お礼

再度ご回答いただき、ありがとうございます。 >気温以外の要因の影響を除去 それが得られた情報だけからは難しいのです。他の要因が消費量に影響を与えることは想像できますが、気温以外の情報が十分そろっていません。 また今回扱っているデータというのは、こちらの質問に対する回答の形(ペーパーテスト形式)で集めたデータであり、正しく回答されたかどうかについて若干疑問があります。私は回答者が質問内容を誤解をしたまま気温や消費量ではない値を提出した可能性があると思っています。 しかし、今回はこれを材料とするしかないので、ここを疑っても仕方がなく、正しく回答されたデータであるとみなして解析を始めることとしました。 1.まず全データを散布図にしてみたところ、直線回帰らしく見えるが外れた値もそこそこある。 2.外れ値の外れている所以がわからない。 3.今回の目的が散布図から現象を解析することではなく、見積もり用の関係式をつくることである。 という状況の場合、決定係数が低くてもバシッと回帰式を引いてしまえばいいと思うのですが、そこへ 4.見た目にばらつきの少ない散布図の要求 となると、最初に引いた回帰式を基準に、そこから大きくずれるデータを排除する、ということになるかと思います。 この時点で頑健推定を試みるのはどうでしょうか? 頑健推定の例として、データの書き写し時のミスがあった場合にその影響を小さくする、といった説明がありました。このような場合と似ているかと思ったのです。 頑健推定をすることによって、回答者が誤解したデータによる影響を小さくすることができる、また気温以外の影響を大きく受けたデータはこの直線から外れることになるので、このようなデータの影響を小さくし、気温の影響が主となるデータに基づく回帰式を出せる、ということになるでしょうか? 長くなりましたが、お時間がありましたらご返答よろしくお願いします。

全文を見る
すると、全ての回答が全文表示されます。
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.3

> 数学的処理によって外れ値を棄却する方法があるのか 測定誤差が「正規分布よりも裾の重い分布」に従うと考えられることを理由に、外れ値にはより軽い重みを与える推定法は、よく使われます。重みが 0 なら、その測定値を捨てたことになります。「頑健推定」で検索してみてください。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 「頑健推定」で検索しました。今の私にはだいぶ難しい内容ですが、探していたものが何であるかが明確になり、助かりました。 少し時間をかけて勉強します。 また質問させていただくことがあると思いますが、今後ともよろしくお願いします。 ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • bluemtg
  • ベストアンサー率37% (6/16)
回答No.2

ばらつきの大きいデータは棄却することを考えるケースが多いのですが 棄却できることが技術的に納得出来ればそれはそれでよいでしょう。 今回の場合、気温とビールの消費量の関係を把握したいとありますが、 データのばらつきが大きいということは、他にも消費量に影響する 大きい因子があるということではないのでしょうか。 例えば、気温だけではなく、天候・湿度・曜日・景気などの因子も考えられるので これらを含め重回帰分析を試みては如何でしょうか。 より納得できる結果の出ることが、期待されます。 以上、ビールの消費については全くの素人からの意見です。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 >他にも消費量に影響する大きい因子がある おそらくありますが、今回は「一番大きい因子と考えられるもので回帰式出す」というところまでは、この仕事の前提なのです。 重回帰分析というのは、いくつかの因子のうちどれがどのくらい関係するかを示すものでしたっけ?(すいません、一度聞いたことがある程度です。) 書きながら思ったのですが、こういうときは、まずはじめに重回帰分析をして、「気温」を変数に選ぶことの妥当性を検討をすべきだったのかもしれません。業界の感覚で「気温」を選んでしまいました。 ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。
  • takurinta
  • ベストアンサー率71% (64/90)
回答No.1

棄却することを最初に考えない、というのはどうですか。 値が大きいとばらつきが大きい、ということですが、その場合、適当な変数変換で分散の安定化を図ることをまず考えてはどうか、と思います。 対数変換か平方根変換あたりを試す価値はあると思います。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 >棄却することを最初に考えない 私も賛成です。ですが、全データのグラフと共に説明用のきれいなグラフが必要であるらしく、データ改ざんにならない範囲での取捨選択をしようと思います。 「不均一分散の場合には適切な変数変換を行う」という作業を今回初めて知りました。適切なものの選び方について勉強しなければならなそうです。 ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • どうしても解けないので統計学教えてください

    干し草の収穫(kg/10a)と使用した灌漑の給水量(10cc)の関係を調べたところ、以下のようになった。 i ,単収(Yi),気温(Xi),Y^i,u^i,u^2i,Y-Y ̄,(Y-Y ̄)2,X-X ̄,(X-X ̄)2 1 , 1317 200 2 , 1420 300 3 , 1562 400 4 , 1803 500 5 , 2005 600 6 , 2178 700 7 , 2105 800 合計,12390 3500 (1)干し草の収量をY、給水量をXとおいて、回帰式を推定せよ (2)給水量が、450ccのときに、予想される単収を求めよ (3)この回帰式の決定係数を求めよ (4)回帰係数βとαの有意性を5%有意水準で検定せよ (注)Y^2などの^は予測値で、2は二乗です。Y ̄の ̄は平均(バー)です。 見にくくてすみません よろしくお願いします。

  • t検定の棄却域について

    t検定の棄却域について 現在t検定について勉強していまして、演習問題で訳が分からなくなったので質問させていただきます。 問題としては 次のデータは平均値が5.333である集団から抜き出したデータである。このデータの平均が母集団の平均と一致しているかどうか、t検定を用いて有意水準を5%として確かめよ。ただしデータは正規分布に従う。 データ:8,9,6,10,12,8,7,9 というものなのですが実際にこのデータについていろいろ計算してみたところ 平均値8.625、分散3.411、標準偏差1.847、自由度7、t値5.042となりました。 両側検定で棄却域を考えました。 しかしそれの設定の仕方がわかりませんでした。 まずExcelのTINV関数で求めてみたのですが2.365となり、(u<=-2.365 && u>=2.365)が確率5%の領域としました。 これは例題を参考にして求めてみました。 しかし例題と違ってこの問題には正規分布に従うという条件が付いていたので http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/kihon0/basic0.htmを参考に正規分布で考えてみたところ 正規分布で5%になるためにはz=1.96で、さらに問題設定からμ=5.333、σ=1.847としてuを求めると u=8.953となりました。 そのため(u<=-8.953 && u>=8.953)が確率5%の領域としました。 t分布で考えるとt値>棄却域となり 正規分布で考えるとt値<棄却域となってしまいました。 ここで混乱し始めたのですが、問題設定どおり正規分布で考え、帰無仮説を棄却できないという結論(抜きだしたデータの平均値は母集団の平均値と一致しないとは否定できない)でよろしいのでしょうか? 長文となりましたがよろしくお願いします。

  • 棄却検定と有意点tについて

    現在、統計作業でスミルノフの棄却検定を使って外れ値の可能性のあるデータの除外作業を行なっております。 で、 http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs.html​ と http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs-table.html​ を参考に棄却可能か棄却不可かどうかを算出するExcelシートは用意できたのですが、標本の数が例えば792といったスミルノフ・グラッブス検定の有意点の表にはない標本数においてのスミルノフ・グラッブス検定の有意点tをExcelで算出する方法を教えていただけないでしょうか。 よろしくお願いします

  • 棄却域の求め方について

    統計学の問題 多くの人口を持つある都市の中学一年生に平均50点になるようなテストを一斉に行った。その生徒から100人を任意抽出したところ平均点が52.2標準偏差値は10.5だった。(全受験生の得点平均は50点である)という仮説を全受験生の平均点をμとして検定する。 優位水準は0.05におく。 (1)帰無仮説Ho対立説H1をあらわせ。 (2)検定領域の棄却域をもとめよ。 (3)データから検定統計量の実現値をもとめよ。 (3).(4)の検定の結果Hoは棄却されるか? という問題がわからず悩んでいます教えてくださるかたいたらどうぞよろしくお願いします。

  • 統計的仮説検定について

    テストが近く困っています。 例題 5月生まれの小学3年生100人に知能テストを実施し、IQの平均値を算出すると、X=102となった(仮想データ)。ここで同じ知能テストで測定した小学3年生全体のIQは、平均が100、分散が225(標準偏差は15)の正規分布に従うことがわかっているとする。この結果から、5月生まれの3年生の児童のIQの平均は、全国平均と異なっているといえるか? 有意水準は0.05らしいです。 Z=1.33という値は出しましたが、その後、帰無仮説が棄却できるかできないかがわかりません。また、p値はどのように出せばよいのでしょうか。 どなたか教えてください。よろしくお願いします。

  • 棄却検定について教えてください

    正規分布に従うと思われるデータについて,異常値の有無を検定し,棄却する手法がいくつかあるようですが, ディクソン法とはどのような方法なのでしょうか。 スミルノフ・グラブス法との違いも分かるとありがたいのですが・・。

  • 実験値の統計処理-T分布-について

    今、実験値の統計処理を行っています。 同じ試料について一定量をサンプリングし、測定値を理論式に当てはめ、誤差伝播を考えた形x±Δxで実験値を算出しています。何度も測定を行ったので、平均値や分散などを計算したいんですが、処理の方法に困っています。 標本の平均値や分散などの不確かさは、それぞれに誤差伝播式 f:=f(x_i) ⇒ Δf = ( Σ(∂f/∂x_i)^2 Δx_i^2 )^(1/2) を当てはめて計算して良いですか? あと、t分布で母平均を推定したいんですが、標本の平均や分散に不確かさが含まれている場合、どのように計算すれば良いのでしょうか・・・?? 何卒ご教授宜しくお願いします。

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 統計の問題がわかりません。

    統計の問題です。 途中まで解こうと試みましたが解答・解説が無いため不可能でした。 わかる方助けて下さい。 xを二項分布B(400,p)に従う確率変数とし、p^=x/400の分布を正規分布で近似するものとする。 1)p^の分布を近似する正規分布の平均と分散を示せ。 2)x=80の時、pの近似的95%信頼区間を求めよ。 3)仮説H0:p=0,5を対立仮説H1:p>0,5に対して有意水準0,05で検定するときの棄却域を求めよ。 4)3)の検定についてp=0.55の時の検出力の求め方を示せ。 途中まで作成を試みた解答 1) 二項分布なので(np,npq)の平均と分散になると思い、平均:np=400×(x/400)=x 分散:npq=x(400-x)/400 これは間違いでしょうか? 2)で1)を用いるとP(|x-x|<1.96)=0.95??となるような??? よろしくお願いします。

  • 検定方法について

    検定方法について教えてください。 数学は苦手なもので、わかりやすい回答(説明)を頂けたら幸いです。 今、下記の分布が直線か否かを判定しています。  X      Y 314    -1.18 2009    -0.5 3061     0 9296     0.5 10868    1.18 これに対して、回帰直線と回帰式を作成して、その回帰式から理論値を算出して、検定により直線か否かの判定を行なおうとしておりますが、なかなかうまくいきません。 この分布が直線か否か、判別する方法を教えて下さい。いくつかの方法を試したいので複数の方法を教えて頂けると助かります。 よろしくお願いします。。

MG6930での印刷方法
このQ&Aのポイント
  • MG6930でのルーズリーフへの印刷方法が知りたい。
  • MG6930はどのように印刷できるのか、特にルーズリーフへの印刷方法を知りたい。
  • キヤノン製品のMG6930でルーズリーフを簡単に印刷する方法を教えてください。
回答を見る