• ベストアンサー

平均を取る時の統計学

質問させてください。 某団体を運営しており、売上を顧客数で割り、顧客単価を出し、翌年度の見込みを立てていました。 時期的な要因も関係する内容なので、月ごとに出し、それを参考にしました。 ところが、(来年度見込み売上が少ない方がメリットのある方)から「統計の基本はトップとボトムを切って平均を取るもんだ」と言われ、その方法でいくと、一番安い人は極端に安い訳でなくブービーとほぼかわらず、一番高い人は、極端に高い訳ではないのですが、2位よりはある程度売上がたっている事から、平均がそれなりに下がってしまいます。 「統計の基本」と言われても、フィギュアとかの採点では聞いた事がありますが、あれは自国贔屓とかが生じないように最大点を切ってるのだと判断しており、納得しにくいです。 極端に一件だけ高いとか安いとかのノイズは排除すべきでしょうが。 これはどういった根拠になりますでしょうか。 また、このような単純な平均を取る際にも正しい数字の取り方なのでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 平均値は代表値の一種で、統計学的には、全てのデータを使うのが定義です。離れたデータがあるとき、データが正規分布をしていないときは、平均値を使うのが間違いで、代表値としては、中央値を利用します。  離れたものを切るのは、社会的な現場の問題です。上や下からなん%で切るか、なら、標準偏差の2倍、から離れているものは、全体の5%なので、異常と判断して切っても、統計学的には反対できません。  フィギァの場合は、統計学的な定義からは外れていますが、社会的な経験から、そのように決定するのは、正しい考えます。統計学的な正しさと、社会的な応用には差異がある、ということです。  あくまでも、例ですが。 ガンの薬を開発した。投与した群の生存は、10±0.01、しない方は9.8±0.02。統計学で検定すれば、人数さえいれば、有意差は出ます。すなわち、「有意差があるので効果あり」と判定しても、統計学では正しいので、誰からも異論はでません。しかし、単位が分であれば、誰も気にしないでしょう。効果あり、と販売しても、「効かない」と、クレーム続出でしょう。  社会的な応用とは、差異があります。フィギアのように、誰もが納得できれば、そして常に同一の処理方法ならOKです。自分の都合で、データを取捨選択することは許されませんが。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (2)

回答No.3

フィギュアなどの採点は、採点対象である競技者ではなく、主として採点を行う人間の恣意性を極力排除するために上下を切り捨てます。出身地が同じ、友好関係にある、個人的な好み、などといった競技とは無関係の要因によって採点が左右されることが多いからです。 また、人間的な恣意性が排除されても、例えば物差しで一定の長さを測定してもばらつきが出るように、測定側に起因した偶然のばらつきが生じます。これも、特定の選手の採点時に大きなばらつきが生じる可能性を排除するため、やはり上下を切り捨てます。二つの意味があるわけですね。目的は「公平さ」です。 さて顧客単価の統計の場合ですが、顧客の中には様々な人間がいるでしょう。ある人が一度に高額を落としていったとしても、年一度あるいは月一度きりしか来ないとします。しかし、年間売り上げの一割も占めるのであれば切り捨てて考えるわけにはいきませんね?  このような顧客の分布は顧客の決心次第なので、それを勘定する側の「見方」の恣意性や、勘定する側に起因した偶然のばらつきというものはありません。あるとすれば勧誘が熱心であった、無かったなどというところでしょうが、フィギアでいえば競技者に採点者が心理的影響をあたえるようなものです。それを考えなければ、統計的には上下を排除するべき理由はありません(特に顧客に働きかけた、などの理由で一時的に高額顧客が来た、などという理由があれば除外して考えることもありえるでしょうし、その働きかけを継続すればどうなる、という予測もできるかもしれません)。 「来年度見込み売上が少ない方がメリットのある方」のアドバイスと言うことであれば、そこには政治的な意味が込められているものと考えるべきで、易々とその手にのるのは考えものです。統計処理を行うのは経営戦略のためのものなので、杓子定規な統計処理の適用は意味がありません。 考えるべきは高額顧客が一定以上の売り上げを落とす理由、月ごとに変動する理由、高額顧客以外の顧客の傾向などなど、すべて顧客側の都合と傾向をどう判断するかなのではないでしょうか。

全文を見る
すると、全ての回答が全文表示されます。
  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

確かに「上の方と下の方は例外として切り捨て, 残った部分で平均をとる」というのはしばしばあるんだけど, これは「外乱 (ノイズ) が結果に影響している」ことが前提です. 例えば「平均気温」なんてのは気象現象によってかなり大きく変動するので, 「外乱が入っている」と考えて「高すぎる値」や「低すぎる値」を排除しています. ということで, 「ノイズがどのくらい影響しているのかによって判断する」ことが必要ではないかと思います. つまり, トップやボトムが毎月異なる (そして順位も月により変動が激しい) のなら「例外値」として考えることもできるでしょう. 一方, 「トップの人はほぼ毎月トップ (あるいはそれに近い成績), ボトムの人はほぼ毎月ボトム (あるいはそれに近い成績)」ということだと, ちょっと切るのは恣意的かなぁという気がします. ちなみに「一番安い人は極端に安い訳でなくブービーとほぼかわらず、一番高い人は、極端に高い訳ではないのですが、2位よりはある程度売上がたっている」というのはなぜかよくあることで, 典型的には「指数分布」とみなせると思います.

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 平均値の出し方

    例えばお店の日々の売上の平均値を出したいときに、 極端に大きな値や極端に小さな値は除いて平均を出したい ことがあるとがあると思いますが、数学的に、または統計学的に そういった値を出す方法はありますか?。あるのでしたらお教え下さい。 よろしくお願いします。

  • 平均寿命世界ランキングについて

    2021年度の平均寿命世界ランキングは(小数点以下省略) 男性1位 スイス 男性2位 日本(81才) 女性1位 日本(87才) 女性2位 韓国 最下位 レソト(アフリカ大陸最南端) 50才位 (質問) 1、2018年度のランキング1位は男女共に香港でしたが、2021年度の統計では、WHO及び、厚生労働省は「香港」を除外しています。理由にどのようなことが考えられますでしょうか 2、同じアフリカ大陸の「チュニジア、アルジェリア」は77才で、レソトとは27年の開きがあります。レソトが極端に平均寿命が短い理由にどのようなことが考えられますでしょうか 教授下さいますよう、お願い申し上げます。

  • 消費税の課税対象について

    個人事業者ですが、2008年度に課税売上げが1000万円を越えたので、 2010年度から消費税の課税事業者になるかと思います。 その場合、2010年の売上げに対して課税されると思いますが、 その年度の売上げが極端に少なく、例えば課税売上げ300万円だったとすれば、300万円に対してのみ消費税を納めるという認識で良いのでしょうか。 そして2011年度は再び非課税事業者に戻るのでしょうか。 まさか2008年度の売上げに対する消費税を2010年度に納めるわけではないですよね? 初歩的な質問かもしれませんが、どうぞよろしくおねがいいたします。

  • 北海道の平均年収が高いのはなぜ?

     厚生労働省の資料(賃金構造基本統計調査)で、都道府県ごとの平均年収を見ていて気になりました。  北海道は全国24位、435万円です。これは東北地方トップの宮城(23位、436万)とほぼ同じです。 ネットでは「北海道はずっと不況で給料が安い」と言われることが多いのですが、意外に高くて驚きました。東北地方の青森(46位、352万)や山形(43位、363万)と同じくらいだと思っていたのですが、全国でも真ん中あたりで、特に所得が低いわけではないようです。  「北海道は給料が安い」という嘘がなぜ溢れているのでしょうか?

  • 異常値の排除方法

    ある特定の業界の財務データを集計する作業を行っています。 毎年毎年実施する統計業務です。 サンプルサイズは約5万社で、その決算書のデータを入力し、集計します。 「売上高経常利益率」など多くの財務比率が計算できるのですが、異常値の排除の仕方で悩んでいます。以下いくつか質問です。 案としては、 1.いわゆる3シグマチェックで、3シグマを超えているデータを排除 2.上限値・下限値を設定し、超えたものは排除 3.トリム平均(上位5%、下位5%を排除した上で計算) を考えています。 私としては、 1の「3シグマ」は仮平均・仮標準偏差などを経なければならないので、計算が複雑 2の「上限値・下限値」は、経済環境によっては、上限値・下限値を超える企業が多くなる年があり、サンプルサイズに影響を与えるし、上限値・下限値を見直したら経年比較ができなくなる。 3の「トリム平均」は、上限値・下限値をその年により自動的に変更する効果を持つため、経済環境の変化に柔軟に対応できる。また、ルールが簡単なため、理解しやすい。 と考え、「3」でいこうと思っています。統計学的に問題はないでしょうか? また、「トリム平均」を採用するとして、上位及び下位の何%を排除するのが一般的でしょうか? もう一つ、いずれの排除方法であれ、ある特定の財務比率で「異常」扱いとなった企業のデータは、他の財務比率において使用できるでしょうか? つまり、財務諸表は、個々の数値が独立しているわけではなく、他の項目とも影響を与え合って、全体として整合性が取れているものです。1つでも異常データとみなした以上、他の項目が正常範囲内にあるとしても、異常データの影響を受けている(あるいは正常データが影響を与えた結果、異常データとなっている)可能性があるため、もうその財務データはすべて使えない、という考え方と、 例えば「トリム平均」による正常、異常の判断は、あくまで相対的なものであって、たまたまある指標が全体の上位又は下位に属しているからといって、財務諸表全体として矛盾するわけではなく、他の指標は他の指標として集計に入れるべき、という考え方もあると思います。 また、全排除してしまうと、連鎖的にサンプルサイズが減るおそれがあり、計算方法も「仮トリム」で排除後、「本トリム」で正式な平均値を取り直すなど、複雑化するおそれがある、と私は思っています。 なるべく統計利用者にとって、簡単で理解しやすい集計方法にしたいと思っていますが、統計学的には、どういう形が適切なのでしょうか?

  • カイ2乗検定を使ってよいか。

     よろしくお願いいたします。ソフトバンククリエイティブという会社から出ている「仕事に役立つExcel 統計解析」という本を見ながら勉強している最中の者です。  データ分布を検定する節に次のような例が掲載されています。 「日用雑貨品の半年間の売り上げ実績をもとに月別売り上げに差があるかどうか検定する。(モデルデータは4月の売り上げが突出している。)なお,日用品であるので理論的には月ごとの売り上げに差はないとする。(=期待値は,6ヶ月間の平均値)」  以上の例をもとにカイ2乗検定(5%,自由度5)を行っています。  そこで質問です。 1 入学直後に行ったテストの平均点が今年度も含めて10年分あったとします。今年度入学してきた生徒と差があるかどうかをカイ二乗検定で検定することは妥当でしょうか。(同じ学校なので理論的には同質の生徒が入学してくると仮定し,期待値は10年分の平均を使うつもりです。) 2 私が参考にしている本だとカイ二乗検定の前節に書いてあるのですが,t検定(平均値の差の検定)との違いが分かりません。例えば,今年度を除く過去9年分の平均点の平均とその標準偏差を求めておき, (過去9年分の平均±自由度8のt値×標準誤差)の範囲に今年度の平均が収まるかどうかを見るというのは数学的に妥当でしょうか。 3 そもそも過去9年間の平均点と今年度の平均点及び今年度の標準偏差のみから過去9年間の生徒と今年度の生徒に差がある(若しくはない)ことを言うことはできるのでしょうか。  なにしろ初心者ですので,要領を得ない質問になってしまいがちですがよろしくお願いします。

  • 行をまとめる計算式

    エクセルで以下のような表があるとします。 顧客 商品名 販売数量 コスト 売単価 売上 ああ かかか 10 200 300 3000 ああ ききき 10 300 400 4000 いい かかか 10 200 300 3000 いい かかか 10 200 300 3000 いい ききき 10 300 400 4000 うう かかか 10 200 300 3000 うう ききき 10 300 400 4000 うう ききき 10 300 400 4000 うう ききき 10 300 400 4000 この表を以下のようにするにはどうしたらいいでしょうか? 顧客 商品名 販売数量 コスト 売単価 売上 ああ かかか 10 200 300 3000 ああ ききき 10 300 400 4000 いい かかか 20 200 600 6000 いい ききき 10 300 400 4000 うう かかか 10 200 300 3000 うう ききき 30 300 400 12000 つまり、顧客と商品名が同一の行は、販売数量と売上を合計して一行にまとめてしまいたいと考えています。 上記の表からは分からないようになっていますが、売単価は基本的に顧客ごとに違います。コストは同じ顧客の中でも違うことがあり、顧客と商品名が同一の行があった場合、その平均値を出したいと考えています。 一番目の表を元に別シートに二番目の表を作成したいと考えています。 二番目の表のそれぞれの列にどのような計算式を入れればいいでしょうか? ご教示お願いいたします。

  • アンケートの統計をどうするか

    こんにちは。  私は今、シティホテルでアルバイトをしています。 そのホテルは築10年を過ぎ、綺麗ではなくなってきています。(壊れた場所も修繕していないなど・・・)  婚礼の数も激減し2ヶ月に1件位です。  私は、婚礼の数を増やすのには改築などの処置が絶対だと思います。それと、センスの良さ。 しかし、アルバイトの私が言ったからと言って、どうになる訳でもありません。  ですから、今在学している大学の数十人~数百人からデータを取り、上司に話してみようと思うのです。  私は一応心理学科に在籍しているので、ただ平均をとるだけではいけなのは、何となく分かります。 しかし、1年生の時に学んだSDとか、X検定とかはスッカリ忘れてしまっています。 とりたいアンケートの形は A、彼女の望み通りに披露宴の見積もりをしたら、予算を大幅にオーバーしました。あなたならどうしますか? 1、新婚旅行の費用を回してでも、見積もりどおりにする 2、親にお金を借りる 3、結婚を先延ばしにして貯金する 4、彼女に何かを諦める様にいう 5、その他() こんな感じです。 私の儚い記憶では、差があったとしてその差に信憑性があるかどうかを計算しなければいけない気がします。 一応基本的な統計の教科書は持っていますが、どれを使えばいいのか?が分かりません。 そして、私は高校で、Σ等、必要なことを習っていないのです。どう計算しても良いのかも分かりません。 SPSSは使えますが、使い方もサッパリです。 まず何をすれば良いのか・・・アドバイスを下さい  

  • 住宅・土地統計調査は、絶対に協力しないといけないの?

    どうも、H15年度の住宅・土地統計調査にあたってしまったようで、 (宝くじとか、そういうのには、全然当たったことないのに、こんなのはよく当たる) 係員らしき人がやってきているのですが、基本的に、身内の者以外はインターホンに出ない、 (身内がくるときは、事前に電話連絡あるのでわかるんです) 基本的に、相手が誰であろうが、アンケートたぐいの物には一切協力しないという方針をしております。 個人情報が漏れまくりの昨今、そこまで徹底してもまだまだ足りないくらいなのですが、 ちなみに、この統計調査の内容は、他人には一切漏らさないとパンフに書かれてありますが、 じゃあ、例えば、係員が帰宅中に、バッグ盗難や不慮の事故などあった時など、 万が一、人為的に調査内容がどっかに漏れるって可能性はあるわけですし、 その場合の代償はどう考えてるのでしょうかねぇ。何も考えてないと思うけど。 ちなみに「統計法」という法律で第3者には絶対漏らしませんと書かれてありましたが、 お気軽に法改正する・できる今の世の中の政治ですから、 万が一、第3者に漏れた場合でも、適当な理由つけてごまかすことなど幾らでもできます。 なので、「ご理解のうえ、ご協力を」とパンフに書かれていますが、 絶対に「理解できないので、協力できない」のですが、 その旨を伝えて追い返してもいいものなのでしょうか? だいたい、協力してほしいなら、それなりのモノを・・・ねぇ!? 今の世の中、タダで情報提供してくれなんて虫が良すぎるって感じですが・・・。

  • ラグビーワールドカップで日本三連勝とか騒いでいます

    ラグビーワールドカップで日本三連勝とか騒いでいますが、こう言っては何ですが、ラグビーなんて日本ではチョーマイナーなスポーツではないですか。 それが自国開催で三連勝となったらJapan代表凄い凄いってw ラグビーのルールも選手名も知らないニワカなファンがマスコミに煽られてワーキャー騒いでいる姿は側から見たら滑稽でもありますよ。 私は馬鹿にしている訳でも応援するなとも言っている訳でもありません。 日本人の熱しやすく冷めやすい性質に嫌気がさしているのです。 私のこの発言でハッと我に返り、極端なJapanびいきではなく客観的な目で試合を観てもらえたら幸いです。 どうでしょうか皆さん?