• ベストアンサー

代表値の問題について

代表値の問題で悩んでいます(ToT;) 資料の分布に大きなかたよりがある場合、 「中央値」と「最頻値」のどちらが適切かという問題です。 正解は「中央値」となっています。 どうして「最頻値」ではいけないのでしょうか? 「平均値」が適切でない理由はいろいろなサイトに載っていたのですが、 「最頻値」が適切でない理由はどこにも載っていませんでした。 分かる方回答よろしくお願いしますm(_ _)m

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

#2です。 お礼、ありがとうございました。 ご質問者が#1さんの補足に書かれたデータが、まさに「べき分布」です。 これが、パン屋でなく洋服店なら、 冷やかしの客がいるから購入数0点が最も多く、 「本日の1客あたりの売上げ0点」となってしまいますね。 ただ、最頻値(モード:洋服のモードと同じ語源なんですよ)は、 #3さんが言われているように、情報量が少ないというか、「鈍感」な値です。 中央値(メディアン:旧JISではメジアンですが、今はメディアンです)も同じです。 もし、その日、ハリウッドスターのような大金持ちが来店して、 100点1000万円の買い物をしてくれても、 最頻値「本日の1客あたりの売上げ0点」 中央値「本日の1客あたりの売上げ2点」 と変化しません。 群の代表となる値は、 このような変化点を発見したいのか、あるいは、 多くの人が納得できる(所得のような)値にしたいのか、 で、選択する必要がありますね。

kyousei35
質問者

お礼

とても分かりやすく、やさしい説明だったのでベストアンサーに選ばせていただきました(^^)/ みなさんありがとうございました!!

その他の回答 (4)

回答No.5

代表値という言葉から想像つくように、そこにはある集団の特徴を簡単に表現したいという意図が込められています。この意識化においては、1つの集団だけ考えても意味はないのです。ある集団と別のある集団をある事柄において比較したいという意図です。 例えば、日本人とアメリカ人ではどっちが背が高いのだろう。個人どうしなら答えは正しくでますが、集団と集団を比べるわけですから簡単じゃありません。なので、代表値という概念が考えられたのでしょう。よく知られた平均等々。でも、その集団で最も背の高い人を代表値にしたってかまわないと思いますよ。 繰り返しますが、何が適切な代表値かはその関心事(比較したいもの)によるというしかありません。 パン屋の例で一人当たりのパンの購入数の多い少ないに関心がある場合、パン屋Aとパン屋Bを比べてみたい。どんな代表値にすれば良い?30人やってきて買ったのが10人とすれば、中央値はなに?0個でしょう。最頻値はなに?0個でしょう。 統計といえば確率論をベースにした推測統計を議論することが多いようですが、記述統計の世界もあるわけです。(要するにデータの要約ですね) ではデータが名義尺度(数値でないデータ)No3さんの上げた旅行の計画のような場合、代表値は? 平均値もなければ中央値もありませんしね。なので、グループの行き先の代表値を選ぶとすると代表=最頻値=東京とするのもありでしょうね。別のグループの代表値=最頻値=京都&ハワイになったらどうするのでしょう? う~ん難しいね。いずれにしても何が代表値として適切かなんて一概に答えられません。(私には)

kyousei35
質問者

お礼

細かい説明ありがとうございます!

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

 情報量は、平均値>中央値>最頻値になるので。  最頻値は、どれが多いかで、どの程度多いか、定量的な扱いはしにくいか、あまり意味が無い。下の例では、「東京」「京都」「ハワイ」は、本質がことなるので(東京≠京都)、単純な比較は意味が無い。最頻値が東京になったからといって、東京が良いわけでもないし、別の集団で調査すれば結果が異なるかも。  中央値は、10万円と100万円は、数値が違うだけで、同じ万札を使うので比較が可能。誰が考えても、どこで調査しても10万円の方が100万円より少ない 手前味噌ですが、ご参考までに。  http://okwave.jp/qa/q7883537.html

kyousei35
質問者

お礼

丁寧な回答ありがとうございました! 具体的な説明で分かりやすかったです^^

回答No.2

企業でSQCを推進する立場の者です。 まず、「資料」ではなく「試料」ですね。 正解が最頻値になっていない理由は、 現在の非対称分布が、「どこかに山の頂がある分布と明確に言っていない」からです。 もちろん、全国の世帯の所得とかいう場合は「最頻値」の方が適切です。 では、今、解答としてなぜ不適切かというと、 べき分布のような分布があるからです。 たとえば、毎分0秒に車の速度を計測したとしましょう。 すると、時速0km/hが最頻で、だんだん度数が減じていく分布となります。 このとき、分布を代表する値が0km/hではまずいのです。 #1さんの、多峰だからというのは理由にはなりません。 多峰であれば、まず混合状態を分離することから行わなければなりません。 多峰のどれかが群の代表というのは、あまりにも統計の常識から外れています。 たとえば所得なら、1人世帯、共働き、子供の扶養あり、 で「層別」して最頻値を求めるべきでしょうね。

kyousei35
質問者

お礼

ご指摘と丁寧な答えありがとうございました^^ とても助かりました!

回答No.1

最頻値は複数ある場合があるからが理由のひとつなのでしょう。 が、どんなデータをどんな目的で統計処理しようとしているのかが分からないと答えはでないのでは?仮に分かったとしてもどちらが適切かは一概に言えないかと思いますがね。 「適切さ」をきちっと(数学的に)定義しないと(数学的な)答えはでません。

kyousei35
質問者

補足

回答ありがとうございます! そして言葉不足ですみませんでしたm(_ _)m パン屋での、1人あたりのパンの購入個数のデータです。 1個・・・29人 2個・・・24人 3個・・・12人 4個・・・11人 5個・・・6人 6個・・・6人 7個・・・5人 8個・・・8人 合計・・・100人 上の結果の場合、代表値に適切なものはどちらかというものです。 回答よろしくお願いします!

関連するQ&A

  • Excelの問題が分からないので教えてください。

    図は,社会データ分析入門で実施した食生活アンケートの結果の得点分布をヒストグラムに示したものである。グラフ中の青字は,各得点における人数である。 このデータについては,平均値は???,中央値は???,最頻値???である。 ???の部分に入る数字(小数点第一位まで)は何ですか?教科書通りにやっても不正解で困っています。

  • 最頻値の実際の資料での使い方を教えてください

    統計学の基礎を学んでいるのですが、最頻値を使う場合がいまいちわかりません。 中央値は平均値と同じく、資料を半分に分けるので順位を求める場合に使えるのはわかりまが、最頻値は何の基準にするのでしょうか?

  • ヒストグラムの問題です

    画像の真ん中の問題です。 以下、解説です。 最頻値が8点より、エを除く。また、中央値が8点より、オ、カを除く。アの平均値は8点、イの平均値は8点以上だから、最も適切なのはウ。 この解 説の最頻値と平均値の部分はわかったのですが、中央値の部分の解説がわかりません。 画像にあるヒストグラムのどこをみて、オ、カは中央値が8点ではないと判断できるのでしょうか。

  • 資料の散らばりと代表値の問題が分からないので教えていただければ嬉しいで

    資料の散らばりと代表値の問題が分からないので教えていただければ嬉しいです。 今からその分からない問題を書きます。 2.下の表は、あるクラスの生徒の昨日の家庭学習時間の度数分布表である。次の問いに答えなさい。   階級    度数  相対度数    以上 未満          (1)60分以上90分未満の生徒の人数を求めなさい。    0~30      0.1      30~60 12       (2)このクラスの生徒の人数を求めなさい。   60~90      0.4  90~120 4        (3)このクラスの生徒の昨日の家庭学習時間の平均値を求めなさい 120~150      0.1 3.男子6人、女子4人のテストの平均が67点であった。男子6人の平均は65点である時、女子4人の平均を求めなさい。  以上の問題が分かりません。また、解き方や、解説なども書いていただけると幸いです。  回答お願いします。

  • 統計の代表値から正規分布かどうかを知る

    タイトル通りですが、統計の代表値(平均 中央値 最大最小値 尖度 歪度)からその集団のデータが正規分布しているかどうかをしるにはどうしたらよいでしょうか??

  • 【統計】代表値はどれを使えばよいでしょうか?

    検定をした場合の代表値についてです。 各グループの代表値はt検定の場合「平均値±SD」で示し、Mann-Whitney検定は2群の中央値の検定なので、「中央値±四分位点」で示しますよね。 では、対照群vs多群のDunnetやSteel検定、多群総当りのSteel-Dwass検定などの場合、各グループの代表値は「平均値±SD」が相応しいでしょうか?それとも「中央値±四分位点」?? ご存知の方お願いします。

  • 統計学をわかりやすく

    統計学の平均値、中央値、最頻値、分散、標準偏差のことがわかりやすく解説されているサイトってどなたか知りませんか?

  • 統計学の問題の意味

    いまテスト勉強しているのですがわかる方がいらしたら回答してくれせんか?自分では問題の文章では 独立でかつ同一に分布の辺がよく理解できません。 5つの選択肢がある100題の選択問題がある。正解はひとつで、正解するごとに1ポイント、間違えると0.25ポイント失う。60人の受験者がいる。それぞれの受験者がそれぞれの問題に正解する確率は、独立で且つ同一に分布しているとする。90%信頼区間を求めよ。 という問題です。 

  • ヒストグラム

    研究者です。 電気泳動で細胞の末端のDNAの長さを調べております。 この場合、正規分布からは少し外れます。 ヒストグラムで長さの分布をプロットして、A群とB群で差が有るかどうかを検査したいのですが、平均値と中央値、最頻値で比較するのが妥当なのでしょうか? この方法ですと同じ実験を3回以上繰り返して、P値を求めなければなりません。 上司によると別の方法が有るらしいのですが、見つかりません。 ご教授をよろしくお願い致します。

  • 代表値を選択する際の基準について

    データの分析を行っていたところ,同一データの平均値が中央値より倍以上大きくなりました.この原因として,外れ値の存在があったため,代表値には中央値を用い,ノンパラメトリックな方法で分析を進めようと考えました. そこで,代表値に中央値を選んだ理由を,数値的な基準を用いて説明したいと思うのですが,その基準にはどのようなものがあるのでしょうか. 本などを読むと,歪度などで代表値を選択することが書いているのですが,具体的な数値などの基準が分かりません. そこで,代表値を選択する際の具体的な基準について教えていただければと思います.また,外れ値が結果に影響を及ぼしているという基準も,もしあれば教えていただきたく思います. よろしくお願いいたします.