• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:ヒストグラムから求める第一四分位数と中央値について)

ヒストグラムから求める第一四分位数と中央値について

このQ&Aのポイント
  • ヒストグラムから求める第一四分位数と中央値がわかりません。講義で配られたものの解答の仕方が独特なので理解ができないです。
  • X:11、14、17、20、23、26、29、32、35、38、41、44、47、50、53 F: 2、1、2、1、6、7、11、12、12、17、19、9、0、0、1 (数字見づらくて申し訳ございません。左から順に対応しています) X:週辺りの労働時間 F:人数 です。
  • 私は、階級の幅を5に設定してヒストグラムを作りました。しかし、四分位数は全体の面積が1/4になる点なので25と26番目のデータの平均が四分位点だと思ったのですが...

質問者が選んだベストアンサー

  • ベストアンサー
  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.3

句点が2個続く箇所が解りにくいのだけれど、 表の位置合わせなのでしょうか? だとすると、 データは (X,F) = (11,2), (14,1), (17,2), (20,1), (23,6), (26,7), (29,11), (32,12), (35,12), (38,17), (41,19), (44,9), (47,0), (50,0), (53,1) でよいのかな? F の合計が 100 だから、中央値は 50 番目の値と 51 番目の値の平均です。 X の値が下から 50 番目人も 51 番目の人も X=35 だから、X の中央値は 35。 四分位数については、定義に文献ごとの揺らぎがある(参考↓) http://www.h6.dion.ne.jp/~ooya/Suugaku/Shibunisuu.pdf のですが、概ね下から 25 番目の人の X の値と考えてよく、 今回は X=29 で間違いないでしょう。 勝手に階級の幅 5 を設定して、階級代表値を作ってしまった ことが、間違いの原因でしょうね。 そのオカシな「解答」の言っていることは、解らないなあ。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (3)

回答No.4

No3さんの回答通り、中央値は35です。その上で、そのオカシな解答を想像すると、No2さんの言っていることが関係します。 すなわち、32時間を申告している人が12人で32時間までの累積人数がが42人、35時間を申告している人が12人で35時間までの累積人数が54人です。 ここで、35時間の申告時間というのは代表値で本当は33.5(33と35の中間)から36.5(35と38の中間)時間働いている人の事だとします。 つまり、与えられたデータがすでに3時間刻みのヒストグラムだと考えてみます。すると、中央値は、33.5+8/12*3=35.5 という計算をしているのだと推測できます。 ここで、8=100/2-42(32時間までの累積が42なので全人数100の半分に達するまで残り8人の意味)、12は35時間を申告した人数で区間幅が3時間なので、8/12*3を区間の下限値33.5に足しているわけです。 あくまで推測です。問題を良く読み直してみてください。

全文を見る
すると、全ての回答が全文表示されます。
  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.2

実際のヒストグラムを見ないといけないんだけど, 実は X の値の 11 とか 14 とかが対応する階級の代表値 (中央値) だったりしませんか? もしそうなら, 「27.5という値と33.5という値は対象となる階級内の平均なのでは」は完全に的を外していますよ. この部分は文章では全くわからないので, ヒストグラムで 11 とか 14 とかの書かれている場所から読み取ってください. そして, 「ここで与えられた X は何を意味するのですか」ってのは, つまりこういうことです: 例えば X=29時間に対して F=11人とありますが, これは ・ちょうど 29時間働いた人が 11人いる. すべての人が「3時間で区切られる」ちょうどいい時間だけ働いており, それ以外 (28時間とか 30時間15分とか) の労働時間はあり得ない ということなのですか? それとも, ・働いた時間が「29時間」で代表される人が 11人いる. 28時間働いた人や 30時間15分働いた人もいるかもしれないが, それらはすべて「29時間働いた」ことにする ということなのですか?

mauluru
質問者

補足

回答有難うございます。 実際のヒストグラムは自分で作成するもので無いです。 X=29 f=11というのは、 29時間ぴったり働いている人が11人います。 ということです。 すべての人が「3時間で区切られる」 というのはよくわかりませんが... 28時間とか30時間15分とかの労働時間はあり得ないという条件です。 この部分だけみると労働時間の合計は 一人あたり29時間なので 29×11=319時間ということです。

全文を見る
すると、全ての回答が全文表示されます。
  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.1

まず「私は、階級の幅を5に設定してヒストグラムを作りました」とはどういうことでしょうか? この問題とどのような関係があるのか, さっぱりわかりません. また, 「27.5という値と33.5という値は対象となる階級内の平均なのでは」についてですが ・「対象」とはどういうことですか? ・どうしてこれらの値が「階級内の平均なのでは」と思ったのですか (あるいは, ここで与えられた X は何を意味するのですか)? 実際には, 「ヒストグラムから中央値 (など) を求める」手法はいくつか存在します.

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/median.html
mauluru
質問者

補足

>私は、階級の幅を5に設定してヒストグラムを作りました 問題には関係ありませんが、私自身が解こうと思ったところ 階級の幅が5あたりならきれいなヒストグラムが かけるのではと考えたからです。 >27.5という値と33.5という値は対象となる階級内の平均なのでは? すいませんでした。分かりづらいですよね。 気になさらなくて大丈夫です。 >どうしてこれらの値が「階級内の平均なのでは」と思ったのですか。 答えにそれらしき値があったからです。 >ここで与えられた X は何を意味するのですか X:週辺りの労働時間 と書いたはずなのですが... 今回では11時間働いた人は2人ということです。 同じく14時間働いた人は1人 17時間働いた人は2人です。 いろんなサイトを回りましたが解答が一致しないため質問をしております。 わたしは、この問題に対しての解答方法及び途中式が知りたいのです X:11、14、17、20、23、26、29、32、35、38、41、44、47、50、53 F: 2、、1、、2、1、、6、、7、、11、12、12、17、19、、9、、0、0、、1 (数字見づらくて申し訳ございません。左から順に対応しています) X:週辺りの労働時間 F:人数 です。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 中位数の概念

    「中位数」をExcelで算出していて、疑問が湧いたので質問しています。 中位数とは、「標本の値の順に並べた時の丁度真ん中」にくる値と捉えています。 図でExcelの2行目は、5つの標本に対してMEDIAN関数を使って中位数を出すと、3になるのはわかります。 Excelの3行目も、5つの値のうち3が真ん中の値であることはわかります。 では、標本が偶数の場合(5、6行目)はどうかと試してみたら、図のようになりました。 ここでいう中位数(真ん中)とは、個々の標本の値(そのもの)には存在しない値です。で、小数点がついた中位数をみたとき、それは標本が偶数のとき総数のうち真ん中にくる2つの値を足して2で割ったもの、になっていることに気が付きました。 (5行目だと、(3.0+4.0)/2=3.5、6行目だと(15.9+16.3)/2=16.1) Excelの関数なので、計算上の間違いはないと思いますが、「偶数」標本における中位数とは、数学的にみると上のような考え方(標本が偶数のときは、総数のうち真ん中にくる2つの値を足して2で割ったもの)で合っていますか?

  • ヒストグラムの問題です

    画像の真ん中の問題です。 以下、解説です。 最頻値が8点より、エを除く。また、中央値が8点より、オ、カを除く。アの平均値は8点、イの平均値は8点以上だから、最も適切なのはウ。 この解 説の最頻値と平均値の部分はわかったのですが、中央値の部分の解説がわかりません。 画像にあるヒストグラムのどこをみて、オ、カは中央値が8点ではないと判断できるのでしょうか。

  • (数I)データの分析の問題

    分析の問題です。 A市の月の日ごとの平均気温についてのデータを以下に示す 平均値:15.8℃ 最小値:9.5℃ 第1四分位数:14.1℃ 中央値:16.40℃ 第3四分位数:18.1℃ 最大値:19.8℃ x℃をFで表すと(9/5)x+32(F)となる A市の平均気温をFで表すと、平均値は( )Fとなり、分散の値は25.6となった。したがって、℃で表したときのA市の平均気温の分散は( )である。 この( )の求め方を教えてください。 お願いします。

  • ヒストグラムの傾きを求めたい

    方程式が存在しないデータ(今回はヒストグラム)から ある任意の点での傾きを求める手法を教えてください。 微分の原理である lim = f(x+a) - f(x) / (x+a) - (x) x→a これで考えてしまうと今回の最小単位であるa=1として考えるのが正しいのではないかと思うのですが、これでは任意の点の前後関係、ノイズも含めて考えられていないので、これでいいのかと違和感を感じてしまいます。 よい解決方法を教えて頂けるとありがたいです。 よろしくお願いいたします。

  • 面積分の問題が分かりません

    面積分の問題が分かりません 平面6x+3y+2z=6がx=0 , y=0 , x+y=1で切りとられてできる領域をSとすると Sに関する f(x,y,z)=x+z の面積分の値を求める問題なんですが 求め方がわかりません よろしくお願いします

  • ヒストグラム

    課題でわからない問題があります。 ある試験Aを500人に対して行った。試験点数の分布は正規分布。以下の問に答えよ。 ①試験Aにおいて、Xさんは47点、偏差値47、Yさんは72点、偏差値74.3であった。試験Aの平均点と標準偏差を求めよ。なお計算は四捨五入して小数点第一位まで求めよ。 これ連立方程式で解いても、平均点が9.2とゆうあり得ない数字になるんですけれど。 どなたか分かる方いましたらお願いします。 あと、先ほど協力してくださった方にお礼しないで解答終了してしまいました。fshiguさんとooogoooさんだったかと思います、ありがとございました(><)

  • 正規分布とヒストグラムのグラフの書き方

    エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。 しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。 具体的に書いていきたいと思います。 正規分布になるとほぼ確信しているデータがあります。 サンプル数は50、平均7.8、標準偏差2.9のデータです。 データ区間 頻度 0       0 1       1 2       1 3       2 4       2 5       5 6       6 7       6 8       6 9       8 10      5 11      2 12      3 13      1 14      2 15      0 というデータです。 そして、データ区間に対応する正規分布の値を NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE) を使用して、求めます。 そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。 (ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?) 上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが) また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。 以上の作業で、求めていたグラフは書けました。 視覚的に予想通り正規分布のグラフに近いことが分かりました。 さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。 そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。 度数分布表は以下のようになります。 データ区間 頻度 1       1 3       3 5       7 7       12 9       14 11      7 13      4 15      2 17      0 ここから、前回同様の作業でヒストグラムは容易に描けます。 正規分布のグラフはどのように書けば良いのでしょうか? 前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。 正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。 データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。 すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。 しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。 このようにして得られてグラフに問題は無いでしょうか。 また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。 数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。 どのように考えればよいのでしょうか。 質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。 お手数をおかけしますが、よろしくお願いします。

  • 数学テスト結果、度数分表からの問題

    得点をx、人数をfとする時、10点以上20点未満7人、20~30点8人、30から40点19人、40から50点25人、50から60点37人、60から70点24人、70から80点19人、80から90点8人、90から100点7人の合計154人の数学のテスト結果の度数分布表があるとき、1、平均 2、モード 3、中央値 4、90点以上の確立 以上の4つを途中の計算式も含めての解答を教えてください。わかりにくいと思いますがよろしくお願いします。

  • ヒストグラム、代表値についての問題がわかりません。

    もうすぐ高校生になるものです。 高校から出された課題でどうしてもわからないものがあります。 4月6日から高校が始まってしまうので,助けて下さると本当に嬉しいです。 ○あるクラスの生徒30人に握力の測定をおこない、その結果をヒストグラムに表すと下のように なりました。次の問いに答えなさい。 (画像が添付できないので、下のように表しました。) 15kg以上20kg未満 1人 20kg以上25kg未満 2人 25kg以上30kg未満 7人 30kg以上35kg未満 9人 35kg以上40kg未満 6人 40kg以上45kg未満 4人 45kg以上50kg未満 1人 (1)40kg以上45kg未満の階級の度数を求めなさい。 (2)階級値が32.5kgである階級の相対度数を求めなさい。 ○AとBの2つのグループが,ある植物の葉を8枚ずつとってその葉の長さを調べた所, 次のような結果になりました。下の問いに答えなさい。 A 5.9 4.6 3.6 4.5 3.5 4.2 3.6 4.5 (cm) B 4.2 4.7 4.5 5.0 3.8 4.3 4.1 3.8 (cm) (1)葉の長さのメジアン(中央値)を求めなさい。 (2)葉の長さのモード(最頻値)を求めなさい。 (3)A,Bそれぞれについて、葉の長さの平均値を求めなさい。 解き方もできたらお願いいたします。

  • 微分可能性と連続性

    f(x)=2√xと区間1≦x≦4について、平均値の定理の条件を満たすcの値をもとめよ。 (問題集の解答)f(x)は(1,4)で微分可能で、 f‘(x)=1/√x。 平均値の定理f(4)-f(1)/4-1=f‘(c)を満たす cの値は√c=3/2よって、c=9/4 (疑問) 本問の解答で、f(x)は(1,4)で微分可能ということに触れてはいますが、平均値の定理の条件である1≦x≦4で連続ということに触れておりません。確かに、(1,4)で微分可能ならば(1,4)で連続ですが、1≦x≦4で連続ということにはなりません。 どうして触れていないのでしょうか?