• ベストアンサー

分散とは何ですか?

友達の大学の問題で、エクセルで身長の分散を求めなさいという宿題がありました。身長のデータが20個ぐらいあり、分散を表示させるセルに求めるという問題です。(ちょっと見ただけなので、この程度しか情報がなく申し訳ありません。どうも身長と体重などの相関関係を調べているようです。) 相談されたのですが、よくわかりません。分散というのは何なのでしょうか?あと標準偏差、中央値、最頻値、母集団という言葉もあり、言葉の意味が全くわかりません。どなたかわかりやすく言葉の意味を説明していただけたらと思います。 どうぞよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、 分散 相関関係 標準偏差 中央値 最頻値 母集団 はあると思います (全部を確認してはいません)。 ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言うのが統計学です。 ここで、母集団の Data (日本人 20 歳男子全員の身長) が得られたと仮定して、例えば 5 cm 刻みで、人数を調べ、この人数を棒グラフで示します、次に 2.5 cm 刻みのようにやったとき、左右対称で、中央が一番高い山がかければ、これを正規分布といいます。あくまでも、母集団が、正規分布しているときに、分散は意味を持ちます。この正規分布で、一番高いところになる値を 「真の値」 その山の広がり具合なり、とがり具合を示すものが不偏分散になります。 標本集団では、この 「真の値」 がわからず、平均値で代用しますし、平均値と Data から算出される標本分散 (通常分散と言っているものはこちらです) で、その集団の特性を評価します。 中央値は、Data を順に並べたとき、真ん中になる数値です。例えば、 1、2、3、4、5 であれば、3 1、2、3、4、4、5 であれば、中央がないので、真ん中の 2 個 3 と 4 の間で 3.5 最頻値は観察個数が一番大きい値、後者で 4 になります。 ここで例えば、 1、2、2、2、2、3、3、3、3、3、4、4、4、4、4、4、5、6、7 であれば、中央値は 3、最頻値は 4 になります。同時にここでは、観察個数は、 1 1 2 4 3 5 4 6 5 1 6 1 7 1 で、x-軸に 1- 7、y-軸に個数を書いてみると、左右対称の山にはなりませんね。この場合は、平均値、分散を求めても余り意味はありません。 統計学の簡単な教科書を一読することをお薦めします。この場では、きれいな説明はちょっとしがたいので。また Excel の統計関数には、不偏分散と標本分散の両方がありますが、自分で間違いなく使えないようでは、大学生であれば、ちょっと問題だと思います。意味もわからず計算結果だけと言うのは、学問をするものの態度ではありません。

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/lecind.html
itteacher
質問者

お礼

お礼が遅くなり申し訳ありません。わかりやすい解説ありがとうございました。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (3)

  • papanori
  • ベストアンサー率23% (3/13)
回答No.4

例を挙げて説明しますと、一組の数値群(2 3 5 5 5 7 8 9 10 100) 平均値は数値群の合計値(154)を個数(10)個で割った値(15.4)です。 中央値は数値群の真ん中の値、例では、(10)個の数値群の真ん中は5番目(5)と6番目(7)の間の数値ですので、(5+7)/2=6です。例では10以下の数値9個と、100という極端に大きな数値がありますが、100が無い場合の平均値は54/9=6で、100がある場合の平均値(15.4)とはかなり違います。このように、極端な値がある場合、平均値より中央値のほうが数値群の傾向を表しているということがあります。 最頻値は最も出現回数が多い数値で、3個ある(5)です。 偏差は個々の数値が平均値からどのくらい離れているかを表します。例では(-13.4 -12.4 -10.4 -10.4 -10.4 -8.4 -7.4 -6.4 -5.4 84.6)で、偏差は負の数が含まれることがあるため、数的処理上、偏差の2乗の数値が良く使われます。 分散は偏差の2乗和(8010.4)を数値群の個数(10)で割った値(801.04) 標準偏差は、分散の平方根(28.3)です。 分散は平均値からのばらつきを示しますので、値が大きければ、分布が大きく、小さければ分布が平均値付近に集中していることを示します。 母集団は分析対象とされる集団で、あるクラスのテストの平均点が知りたいときにはクラスのみんなが母集団となりますが、日本人の血液型の分布を知りたいときには、母集団となる日本人全員から血液型の調査するのはきわめて困難であるため、数百人あるいは数千人の人たち(標本)の分布を調べて、そこから日本人全体(母集団)の分布を推測することになります。 これらは統計学の基礎となりますので、正確に知りたければ、『統計学入門』という類の本を見てください。

itteacher
質問者

お礼

お礼が遅くなり申し訳ありません。詳しい解説ありがとうございます。大変勉強になりました。

全文を見る
すると、全ての回答が全文表示されます。
  • marbin
  • ベストアンサー率27% (636/2290)
回答No.2

#1です。 分散、ってありましたね。失礼しました。 ↓が参考になりそうです。 http://www.kde.ics.tut.ac.jp/~aono/2004/pc-kadai1-input.pdf

全文を見る
すると、全ての回答が全文表示されます。
  • marbin
  • ベストアンサー率27% (636/2290)
回答No.1

分布、の見間違いではありませんか? 勘違いでしたらごめんなさい。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 統計の質問

    (1)ある集団10人を無作為に抽出して身長(cm)と体重(kg)を測定したところ次のようになった。 身長:平均160.3 標準偏差8.5  体重:平均58.4 標準偏差9.0  身長と体重の共分散66.5 ただし(身長,体重)は二次元正規分布に従う。 問。身長と体重の間に相関があるかどうか有効水準5%以内で検定を行え。 (2)ある集団の身長は平均163.2cm、標準偏差7.5cmの正規分布に従うとする。 問。この集団100人の平均身長が163.2cmから2cm以上異なる確率を求めよ。 問。この集団から100人の組を二つ作り、それぞれA、Bとする。AとBの平均身長の差が2cm以内である確率を求めよ。

  • 統計学をわかりやすく

    統計学の平均値、中央値、最頻値、分散、標準偏差のことがわかりやすく解説されているサイトってどなたか知りませんか?

  • 基本的なことから分かりません。助けてください。

    身長と体重を10づつ入力してそれぞれの平均、分散、標準偏差、 身長と体重の共分散、相関係数を求めるプログラミングを VisualBasicの分岐処理、繰り返し処理、配列の概念を利用して作りたいのですが 全然分かりません。教えてください。お願いします。

  • 共分散と相関係数について

    ファイナンス(証券投資)の勉強をしているのですが、共分散と相関関数でどうしても理解できない部分があるので、こちらのカテゴリで質問させて頂きます。 1.具体例(前提) A証券とB証券のポートフォリオ効果を調べるために、両者の相関性を計算します。 A証券の環境変化(期待収益率=平均収益率:20%*0.4+10%*0.4+5%×0.2=13%) 為替相場:円高→確率:0.4→収益率:20%→偏差:7% 為替相場:不変→確率:0.4→収益率:10%→偏差:-3% 為替相場:円安→確率:0.2→収益率:5%→偏差:-8% A証券の標準偏差:7*7*0.4+(-3)*(-3)*0.4+(-8)*(-8)*0.2の平方根=6% B証券の環境変化(期待収益率=6%) 為替相場:円高→確率:0.4→収益率:3%→偏差:-3% 為替相場:不変→確率:0.4→収益率:7%→偏差:1% 為替相場:円安→確率:0.2→収益率:10%→偏差:4% B証券の標準偏差:≒2.68% 2.質問 (1)共分散について この場合に、共分散は、Σ(A証券の偏差×B証券の偏差×確率)で求められると記述があります。 A証券の偏差×B証券の偏差の平均をとったものだと思います。 上述の例では、共分散は、結果的に-16になります。 この際、共分散の数値が正(+)である場合は、同方向、負(-)である場合は、逆方向の相関性があるというのは、掛け算の性質から理解できます。 その上で、共分散の絶対値は、2つの証券の相関性の程度であって、絶対的が大きい程、相関性は高いと記述がありまして、ここで理解できずにいます。 なぜ、両者の偏差を掛け合わせることで、両者の相関性の程度が計算できるのでしょうか? 例えば、一定条件のA証券の偏差が1%、B証券の偏差が2%の場合は、1*2=2と計算されますが、仮にA証券の偏差が19%、B証券の偏差が20%の場合は、19*20=380になります。 相関性というならば、両者は同方向に1%しか差がないにもかかわらず、相関性として計算される数値は雲泥の差です。 この点についてご教示頂ければと思います。 (2)相関係数について 相関係数は、共分散/(A証券の標準偏差×B証券の標準偏差)で求められると記述されています。 上記の例の場合は、-16/6%*2.68=-0.995と非常に高い負の相関性があります。 そしてこの式は、共分散(A証券の偏差×B証券の偏差の平均)を両証券の標準偏差(偏差の正数値の平均)で割ったもので、これが-1~1の間で推移することは理解できます。 ただ、上記の共分散と同様に、両者の偏差(及び標準偏差)を掛け合わせることで、両者の相関性の程度が計算できる理屈がわかりません。 この点についてご教示頂けないでしょうか? ご回答よろしくお願い致します。

  • 助けてください!

    身長と体重を10づつ入力してそれぞれの平均、分散、標準偏差、 身長と体重の共分散、相関係数を求めるプログラミングを VisualBasicの分岐処理、繰り返し処理、配列の概念を利用して作りたいのですが 全然分かりません。教えてください。お願いします。 フォームはすでに出来ています。 身長はtext1をコピーして text1(0) text1(1) text1(2) text1(3) text1(4) text1(5) text1(6) text(7)text(8) text(9)というように配列を使っています。 体重もtext2で同じようになっています。 command1をクリックすると、 身長の平均をtext3、    体重の平均をtext4、    分散をtext5、       分散をtext6、    標準偏差をtext7      標準偏差をtext8、    共分散をtext9 相関係数をtext10 に表示できる     具体的なプログラムを教えてください。 Private sub command1_click End sub の空欄に入力する内容を教えてください。

  • 分散と標準偏差

    ある母集団の平均がμ、分散がσ^2、標準偏差がσと分かっているとします。 このとき、母集団からn個抜き出したときの合計値を求める処理を 繰り返したときの平均μ'、分散σ^2'、標準偏差はσ'について知りたいです。 以前お聞きしたときに、nが大きければ μ'=μ×n σ^2'=σ^2×n σ'=σ×√n だという回答があったのですが、 nがどれくらい大きければこのような結果になるのでしょうか? 10個ではだめですか? また、平均はn倍にすればいいのはなんとなく分かるのですが、 分散もn倍でいい理由が分かりません。 お教えください。 何卒よろしくお願いいたします。

  • 相関係数を使ったサンプルデータを生成する方法

    相関係数を使ったサンプルデータを生成する方法を教えて下さい。 変数Aの中央値、標準偏差と変数Bの中央値、標準偏差、相関係数・・・リンク先Excelのピンクのセル を入力すると、 変数Bのサンプルデータ・・・リンク先Excelの水色のセル が出力されるようなものをExcelで作れたらと思います。 宜しくお願いします。 http://exp026.dataweb.ne.jp/Excel/sample.xls

  • 共分散と相関係数の、単位による影響

    統計学の次のような問題について質問があります。 「ゾウの体重(トン)と体高(m)を調べ、共分散が2.56、相関係数が 0.789という数値が得られた。もし体重をkg、体高をcmで計算し直すと 共分散と相関係数はどのような値をとるか?」 といったものです。 相関係数はそのまま0.789で良いと思うのですが、共分散の計算が わかりません。2.56×1000×100 =256000で良いのでしょうか? よろしくお願いいたします。

  • 母分散と標本分散

    母分散と標本分散の違いがいまひとつわかりません。 母分散は母集団の分散、標本分散は標本の分散ということは文字通りですが、分散(偏差?)σ^2として、なぜ標本分散はσ^2/nで表されるのでしょうか?nで割る理由はあるのでしょうか? もしよければ、違いが分かるような典型的な例題(文章問題)等も教えてください。

  • 標準体重の求め方

    標準体重を求める課題が出ました。その元になる母集団のデータは後ほど出されるそうなのですが、95%以上の信頼のおける数字を出す方法を考えるというものです。ネットや本などで標準偏差や分散なども勉強してみましたが要領を得ません。と言うよりも、自分の欲しい情報にたどり着けません。95%という根拠もどうやって出したらいいものか。算術的平均体重前後に標準偏差の2倍を加減すれば95%の信頼度になるそうなのですが、それでは標準体重に幅ができてしまって、標準にはなり得ません。最頻値というものも標準とは言えないような気がします。初心者どころか、学校では習ったことのないことでもあり、急ぎの仕事なのに時間ばかりが過ぎていきます。初めてかかわる統計学にきっかけが掴めないでいます。数学のカテゴリーの中では低レベルかとは思いますが、どうかご教授お願い致します。