• ベストアンサー

統計学初心者: 分散の計算式の種類と その違いは? なぜ期待値のときの式と異なる

初心者です 母集団の分散Y=   n [ シグマ {(観測値 - 平均値)^2}] / n   i=1 観測値が平均値までどれくらい離れているかを2乗した結果をすべて合計して、それを nで割っています。なんとなく分かりやすいです。     30     20    △10    △20 の4個の値があれば、30+20+(-10)+(-20)=20 よって、20÷4個=平均5 上の分散の式に入れると、  (30-5)^2 + (20-5)^2 + (-10-5)^2 + (-20-5)^2 ------------ 1700 1700 / 4 = 425 となりました。 一方で、 サンプルから母集団を推定するときは、上の式の分母を  ( n - 1 )にするそうです。不偏分散。ここは、本当は理解できませんがここでの趣旨と異なるので飛ばします、パス。 ところで、すこし戻りますが、 期待値が入ると上の式の分母がなくなるように見えます。なぜでしょうか(まったく別の世界のことでしょうか)?        値    発生確率     30     20%     20     40%    △10     20%    △20     20%   ------  -----           100% 上の4個の確率変数と呼ぶのかどうか知りませんが、期待値?が4個あって、各々の発生確率が示してあります。全部の? 期待値は、  n シグマ{発生確率i x 期待値i} = 平均のようなものでしょうか。  i=1 これの答えは、20%x30+40%x20+。。。=8 ようやく本題ですが、 ここでの 8は 平均的な値なので、発生確率をともなって、結構 散らばっております。そこで分散なるものを計算する式が、次のようなものだそうで、質問の最初の分散の式と 意味が 何か違うのかを解説下さい。 お願いします。   分散=   n シグマ{ 確率i x ( 期待値i - 期待値の平均)^2 }  i=1     答え= 376

  • good23
  • お礼率56% (451/804)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

30の発生確率が20%ということは10回のうち2回が30ということなので、 >     値    発生確率 >    30     20% >    20     40% >   △10     20% >   △20     20% >  ------  ----- >          100% は全部で10回の測定だと      値     30     30     20     20     20     20    △10    △10    △20    △20 ------- 計   10個 を 母集団の分散Y=   10 [ シグマ {(観測値 - 平均値)^2}] / 10   i=1 で計算したものと同じです。

good23
質問者

お礼

ありがとうございます

その他の回答 (3)

  • usokoku
  • ベストアンサー率29% (744/2561)
回答No.4

負の数を示す記号「-」の代わりに「△」を使うということは、簿記をやっている方ですね。 「発生確率」は、統計関係では「重み」「重さ」「ウェイト」とか呼びます。%表示の場合には、次の様な測定値が得られる場合と解釈してください。 なお、△は-表記に直してあります。     値    測定個数     30     20個     20     40個    -10     20個    -20     20個   ------  -----           100個 30の値が20個あって、20の値が40個、-10が20個、-20が20個 30の値の重みが0.20、20のの重みが0.40、-10の重みが0.20、-20の重みが0.20 という意味と解釈します。発生確率がない場合には、測定個数はそれぞれ一個となります。 普遍分散の自由度の値は、実際の測定個数がわからないと決定できませんから説明を省略します。このまま直接計算すると、自由度の合計が1、平均値に自由とを1つかって、(重みに1使って、重みの計算で自由度が減らない場合がありますので、カッコでくくりました)、となって自由度が0以下になってしまいますから。

good23
質問者

お礼

ありがとうございます

  • backs
  • ベストアンサー率50% (410/818)
回答No.3

> デルタならばΔではなく、Δもしくは小文字のδで表したほうがよいかもしれません。 差分を表すデルタが機種依存文字でΔに変換されちゃってたのですね(普段、使ったりしませんから私も知りませんでした)。

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

質問に対する直接の回答ではありませんが、質問をする際にはなるべく全角と半角の区別を統一して、数式や計算式もなるべく分かりやすいように書くことがいい回答を得るためのコツです。 データを提示するときはなるべくベクトルの形で提示する。例えば、 dat = {30, 20, -10, -20} のようにですね。そして"三角"は何を意味しているのか分かりませんが、デルタならばΔではなく、Δもしくは小文字のδで表したほうがよいかもしれません。 > サンプルから母集団を推定するときは、上の式の分母を( n - 1 )にするそうです。 性質的にはサンプルサイズが小さいときにn-1ではなく、nで割って計算してしまうと小さめの値が出てしまうのです。数学的には1つのパラメータを推定すると、1つの自由度を失うからn-1で割るということになります(ここでは1つの母分散を推定しているので)。 > 期待値?が4個あって、各々の発生確率が示してあります。全部の? 期待値は、 意味が(全然)よく分かりませんが。。。 期待値?とは何のことでしょうか(私にはクエスチョンマークに見えます)。また、発生確率もよく分かりません。そもそも"度数"についていっているのならば、マイナスの値が出てくることがオカシイ。 dat = {30, 20, 10, 20} という場合ならば、30 + 20 + 10 + 20 = 80となるのですから、各セルの確率は 30 / 80 = 0.375 20 / 80 = 0.25 10 / 80 = 0.125 20 / 80 = 0.25 となるでしょう(パーセントは使わないこと)。ためしに全部足してみると、0.375 + 0.25 + 0.125 + 0.25 = 1になります。 離散分布の場合の期待値は、全平均に一致しますが、、、今回の話はまた別物なのかも(理解力不足で質問の意味がよく把握できていませんが)。

good23
質問者

お礼

ありがとうございます

関連するQ&A

  • 標本平均、分散、期待値・・・混乱しています。。。

    統計の勉強をしていますが、 標本平均、分散、期待値とたくさん用語が出てきて、計算の仕方も混乱しています。 まず、標本平均x’(’は上の棒線) の期待値E[x']とは何を表しているのでしょうか? E[x]=npとの違いは?  pは確率 nは個数? あと、標本平均の分散V[x']=σ^2/nと 分散V[x]=npq  の違いが解りません。 i番目のV[xi]やE[xi]と言うのも出てきて更に混乱しています。 問題によって表し方が違うのでしょうか?

  • 期待値と分散が知りたいです。

    統計学の質問ですがお願いします。 下の中の6番がわかりません 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値がpと分散p(1-p)/nになる。その証明過程を説明せよ。 わかる範囲でいいのでおねがいします。

  • 期待値と分散を知りたいです。

    統計学の質問ですがお願いします。 下の中の6番がわかりません 母集団全体における内閣支持率をp(pは未知定数)とする。母集団から無作為に抽出し、支持する場合は「1」、しない場合は「0」と変数Xに記録する。 1、Xは確率変数である。Xの確率分布を求めよ。 2、Xの期待値と分散を求めよ。 無作為抽出をn回独立に復元抽出で繰り返したとする。この無作為標本から得られた回答を上記と同様にX1、X2、…Xnに記録したとする。 3、S=X1+X2+…+Xnとすると、Sはなにを意味するか答えろ。 4、Sの期待値と分散を求めよ 5、X_(←エックスバーです)=S/nと定義する。X_は何を意味しているか答えよ 6、X_の期待値がpと分散p(1-p)/nになる。その証明過程を説明せよ。 わかる範囲でいいのでおねがいします。

  • 【緊急です】期待値、分散について

    【緊急です】期待値、分散について 今日の統計学の試験勉強をしていたら以下の質問がわからなくなり、困っています。 平均E(x)=5、E(x^2)=30のとき分散Var(x)=??となる。さらにE(y)=1,E(xy)=-1ならば、共分散Cov(x,y)=-6である。n-3のとき平均u、分散σ^2=1の正規母集団から無作為抽出された標本(x1,x2,x3)について、Σi=1 n(xi―標本平均値xバー)^2の期待値E(Σ(xi―標本平均値xバー)=???である。またE(Σ(xi-u)^2=???となる。 以上3点の問題がわかりません。噛み砕いて説明していただけると幸いです。

  • 【確率・統計】母平均、母分散について

    統計の質問です。 ある母集団からランダムにn個のサンプルX1,X2,...,Xnをとり、 その特性値x1,x2,...,xnを調べた。 ※「サンプルX1,X2,...,Xn」は大文字のX、 「特性値x1,x2,...,xn」は小文字のx。 この特性値について、母平均、母分散の不偏推定量を 求める式をn,X1,X2,...,Xnを用いて表しなさい。 という問題なのですが、 私の理解では、 『サンプルの「X1,X2,...,Xn」は それぞれ(母集団の分布に従った)確率変数であるから、 ばらつきがある。 そしていま、たまたま X1=x1(値), X2=x2(値), ...,Xn=xn(値)であった。』 という解釈をし、 (母平均)=(X1+X2+...+Xn)/n (母分散)={(X1^2)+(X2^2)+...+(Xn^2)-n*{(X1+X2+...+Xn)/n}^2}/(n-1) と答えを出したのですが、この解釈は正しいでしょうか? 自信が持てずにいるので、 ご指摘、アドバイス等ありましたら、 どうかよろしくお願いいたします。

  • 統計解析の問題(分散など)

    X1~Xnを母平均μと母分散σ^2の同一母集団から無作為に抽出されるn個の確率変数とする。 標本平均{Xn}(アッパーバーを表記できないので代わりに)と分散推定量Un^2をそれぞれ {Xn}=(1/n)*Σ(Xi)[i=1~n] Un^2=(1/(n-1))*Σ(Xi-{Xn})^2 とする。 このときXi(i=1~n)の確率密度関数が f(x;μ)=(1/μ)*exp(-x/μ)(x>0) 0(x≦0) のとき、V[{Xn}]を求めよ。(ただし、母分散σ^2はμで表すこと) また、{Xn}が母平均μの有効推定量であることを示せ。 という問題について、この場合、E[Xi](期待値)=μ、E[Xi^2]=σ^2+μ^2ということは分かったのですが、 σ^2をμで表す過程で躓いています。 MXi(t)=∫e^tx*(1/μ)*exp(-x/μ)dx(積分範囲-∞~0)+∫e^tx*0dx(積分範囲0~∞) を計算するところで止まっています。 ∫e^tx*(1/μ)*exp(-x/μ)dx(積分範囲-∞~0)をうまいこと計算するにはどうしたらいいでしょうか?

  • 確率変数列の期待値分散

    独立な確率変数列 x[0], x[1], x[2]・・・・  は 確率p で1  確率1-p で0の値を取ります。 この確率変数列をもとに 確率変数列 y[0], y[1], y[2],・・・・を      y[0]=1   y[i+1]=y[i]+a(x[i]-y[i]) (i=0,1,2,・・・)    ただし 0<a<1 この時 (1)y[n]=(1-a)^n+Σ【i : n-1~0】 (1-a)^(n-i-1)・x[i] となる事を示せ (2)y[n]の期待値Enと分散Vnを求めよ (3)E[∞]=lim【n→∞】En  V[∞]=lim【n→∞】Vn とおく、  1/2<p<3/4であるとき、  E[∞]-√V[∞] ≥ 1/2 を満たすaの最大値を求めよ 上の問題がわからなくて困っています。 どこかだけでも良いので、どなたか、教えてください。  よろしくお願いします。

  • 統計ー分散;σの2乗ー計算

    X=1,2,3,4,5 に対して確率関数p(x)が各1/15、2/15、3/15、4/15、5/15 のとき分散:σの2乗を計算したら 平均は3/15=1/5だから σ^2=E(x^2)-(平均)^2 からσ^2=15-1/25=14.96 となりましたがあっているでしょうか。 分散が15だといわれてもイメージがわかないのですが。 (先に分散が直線にのる例なので、このような規則的な場合の分散は、計算する前に慣れていれば15くらいというのがでてきそうにおもうのですが。誰か納得いく説明をお願いいたします。

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • 標本分散の期待値の求め方

    統計初心者です。 標本分散の期待値の求め方をわかりやすく教えて下さい。 たとえば、母平均=0、母分散=30の母集団から、10の標本を抽出したときの標本分散の期待値はどうなるのでしょうか。 よろしくお願いします。