確率統計の分散についての質問

このQ&Aのポイント
  • 確率統計の分散について質問があります。英語の統計学の本の内容を理解するために質問しました。
  • 具体的な例として、りんごを選んで重さを計る場合の母集団のモデルについてです。
  • 特に、「≒」が使われている理由と、式の関係について質問しています。
回答を見る
  • ベストアンサー

確率統計の分散についての質問です。

英語の統計学の本の内容を授業で説明しなければならないのですが、理解できない個所がありました。 たくさんあるりんごの中からりんごを選んで重さを計る例についてです。 母集団を Y(整数に四捨五入されたみかんの重さ)=X(みかんの実際の重さ)+γ(Xを整数にするための量) 目盛りの単位をh(hは1グラム)で、 γは区間[-h/2, h/2]に一様分布しているものとします。 そして、Var[γ]=h^2/12、E[γ]=0と書いてあります。 次に Under quite wide assumption regarding the distribution of X,it(Xの分散) can be shown that とあり、 Var[Y]≒Var[X]+h^2/12   …(1) とあるのですが、「≒」が使われている理由が分かりません。 自分の考えでは V[Y] =V[X+γ] =E[((X+γ)-E[X+γ])^2] =E[(X-E[X])^2]+E[(γ-E[γ])^2]-2E[(X-E[X])(γ-E[γ])]   …(2) ここで、(2)式の1項目がVar[X]、2項目がVar[γ]=h^2/12であり、 γが一様分布なため確率変数Xとγが独立であり、3項目が0になると思うのですが、 その場合、(1)式の「≒」の説明がつきません。 統計学について詳しい方がいらっしゃれば、(1)式の「≒」の意味と私の間違いを指摘 していただけないでしょうか。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.3

#1さんと#2さんが回答されているように、Xとγは独立ではありません。 X = 300.6 ならば γ = 0.4 Y = X + γ = 300.6 + 0.4 = 301 というようにγの値はXにより決定されます。 しかし、その統計学の本の表記は本当に > Var[Y]≒Var[X]+h^2/12   …(1) と書かれてあるのですか? 私にはXとYが逆のような気がするのですが・・・ 以下、 Var[X]≒Var[Y]+h^2/12 の書き間違いであったとして、どうしてこういう式になるのか説明します。 りんごの重さの分布の確率密度関数をf(x)とします。 りんごの重さは整数に四捨五入されるのでf(x)はわかりません。 四捨五入されたりんごの重さがy gになる確率p(y)は ∫_{y-1/2}^{y+1/2} f(x)dx で求められます。 今知りたいことはVar[X]なのですが、わかるのは E[Y] = Σ_{y} yp(y) Var[Y] = Σ_{y} (y - E[Y])^2 p(y) だけです。 そこで、整数yの±1/2の区間の確率密度がp(y)である分布でf(x)を近似することを考えます。 この分布の確率密度関数をg(z)とすると、 V[X] ≒ V[Z] = E[(z-E[Z])^2] = ∫(z-E[Z])^2 g(z) dz = Σ_{y} ∫_{y-1/2}^{y+1/2} (z-E[Z])^2 g(z) dz = Σ_{y} (∫_{y-1/2}^{y+1/2} (z-y)^2 g(z) dz + ∫_{y-1/2}^{y+1/2} (y-E[Z])^2 g(z) dz + 2∫_{y-1/2}^{y+1/2} (z-y)(y-E[Z]) g(z) dz) = Σ_{y} (g(y)/12 + ∫_{y-1/2}^{y+1/2} (y-E[Y])^2 g(z) dz + 0) = 1/12 + V[Y] となります。

sora121
質問者

お礼

計算のところで分からないとこがあったのですが、教えて!goo を初めて使うものでベストアンサーを決めると書き込みが制限されてしまったので、再度質問させていただきます。 申し訳ありません。

その他の回答 (4)

回答No.5

よくよく見ると、式(2)の最後の行の3項目は+が正しいですよ。 =E[(X-E[X])^2]+E[(γ-E[γ])^2]+2E[(X-E[X])(γ-E[γ])]    で更に変形を続けると、 =V[X]+V[γ]+2E[Xγ]  ですね。 りんごですから、平均300g、標準偏差10gの正規分布で数回シミュレーションしてみましたが、(標本数10000) h=1gではV[γ]と比べてE[Xγ]は無視できるとは言えないようです。V[h]=0.083に対して、-0.2から+0.2位の値を取ります。 h=10gとすれば、V[Y]≒V[X]+V[h] として良いようです。

sora121
質問者

お礼

式(2)の3項目は確かに+でした。 ご指摘ありがとうございます。 MagicianKumaさんの独立でないことのご説明はとてもイメージしやすかったです。 他の方へのお礼に書かせてもらっているように質問がよくなかったようで、申し訳ありませんでした。 quaestioさんが詳しくご説明されてるので、今そちらを参考にさせていただいて考え直しています。 ご指摘とシミュレーションまでしていただき、本当にありがとうございます。

noname#227064
noname#227064
回答No.4

ANo.3 最後のところを少し補足します。 Σ_{y} ∫_{y-1/2}^{y+1/2} (z-E[Z])^2 g(z) dz = Σ_{y} ∫_{y-1/2}^{y+1/2} (z-y+y-E[Z])^2 g(z) dz ∫_{y-1/2}^{y+1/2} z g(z) dz = ∫_{y-1/2}^{y+1/2} z p(y) dz = y p(y) = ∫_{y-1/2}^{y+1/2} y g(z) dz E[Z] = E[Y] に注意してください。

sora121
質問者

お礼

図書館でいろいろと参考書を見ても分からなかったので詳しくご説明していただいて本当にありがとうございます。 quaestioさんのおっしゃる通り、式の前の文章では【y+γが整数】と書かれているのです。 しかし、後の文章で【母集団がY=X+γ】と書かれてあります。先入観でγを足しているXが実際の重さとして、上の文章にy+γとあるのにX+γと文字が変わった理由をx+γの書き間違いと解釈してしまい、上のような質問をさせていただきました。 質問の仕方が不十分で本当に申し訳ありません。 母集団は整数に四捨五入された重さではなく実際の重さということでしょうか。 自分がXとYについて今大事な勘違いをしていることが分かりましたので、quaestioさんのご説明を参考にさせていただいてもう一度考え直してみます。

回答No.2

No1さんの通りです。γの意味はXを整数化する数値ですから独立ではありませんね。 Xの小数点以下が0.5以上ならγは正、0.5未満ならγは負

  • alice_44
  • ベストアンサー率44% (2109/4759)
回答No.1

(2) の計算は正しいと思う。 > γが一様分布なため確率変数Xとγが独立であり ↑ がダウト。 γ の周辺確率分布が一様分布であることからは、 X と γ が独立であることは結論できない。 おそらく、問題の状況設定として、 γ の分布が X と「ほぼ」独立と考えており、 その「ほぼ」が、第3項=0 ではなく 第3項≒0 を 導くのではないだろうか? …憶測だけど。

sora121
質問者

お礼

独立であることは他の回答者の方々からもご指摘いただいて間違いだと気付くことができました。 本当に申し訳ありません、質問の仕方が不十分のようで、調べ直しているところです。 また、alice_44さんは質問してすぐに回答をしていただいたので質問した私にとって、気持ちがとても楽になりました。本当にありがとうございます。

関連するQ&A

  • 確率統計 シェパードの補正についての質問です。

    英語の統計学の本の内容を授業で説明しなければならないのですが、先日質問させていただいた時に質問が不十分だったので再度質問させていただきました。 たくさんあるりんごの中からりんごを選んで重さを計る時に 実際の連続的な値をもつ重さが計量器で離散的な値をとる時のシェパードの補正の例です。 母集団を Y=X+γ 目盛りの単位をh(hは1グラム)で、 γは小数点以下の値を整数に四捨五入するための値で、 区間[-h/2, h/2]に一様分布しているものとします。 そして、 Var[γ]=h^2/12、 E[γ]=0、 E[γ]=0なのでE[Y]=E[X]=μ と書いてあります。 次に Under quite wide assumption regarding the distribution of X,it(Xの分散) can be shown that とあり、 Var[Y]≒Var[X]+h^2/12   …(1) それゆえ Var[X]≒Var[Y]-h^2/12   …(2) とあるのですが、式(1)での導出過程を教えていただけないでしょうか。 ※ 先日の質問でVar[X]≒Var[Y]+h^2/12の間違いではないかというご指摘があったのですが、式(2)と関係しているのでしょうか。考えると混乱してしまいました。 標本はYで、シェパードの補正というものが「補正には推定された分散から階級幅の1/12を減じることで行われる. 」とあり、式(2)でYの分散から1/12を引いているので、 Yが整数化されて計量器から求められる重さだと思います。

  • 確率・統計について少し質問です。お願いします><

    確率・統計について少し質問です。お願いします>< 指数分布についてなんですが、 E(x)=1/λ で P(0<=x<=4)=? の?を求めたいのですが、途中までできて f(x)=λe^-λx で P(0<=x<=4)=∫0→4( xλe^-λx )dx ここまでの式はたつのですがこの後積分をどのように解法していったらいいのかわかりません。 できたらできるだけ詳しく教えてください。 お願いします>< ^は何乗かを表します。例えば^2だったら二乗という意味です。 0→4は積分範囲です。 もし途中までの式が間違っていたらそこも指摘をお願いします><

  • 数学(数理統計学)の質問です。

    数学(数理統計学)の質問です。 2つの確率変数X,Yはそれぞれ密度関数f(x),g(x)をもつ分布に従い、平均E(X)=μ,E(Y)=ν,分散V(X)=σ^2,V(Y)=τ^2をもつとする。さらに、εはベルヌーイ分布Ber(p)に従う確率変数であり、X,Yと独立であるとする。そのとき、確率変数Z=εX+(1-ε)Yはどのような分布に従うか、その確率変数を求めよ。また、平均E(Z)と分散V(Z)を求めよ。 答えはあるのですが、解答に至る過程がわかりません。ご指導よろしくおねがいします。

  • 共分散で分かること

    文系ですが、今ゼロからシリーズの統計確率を読んでいます。その中で共分散という言葉がでてきます。その式は  C(X,Y)=E(XY)-E(X)E(Y) というもので、その解説の前の問題で  赤球3個、白球2個、青球1個 計6個より無作為に2個取り出すとき、赤球の個数をX、白球の個数をYとして ちょうど 、上の式 共分散の式で、値が、-4/15 とでています。 これで何が分かるのでしょう その前の問題では、同時確率分布、周辺分布ほ求めていますが、これは、理解できます。

  • 確率・統計です。

    統計学の問題で質問があります。(1)は分かったのですが、(2)が分かりません。どうか、解答、解説をよろしくお願いします。問題は以下です。 ある家庭には固定電話1個と携帯電話2個があるとする。1日に固定電話にかかってくる電話の回数Xは平均E(X)=4のポアソン分布Po(4)に従う。1日に2つの携帯電話にかかってくる電話の回数をそれぞれY,Zとし、これらはいずれも平均E(Y)=E(Z)=3のポアソン分布Po(3)に従い,それらは独立とする。そのとき,次の問に答えよ。 (2)1日にその家庭にかかってくる電話の回数の合計がX+Y+Z=10である確率を求めよ。

  • 確率統計

    確率変数X,Yは独立同分布で一様分布U(0,1)に従うとする。 このときX+Yの密度関数h(x)を求めよ。 ただしXとYの密度関数f(x)は f(x)=1(0 <_ x <_ 1), 0 (otherwise) h(x)=∫(-∞→∞)f(x-y)f(y)dy なのですがh(x)をとくさいにf(x-y)っていうのはどうあらわすんですか? あといまいちどうかいとうすればいいかもわかりません ご指導お願いします

  • 確率変数の分散

    確率変数 X,Y の同時密度関数を f(x,y) (-∞<x,y<∞) としたとき、 Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) を証明したいのですが、 E{(X+Y)^2} - {E(X+Y)}^2 を展開してやってみたら 2Cov(X,Y) のあたりがうまく出せなくて分からなくなってしまいました。 どのようにしたらいいでしょうか?

  • 確率統計

    ◆ 確率分布とパラメータ:指数分布 λ>0 確率・確率密度関数P(X=x)またはPx(x):{Px(x)=λe^(-λx) (x>0) , Px(x)=0 (その他)} 特性関数 φx(jt):(1-jt/λ)^(-1) 平均値 E[X]:1/λ 分散 Var[X]:1/(λ^2) ◆ 確率分布とパラメータ:幾何分布 0<p<1 確率・確率密度関数P(X=x)またはPx(x):Px(X=x)=pq^x, x=1,2,・・・ q=1-p 特性関数 φx(jt):p/(1-qe^(jt)) 平均値 E[X]:q/p 分散 Var[X]:q/(p^2) ◆ 確率分布とパラメータ:負の2項分布 r=1,2,・・・, 0<p<1 確率・確率密度関数P(X=x)またはPx(x):Px(X=x)=【r+x-1,x】(p^r)(q^x) , x=0,1,2,・・・ q=1-p 特性関数 φx(jt):{p/1-qe^(jt)}^r 平均値 E[X]:rq/p 分散 Var[X]:rq/p^2 これらの確率分布について、(1)連続確率変数と離散確率変数のどちらか、(2)全体の確率P(-∞<X<∞)=1となることを計算せよ、(3)これらの確率変数について、平均E(X)と分散 V(x)が求められることを計算せよ。 ってところがわかりません。よろしくお願いします。

  • 統計の質問です。

    統計の質問です。 本を見て行くうちに、正規分布の式が f(x)=(1/√2π σ)e^(-1/2)((x-μ)/σ)^2 と出てきたんですが、どういう根拠でこのような式になったのかの説明が全く記述されていません。 本屋に行って、誤差解析の本や、統計学の本を30冊ぐらいあさったのですが、この式の導出について書かれているものは、ひとつもありませんでした。 ネットでもさんざん探しましたが、それにまつわるいくつかのサイトに行っても、納得のいく導出は見つかりませんでした。(教えて!gooのサイトでも2つくらいありましたが、納得がいきませんでした。) ちなみに統計学についてはど素人です。二項分布や、ポアソン分布については導出の仕方が載っていたので、納得できました。しかし、この正規分布だけは、導出の仕方が載っていないのです。 統計に限らず、重要な公式らしいので、ちゃんと理解したいのです。 どなたか、わかりやすい説明で、教えていただければ幸いです

  • 確率・統計について少し質問です。お願いします><

    確率・統計について少し質問です。お願いします>< 指数分布についてなんですが、 E(x)=1/λ で P(0<=x<=4)=? の?を求めたいのですが、途中までできて f(x)=λe^-λx で P(0<=x<=4)=∫0→4( λe^-λx )dx 置換積分法をつかい -λx=t -λ=dt/dx dx=dt/-λ と置き 積分範囲が t 0→-4λ に変わり代入して ∫ 0→-4λ λ・e^t・dt/-λ となりλが消えて ∫ 0→-4λ -e^t dt -[e^t]0→-4λ -(e^-4λ-1) =-e^-4λ+1 となると思うのですがこの後はどうしたら良いのでしょうか??さっぱりです。 教えて下さい>< ^は何乗かを表します。例えば^2だったら二乗という意味です。 0→4は積分範囲です。 もし途中までの式が間違っていたらそこも指摘をお願いします><