• ベストアンサー

確率統計の共分散について

 確率・統計を勉強中なのですが参考書を読んでも共分散がイマイチよくわかりません。適当な計算例がないのです。 https://bellcurve.jp/statistics/course/18401.html を元に図のようなデータを作成し、計算してみたのですが、おかしなところはないでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • f272
  • ベストアンサー率46% (8043/17185)
回答No.2

> 具体的にはどういう複数データの分析で共分散が役に立ちますか? 例えば,クラスの人間の英語の得点と数学の得点に相関があるかという問題です。

musume12
質問者

お礼

> 例えば,クラスの人間の英語の得点と数学の得点に相関があるか  なるほど!  適当なデータを作成して改めて考えてみます。疑問が起きたらその時また質問させていただきます。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • f272
  • ベストアンサー率46% (8043/17185)
回答No.1

そもそもカテゴリカルデータに対して共分散を考えるのは,違和感がある。

musume12
質問者

お礼

早速の回答ありがとうございます。 カテゴリカルデータって初めて知りました(^O^)。 具体的にはどういう複数データの分析で共分散が役に立ちますか?

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

  • 確率・統計の母分散の検定について

    確率・統計の問題で、自らデータを引用・収集し、その母分散の左片側検定を行いなさい、という課題が出されたのですが、どのようなデータを引用すればよいのか、正直さっぱりわかりません。確率・統計が大の苦手で、何度も教科書やノートを見返したのですが、なかなか理解できず、課題に関しては手も足も出ない状態です。どなたか教えていただけないでしょうか。よろしくお願いします。

  • 確率・統計―カイ2乗統計量の分散の求め方

    確率・統計―カイ2乗統計量の分散の求め方 お世話になっております。 Yahoo知恵袋で見かけた未解決に終わった質問です。 3項分布に従うX,Y,Zより作られたカイ2乗統計量Tの平均と分散を求める問題です。添付画像をご覧になってください。 T=((X-Np)^2)/Np+((Y-Nq)^2)/Nq+((Z-Nr)^2)/Nr E{T}のほうはカンタンにできましたが,V{T}の計算方法はわかりません。正解はもっておりませんが個人的には4または4に収束する値になると思いますが,いかがでしょうか。 以下の方向で努力してみました:(1)E{T^2} を求める。(2)Tの積率母関数を求める。(3)行列を使う。(4)確率関数で直接計算する。…不勉強のため失敗しました。 留学生のもので,下手な日本語で失礼いたしました。回答者様には言葉より数式で説明していただけるとありがたいのですが,数式の入力の面倒も十分承知しています。 おアドバイスだけでも,いただければ幸いです。心よりご教授をお願い致します。

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 統計ー分散;σの2乗ー計算

    X=1,2,3,4,5 に対して確率関数p(x)が各1/15、2/15、3/15、4/15、5/15 のとき分散:σの2乗を計算したら 平均は3/15=1/5だから σ^2=E(x^2)-(平均)^2 からσ^2=15-1/25=14.96 となりましたがあっているでしょうか。 分散が15だといわれてもイメージがわかないのですが。 (先に分散が直線にのる例なので、このような規則的な場合の分散は、計算する前に慣れていれば15くらいというのがでてきそうにおもうのですが。誰か納得いく説明をお願いいたします。

  • 統計学における標準化について

    A)標準化は、次のページの https://bellcurve.jp/statistics/course/19647.html サンプルxー平均値/標準偏差 であり、これで正規分布のz値と照らし合わせて確率を求めるというのは理解できました。 B)ただ、実践において、統計量Zを求める際に、次のサイトでは、 https://bellcurve.jp/statistics/course/9317.html z=x⁻(xの平均) -μ / √σ² * √n とあります。 分母が標準誤差です。 C)一方次のページでは、 https://bellcurve.jp/statistics/course/9490.html z=X-np / √np(1-p) とあり、こちらは標準偏差で割っています。 以下質問ですが、 1)Aは何も推定しておらず、すなわち記述統計で全サンプルが分かっている、すなわち母集団での話で、あるサンプルxiの全体のうちでの発生確率を示すために標準化してZ値を求めている、という考え方で正しいですか? 2)Bは標準誤差で割っているのは、母集団σ²から抽出した標本であり、抽出した確率変数Xについて、母集団が正規分布に従うのであれば、X~N(μ、σ²/n)に従うので、この分散の√を使っている(すなわち標準誤差を使う)という認識で正しいですか? 3)Cは二項分布のnが大きいときに中心極限定理で正規分布と近似させて解くという計算の話なのかと思いますが、これは、Aと同じように、変数Xから平均を引き、標準偏差で割っています。これは抽出した標本だと思うのですが、Aと同じ方法でいいのでしょうか?かといって。正規分布から抽出していませんが……。 それぞれの用語とかも良く調べましたが、いまいち使いこなせていません。A,B,Cそれぞれ分子も違うので、標準化を基本に色々やっているのだろうと思うのですが、使い分けというか、それぞれの出てくる場面とかも教えてほしいです。 よろしくお願いいたします。

  • 確率の計算についての質問

    測定にばらつきがあり、データ値を20サンプル取得したとして、その分散が既知で、σ1=0.4であるとしたとき、取得データ値を減らしても、分散としてσ1値と同じくらいの(つまり信頼性が高い、90%以上)ものがとれるでしょうか? それは簡単な計算で見積もりできるのでしょうか? 確率に詳しくないため、ご教授いただけるとありがたいです。または、確率について勉強したいので、分かりやすい参考URLをおしえて頂けないでしょうか?

  • 高校数学の確率・統計領域について。

    高校数学の確率・統計領域について。 どの辺りまで扱うべきだと思いますか。 【1年】 個数の処理(集合の要素の個数,和の法則・積の法則,順列,組合せ) 確率(確率の基本的な法則,独立な事象と確率,確率の乗法定理) 【2年】 データの分析(データの散らばり,データの相関) 確率分布(確率変数の平均・分散・標準偏差,二項分布の平均・分散・標準偏差) 【3年】 正規分布,統計的な推測(母集団と標本,推定,検定)

  • 統計学の不偏分散のN-1について

    統計学の授業で、 (不偏)分散=(Σ(中央値との差)^2)/N-1 と習いました。そして、教授が、なぜ、N-1で割るかについて、 「たとえば1と-1が半々の確率で出る時を考えると、 A 1→1 25% B 1→-1 25% C -1→1 25% D -1→-1 25% の場合があり、それぞれの分散が(Nで割る分散で計算すると) A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」 という説明をされました。 しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。 分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか? もし"証明"されているならその証明を教えてください。

  • 離散型確率変数でサイコロを例にしたとき期待値が3.5で分散が35/12

    離散型確率変数でサイコロを例にしたとき期待値が3.5で分散が35/12のときこれを図に表すとどうなるのか誰か実際に図にしてもらえませんか?離散型確率変数の分布図をサイコロバージョンで書いてもらえませんか?お願いします。