• ベストアンサー

【統計】平均と分散を持つデータの集合を生成

平均と分散を持つデータの集合があったとして 少ない引数でサンプルデータを作りたいと考えたのですが そうなると 1データの平均 の平均と分散 1データの分散 の平均と分散 を考えれば良いのか?という所で違和感を感じました。 何か根本的に間違っている気がします。 全体の平均と全体の分散のみを使った場合とでは結果が異なるのはわかるのですが。 これって正しいのでしょうか。 何卒よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

平均や分散で、何をするのか、それをお考えください。あるいは、何をしたいのか、です。  平均や分散は、母集団の性質を表す(=理解しやすくする)のに用います。  母平均は、母集団(全てのデータがそろっている)の性質を示します。集団Aと集団Bの平均値を比較すると、どちらが高いとか少ない、とか判断できます。母分散は、集団のデータのバラつきを表しています。母集団が正規分布しているのなら、その平方根である標準偏差から、上から何番目という位置さえ計算できます。  ところが、蛍光灯の寿命の平均をもとめるときに、全ての蛍光灯で寿命が尽きるまで測定すると、商品が無くなります。そこで、サンプルとして、母集団からいくつかを抽出して、測定して、データをだします。そのとき、母集団の平均値は、サンプルの平均で代用し、バラつきは、標準誤差で代用する、ことになります。 >何か根本的に間違っている気がします。  今の統計学では、平均の平均が、何を意味するのか、それが何を表して、どんな意味があのか不明です。分散の分散も同じです。これに意味があるのなら、平均の平均、のさらに平均、平均・・・、にそれぞれ説明できなくてはなりません。  統計学に限らず、科学には明確な目的を示すことが必要です(偶然うまくいく実験もありますが)。公式から計算はできますが、「平均の平均は、何を意味しているの?」と訊ねられたときに、「平均の平均を表す」では、説明になっていません。あるいは、「こんな意味があり、このように応用できる」と説明できれば、良いでしょう。平均のバラつきを表す標準誤差なんぞはあるのですが、平均の平均や分散の分散が何を意味するのか、私には思いつきません。ですから、無意味では。  

sirooni
質問者

補足

詳しくありがとうございます。 今回は実験データを作成しようと思いました。 ある作品(例えば映画)に属性(楽しい、哀しいなど)がN個あるとします。 属性値を[0,10]とすると、1作品につき属性値N個が得られます。 その実験データを生成しようとしたら、平均と分散を与えれば良いと思います。 ただ、ここで作品数がM個あるとすると、質問のようになるのでは?となってしまいました。 作品ごとに平均は違いますし、分散も違いますから。 ただ、仰る通り分散の分散なんて意味が分かりませんし、もしかしたら何か間違ってる、或いはもっといい方法があるのでは?と思うに至りました。

その他の回答 (1)

  • usokoku
  • ベストアンサー率29% (744/2561)
回答No.2

「統計学」という学問から言えることは、 「統計以外の手段で」、「AとBとの測定値に差があるはずだ」という理論を導き出してから、測定値を計って、「差があるか否かを統計という数値処理で判断する」のです。 だから、闇雲に数値を見つけてきて統計の数値処理をして「差があった」なんて論法は、「たまたま差がある集団を拾ってきただけ」の場合があり、意味を持ちません(ただし、医学の疫学関係でこの論法を繰り広げる疫学の大家と呼ばれている大学教授がいる。そのために医学関係と経済関係では、数学とは異なる考え方の統計学が幅を利かせている)。だから、明かに間違った方法です。 「平均、分散、標準偏差」が問題になるときに、多くの場合は「正規分布である」ことを前提としています。正規分布でないにもかかわらず分散を求めていてたりする場合があります。このような場合には意味がありません。 「属性値を[0,10]」という場合、これは連続ではないです。ですから、大数則を使って正規分布とみなせる程度の測定値を得る場合、あらかじめ調べて、正規分布のような挙動を示す様に換算する場合があります。詳しいことは、「林氏の数量化なんとか」という本を探してください。 あるいは、1山分布ですと、ノンパラメトリック統計という手法が使えますが、「属性値を[0,10]」何て場合は、2山分布の場合が多いので、統計処理自体が意味を持たない場合になってしまいます。

関連するQ&A

  • 分散の平均値

    一回の測定で一定領域のデータが得られ、その平均値と分散を求めます。 5回測定した場合、分散の平均値は単純に足して5で割れば良いのでしょうか? 平均値はバラバラです。 よろしくお願いします。

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • マイナスを含むデータの平均と分散

    例えば, {-0.0027,0.0005,-0.0006,0.0003,-0.0002,-0.0002,0.0016,-0.0017,-0.0003,-0.0004,-0.0005,-0.0007} のようなマイナスを含む誤差データがあるとします. この誤差データの平均と分散を求めたいとしますと,単純に足してデータ数で割っただけだとマイナスでキャンセルされてしまって平均とは呼べないと思います. そこで平均二乗誤差を使用してデータの平均を求めた場合,分散を計算するときに使用する平均値のデータとしては,平均二乗誤差を使用しても良いのでしょうか? このようなデータ処理の仕方について,わかりやすい本がありましたらついでに教えていただけると助かります.

  • 統計データーの簡素なロギング

    自動ロギングで、あるデーターのサンプル数と平均値と分散との3つの値だけを残したい場合には、どうすれば良いのでしょう?WEBアドレスの紹介や書籍紹介を御願いします。また、その手法の一般的な名称も教えてください。 (サンプル数を数えるカウンタとデーターを加算するたった2個のレジスタがあれば、測定後、サンプル数と平均値を得られます。分散についても、何か簡単な方法があったように思います。)

  • 「標本平均の分散」についての質問です.

    「標本平均の分散」についての質問です. 「母集団からn個のデータを無作為抽出する.すると,サンプルサイズnの標本ができ,標本平均が計算できる.これを,標本平均1としよう.この作業を何度も繰り返し,標本平均2,標本平均3・・・と,多数の標本平均を集める.これらの標本平均の分散は,母分散のn分の1(母分散/n)である」という説明をある本で読みました. では,極端な話,1000個のデータからなる母集団(有限母集団)から,サンプルサイズ1000個(母集団サイズと同じ)の標本をいくつも作ったとします.標本平均は,いつも母平均そのものであり,よって,標本平均の分散は0です.母分散/1000とはなりません. 上記の説明が間違っているのでしょうか?私が何か勘違いをしているのでしょうか?それとも,説明は無限母集団を対象としている,とか,母集団サイズとサンプルサイズが一致するような抽出は想定されていない,と言った理由があるのでしょうか?

  • 確率・統計での分散について

    確率統計における分散について、用語として(文字通り)分散、標本分散、母分散、不偏分散などがあります。 初等的な意味合い(すなわち計算の仕方による定義)としては特段理解が難しいものではないと思いますが、テキストによって定義に若干齟齬があるように思えます。また、エクセルでの計算の実施という意味合いでもやや疑問があるのであらためてお尋ねします。 状況を設定します。 コーヒー豆が1万個ぐらい1つの袋に入っているとします。全部を調べるのが大変なので10個だけ無作為に取り出して調べるということにします(n=10)。 それを何回やるか、また取り出して豆は元に戻すか、ということもありますが、(10個の豆のセットを)1回だけ取り出すということで、元に戻さないということを前提とします(1回だけやるなら同じですね)。 分散:平均からの偏差の2乗和の平均(状況に無関係な一般用語?) 標本分散:1つの標本(10個)に関して分散を取ったもの。10個の豆の平均からの偏差の2乗和をn(=10)で除したもの。 母分散:袋に入っている1万個の豆を全数調査して調べた分散 不偏分散:10個の標本から母分散を推定しようとして標本(10個の豆)の平均からの偏差の2乗和を9(=n-1)で除したの。 このような定義で間違いないでしょうか。確率・統計の本ってものすごくいっぱいありますから本ごとにちょっと違うことが書いてあるように思ったのでお尋ねしました。標本分散のことを不偏分散と書いてある本があったりしたのですが。 その次にエクセルの関数、varp, var についてお尋ねします。 varpは母分散を求め、varは不偏分散を求めると仕様に説明されています。そのエクセルの計算に用いるデータは取り出した1つの標本(10個の豆)しかありません。 後者(var)はいいのですが、前者(varp)は母分散を求めるという仕様で、10個の豆だけで、1万個全数調査してやっとわかる母分散が分かるはずはないと思うのですが。母分散がサンプルから求まるはずはなく、サンプルから母分散を求める努力の結果が不偏分散ということですね。たとえば、母集団(豆袋)から取り出した10個のサンプルをあらためて母集団とみなしてただ単にその分散ということなのでしょうか。そのような入れ子のような解釈をすると混乱するのでそうではないはずなのですが。 長文ですみません、よろしくお願いします。

  • 分散分析の平均値と実際の平均値のズレ

    統計初心者です。 現在SPSSを用いてデータの解析を行っており、対応のある3要因分散分析(被験者間要因:1、被験者内要因:2)を反復測定→多重比較(Bonferroni)にて行いました。 その結果、それなりの結果が得られたのですが、気にかかる点があります。 SPSSにて反復測定→多重比較を行った結果として表示された平均値と、実際のデータをエクセル上で平均して得られた平均値とに、微妙に違い(値のズレ)があります。 分散分析を行っている以上、実際の生データの平均値との間にズレが生じてしまうのは当然なのでしょうか?それとも、このズレは解析において何か致命的なミス(データの読み込み失敗、解析方法や条件設定の選択間違い)によって生じてしまった「誤った値」なのでしょうか? また、もし今回分散分析によって得られた平均値が妥当であるならば、論文等にグラフを書く際には、分散分析の結果得られた平均値と生データの平均値のどちらを用いるべきなのでしょうか? 拙い説明で申し訳ありませんが、ご教授頂ければ幸いと存じます。 宜しくお願い申し上げます。

  • 統計 心理学

    日本人全体の平均身長を推定しようとして、無作為に収集したサンプルサイズ10000人のデータの平均値は、168.5、分散は36であった。 母集団分布に正規分布を仮定した場合、『日本人の平均は本当は170である可能性はないのか?』という問いに対して統計学的な観点から述べなさい というのが分かりません… どうまとめたらいいですか?

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 分散(2乗平均)を求めるとき

    データがあって、その分散を求めようとしています。分散=(2乗平均-平均の2乗)で計算を試みているのですが、困った点がありまして質問させていただきました。もしお時間よろしければお願いいたします。 ・分散を求めるとき、「各データを2乗したものの和÷データの個数(2乗平均)」と「各データの和÷データの個数→これを2乗(平均の2乗)」において、「データ」が無数(データの和が無限級数のようになってる)のとき計算はどうなるのでしょうか? いい例えでないですが、例えばデータが、実力伯仲の3人の力士が巴戦(先に連勝した者の勝ちで、誰かが連勝するまで延々と勝負は続く)などで複数人から一人の勝者を決まるまでの回数など。このように決まらない場合は回数は延々と増えていくような。指針、アドバイスなどあればお教えくださいm(_ _)m ・あと、上に関連する計算の一部で自分なりに出した式なのですが、 「n^2・x^n-2(ただしx^∞→0)」のn=1から∞までの和というのは求められるでしょうか?求められないでしょうか?(2つもスイマセン)