• ベストアンサー

統計データーの簡素なロギング

自動ロギングで、あるデーターのサンプル数と平均値と分散との3つの値だけを残したい場合には、どうすれば良いのでしょう?WEBアドレスの紹介や書籍紹介を御願いします。また、その手法の一般的な名称も教えてください。 (サンプル数を数えるカウンタとデーターを加算するたった2個のレジスタがあれば、測定後、サンプル数と平均値を得られます。分散についても、何か簡単な方法があったように思います。)

  • teo98
  • お礼率27% (68/244)

質問者が選んだベストアンサー

  • ベストアンサー
  • kochory
  • ベストアンサー率45% (167/370)
回答No.2

>「・・・平均の2乗」って、何の平均ですか? そのとき扱っているデータの平均です。 つまりデータの数値を全部足して個数で割ったものです。 2乗の平均は、データの数値を2乗したものを全部足して 個数で割ったものです。 >例えば、1,2,3・・・とロギングされた場合に>3つのレジスタの値は、 > >サンプル数、和、自乗の和 >1    、1、1 >2    、3、5 >3    、6、14 >・    、・、・ >・    、・、・ > >なので3回目での分散は、 >(20/3)-(6/3)^2 >となるのですか? 3回目での自乗の和は14ですから、3回目まででの 自乗の平均は、それをデータの個数で割った14/3になりますね。 一方、平均は6/3でいいので、分散は (14/3)-(6/3)^2になります。 この手続きに特に名称があるとは思えません。 分散の定義式を少し式変形すればすぐに出てきます。 参考になるサイトもあまりありませんが、 検索してみたら以下のサイトに記述がありました。 http://www.melma.com/mag/89/m00000189/a00000347.html

teo98
質問者

お礼

有難う御座いました。

その他の回答 (1)

  • kochory
  • ベストアンサー率45% (167/370)
回答No.1

もう一つ、データーの2乗の値を加算するレジスタを用意すれば 分散も得られます。 (「分散=2乗の平均-平均の2乗」です)

teo98
質問者

補足

有難う御座います。 ズバリの答えのようですが、具体的な式の使い方を確認させてください。「・・・平均の2乗」って、何の平均ですか? 例えば、1,2,3・・・とロギングされた場合に3つのレジスタの値は、 サンプル数、和、自乗の和 1    、1、1 2    、3、5 3    、6、14 ・    、・、・ ・    、・、・ なので3回目での分散は、 (20/3)-(6/3)^2 となるのですか? 参考WEBとか、この手続きの名称をしりたいな。

関連するQ&A

  • 【統計】平均と分散を持つデータの集合を生成

    平均と分散を持つデータの集合があったとして 少ない引数でサンプルデータを作りたいと考えたのですが そうなると 1データの平均 の平均と分散 1データの分散 の平均と分散 を考えれば良いのか?という所で違和感を感じました。 何か根本的に間違っている気がします。 全体の平均と全体の分散のみを使った場合とでは結果が異なるのはわかるのですが。 これって正しいのでしょうか。 何卒よろしくお願いいたします。

  • 統計について教えてください

    ヒトと犬と猫の間で溶血活性に差があるかどうか?と言う問題なのですが、平均値とデータ数しか書かれていません サンプル数 ヒト:5 犬:5 猫:5 溶血活性の平均値(μg/ml) ヒト:1.36 犬:2.4 猫:1.04 一元配置分散分析だと思うのですが 解き方を教えてください

  • [統計] こんな検定をして意味がありますか?

    2グループあります。 各グループにはいくつかのサンプルがあって、 各サンプルにたいしてある試験を行い、 得られたデータを最小二乗近似したときの傾きの値(A)をサンプルごとに得ました。 このAの平均値がグループ間で異なるかどうかを検定したいのですが、 通常のt検定や分散分析で解析しても大丈夫でしょうか?

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 2種類のデータ数が同じデータについてら平均値と分散

    2種類のデータ数が同じデータについてら平均値と分散を計算したら、同じ値でした。これらのデータはヒストグラムも同じ形状をしていると考えて良い。 ○か×か。

  • 統計学

    統計学入門を勉強中ですが解答がわかりません。お力をお貸しください。問)ある母集団から5個のサンプルを選び、次のデータを得た。母平均・母分散を推定せよ。2.43 1.89 2.37 2.30 1.74

  • 統計学について

    卒業研究で実験条件の決定に統計学な手法をつかいたいと思っています。分散が予めわかっていて無限母集団の平均値をできるだけ正確に調べたい場合、標本数をどのように決定すればよいかがわかりません。統計学の教科書で言うとどのあたりに載っていますか。それとも、そもそもこんなことはできないのでしょうか?

  • 統計学の基礎?

    前提 日本人の身長の真の平均値を知るためには、日本人全員の身長を測定しなければならないが、それはおそらく不可能である。 そこで、一部の人(標本)の身長を測定し、その結果から推測したい。 標本(n)の身長もばらつき(標本分散:v)を持つし、日本人全体(母集団:N)の身長もばらつき(母分散:σ^2)を持つが、これらと真実の値(母平均:μ)や標本平均(m)との関係はどうなっているだろうか? ただし、各人の測定結果(身長)はX1,X2,X3・・・XNとあらわす。 問 1)日本人の平均身長= 2)日本人の平均身長の標準偏差= 3)標本の平均身長= 4)標本の平均身長= 5)標本の平均身長の分散から推定される日本人の平均身長の標準偏差= 6)標準誤差はσ/√nで与えられるが、これを標本分散を用いて表すと次のようになる。  標準誤差= 7)標準誤差を用いると、真実の平均値(母平均)があるであろう範囲(信頼区間)を特定の有意水準で求めることができる。有意水準5%のときの範囲(95%信頼区間)を表す式を示せ。 8)160、165,170,175,180というデータの平均の95%信頼区間を求めよ また、145,165,170,175,195というデータの平均の95%信頼区間と比較せよ。 以上の問です。 7と8以外は、数値を聞いているわけではなく、求める式を問うていることはなんとなくわかるのですが、ちょっとパソコンを利用して調べて回ったところ、どれが必要な情報かさえわからないレベルで、頭が痛くなってしまいました。 よろしければ問いの回答、その回答に至る考え方の流れなどを、簡単なものでも構わないのでご教授願えないでしょうか?

  • 統計学 分散について

    今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。 このHPで、 データのばらつきを数値で表す という、項目があります。  ここでは、分散の式を分かりやすく説明しているのですが、 HPの説明では・・・ 平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、 ばらつき案1=(データ-平均値)の総和 ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。 ばらつき案2=((データ-平均値)の2乗)の総和 しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、 ばらつき案3=((データ-平均値)の2乗)の総和÷個数 これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。 分散=((データ-平均値)の2乗)の総和÷個数 分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。 と、あります。  分散は平均からのずれを出すのであれば、 分散=((データ-平均値)の2乗)の平方根の総和÷個数 が正しいような気がします。 例えば平均から+5cmの2乗は25なのに、 +0.3cmの場合2乗は0.09になってしまい、 大きくぶれたものはより大きく、 小さくぶれたものはより小さくなってしまいます。 ばらつき案1で データから平均値を引いた答えに+と-があり、 総和を求めると、この+と-のブレがお互いに干渉しあって 数値を0に近くする為、 一度2乗して+と-を無くしたのに、 何故その後、そのままなのかよく分かりません。  2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。  言ってる事がいまいち伝わらないかと思いますが・・・  どなたか解説お願いします。  分散とはそういう計算式なんだ!と、 言ってしまえばそれまでですが、 どうしても納得がいきません・・・

  • 統計学(交互作用に関して)

    前回と同じ質問ですが、具体性を欠いていたため、補足して再掲します。 以下、二元配置の分散分析に関しての話です。 一般に母分散の推定は σハット^2=(データ-○)^2/N-1 ※○=分布の平均値 なので、「平均が○で分散がσハット^2の分布だな」とイメージできます。 しかし、交互作用の母分散推定に出てくる式は、 σハット^2=(平均値-○)×(平均値-△)+(平均値-×)×…/自由度 ※○△×=各水準の平均値 なので、「平均値がたくさんあって、分散は同一(σハット^2)の分布?」とイメージできません。 質問1:交互作用の母分散推定に出てくる分布は具体的にイメージできる分布ですか? 質問2:なぜ、その式の自由度は(要因1の水準数-1)×(要因2の水準数-1)なのでしょうか?(わたしは、自由度については「全体の数は決まっていて、4つのスペースがある場合、3つが決まると、もう1つは自由に決められない」といった入門書の例で理解しているのですが、さすがに、この場合はこれでは説明がつかないでしょうか?) 以上が前回の質問ですが、具体性に欠いていたため、具体例を追加致します。統計入門書から例を用います。 子どもたちの成績は、1.先生によってちがうのか、2.教えてもらう時間帯によってちがうのか、3.それらの交互作用、の3点について2元配置の分散分析を行う。尚、子どもたちは合計18名、同じような学力で3人ずつ、6つのグループに分けて実験した。授業の後で10点満点のテストを行った。     A先生         B先生       C先生 午前    3、4、5         6、7、8       3、4、5 午後    2、3、4         3、4、5       1、2、3 ちなみに、平均値に関しては、     A先生         B先生          C先生 午前      4         7           4          5.0 午後      3          4           2          3.0      3.5           5.5           3.0 交互作用に関する母分散の推定は、まず、標本平均の分散の推定値を求めます。 標本平均の分散の推定値=(4-3.5)×(4-5.0)+(7-5.5)×(7-5.0)+…+(2-3.0)×(2-3.0)/【(先生の数-1)×(時間帯の数-1)=0.5 わたしが、イメージできないと表現したのは、この「平均がたくさんあり、分散は同一(=0.5)の分布です。 (ちなみに、その後の計算は、標本平均の分散は母分散の1/nですので、3(=n)を掛けた値(=1.5)を推定母分散とします。後は、F値は推定母分散の比ですので、この値を用いて検定します)。 以上、宜しく御願い致します。