• ベストアンサー

基本的な質問ですが

stomachmanの回答

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.10

うう。どうしても長文になっちゃうなあ。 自由度一般については、とりあえず別件にしましょう。この質問に関連する「自由度」というのは、分散(平方根を取る前のやつ)の分母がなんでNではなくてN-1なのかってことです。この-1がどこから出てきたのか。 まずは問題を整理すると共に、必要な概念を説明します。しんどいけど、おつきあい願います。 ●母集団とサンプルの区別が重要になります。母集団というのはあらゆるデータ全部集めたやつ(無限集合かもしれない)。サンプルはその母集団の中から、無作為に選んだ代表の集合ですね。(無作為が重要。でかいのだけ選んだりしたら、以下の話は成り立ちません。) ●もし、母集団の全データを利用できれば、平均と標準偏差はきっかり決まります。これは推定ではない。母集団のデータy[j]の数がM個なら、平均A、分散D^2 およびその平方根である標準偏差Dは A = (Σy[j])/M (Σはj=1,2,....,Mについての和) D^2 = {Σ(y[j] - A)^2}/M(Σはj=1,2,....,Mについての和) で計算できる。しかし通常はサンプルしか得られないから、これらの式は使い物にならない。 ●「N個のサンプルx[j] (j=1,2,...,N)から、母集団の平均と分散を推定しよう」という時には、「不偏推定」という考え方を取ります。つまり、サンプルしかないのだから正確な値は絶対出ないけれども、最も正解である確率が高くなるような最良の推定を行います。 ●このような不偏推定は、母集団の平均Aの推定値aに関しては a = (Σx[j])/N  (Σはj=1,2,....,Nについての和) になる。つまり、(a-A)の期待値は0です。(無作為にサンプルを選ぶのが条件ですよ。) さてここで、(a-A)^2の期待値はいくらかというと、(D^2/N)になります。 (なんでか?はめんどいので堪忍。) もちろん、サンプルには偶然の偏りがあるから、Aとはずれている訳です。  そして母集団の分散D^2の推定値σ^2に関しては σ^2 = {Σ(x[j] - A)^2}/N(Σはj=1,2,....,Nについての和) です。よく見て!! 分母はNです。ところがこの計算は実行不可能。Aが分からないからです。  そこで、Aの代わりにaを使わなくてはならない。この場合の不偏推定は σ^2 = {Σ(x[j] - a)^2}/(N-1)(Σはj=1,2,....,Nについての和) になる。 ●直感的に言えば:  Aの代わりにaを使いました。ところが、サンプルに偏りがあって、たとえばちょっと大きめに偏ったとすると、aはAよりちょっと大きめに出てしまう。さて、そのaを基準にして分散を計算すると、ちょっと小さめに出てしまう。  なぜなら、基準になる平均aが大きい方にずれているために、「大きいサンプルが真の平均よりどれだけ大きいか」が小さめに見えてしまい、「小さいサンプルが真の平均よりどれだけ小さいか」が大きめに見える。サンプル集団には小さいのよりは大きいのが多めに入ってますから、全体としては、ばらつきが小さめに見えてしまう。~あかん。全然直感的じゃないかな~ ●こんどはいい加減な数式で迫ってみましょう。 Nσ^2 = {Σ(x[j] - A)^2} ={ Σ(x[j] - a+(a-A))^2} = (Σ{(x[j] - a)^2+(a-A)^2-2(a-A)(x[j] - a)}) = (Σ(x[j] - a)^2)+{Σ(a-A)^2}-2(a-A){Σ(x[j] - a)} ここでΣ(x[j] - a)=Σ(x[j] )- aN = 0 ですから、 Nσ^2 = (Σ(x[j] - a)^2)+N(a-A)^2 です。ここで、(a-A)^2の期待値(D^2/N)を入れると、(誤差はあるけど期待値としては) Nσ^2 = (Σ(x[j] - a)^2)+(D^2) である。σ^2はD^2の期待値の筈ですから、D^2はσ^2と同じと考えたって、まあよろしい。よって Nσ^2 = (Σ(x[j] - a)^2)+(σ^2) (N-1) σ^2= (Σ(x[j] - a)^2) よって、 σ^2= (Σ(x[j] - a)^2)/(N-1) まあ、そういう事です。 ●もし、サンプルを選んで母集団の平均を推定してaを得た後、改めてサンプルを選び直してから、母集団の分散を推定するという場合には、 σ^2 = {Σ(x[j] - a)^2}/N(Σはj=1,2,....,Nについての和) が不偏推定になります。 ●ここまでのまとめ 母集団の本当の平均値Aが分からないので、サンプル集団から求めた平均値aを使った。そして、その同じサンプル集団に対して、aを使って分散を計算した。これが(N-1)の原因。 ●「自由度」という言葉を使って.....  もともとN個あったサンプルx[j](j=1,2,..N)は自由度Nです。おおざっぱに言えば、N個のパラメータがそれぞれ独立に変化しうる、ということを自由度Nと言うわけです。  平均値a(1個の数値。自由度1)を求めて引き算し、(x[j]-a)を作りますと、平均値aと、(x[j]-a)(j=1,2,..N)の、合わせてN+1個の数値がある。  しかし、「(x[j]-a)(j=1,2,..N)の合計は必ず0でなくてはならない」という制限が加わっている。だから一つ欠けても元のx[j]が全部再現できます。つまり{平均値aと、(x[j]-a)(j=1,2,..N)}はやはり自由度Nを持っている。  もしN個の数値(x[j]-a)(j=1,2,..N)だけ知っている(aは不明)なら自由度はN-1になり、元のx[j]の再現はもはや不可能ですが、どれか一つが欠けても(x[j]-a)(j=1,2,..N)は再現できる訳です。

rickbon
質問者

補足

うーん私のレベルでは難解すぎて... 何とか概念だけでも理解しようとここ数日幾度か読み返して参りましたが、特に数式の部分はロゼッタストーンを眺める酔っぱらいの如くただ眼をうつろにして呆然とするばかりです。 でも、私でも理解し得る断片を集めて私なりに解釈するとすれば、自由度とはサンプル(全集団のデータを計算することが不可能なために全集団から無作為に取り出したサンプル、若しくは過去の集団から未来を推定する目的での過去の全集団でもいいのかな?)を真の全集団のデータに少しでも近づけるために連続的にサンプルの変化を評価するしくみ....自分でも何が言いたいのかよくわかりませんが、こんな感じなのでしょうか?

関連するQ&A

  • 標準偏差の算出について質問があります。

     野口悠紀雄著『金融工学、こんなに面白い』(文春新書)中の標準偏差の算出で質問があります。    74頁 表3-4に、     円安   円高  標準偏差 A社  1000円  300円  494.97円 とあります。  数学の教科書にあります方法で標準偏差を求めますと、A社の株価の平均は650円ですから、 {(1000-650)×(1000-650)+(300-650)×(300-650)}÷2の平方根で350円になります。エクセルの関数STDEVPで計算しても350ですし、同書79頁の表3-5(III)でも標準偏差は350になっています。  ところがエクセルの関数STDEVで計算しますと、確かに494.97になりますので、著者の間違いとは思えません。  そこでお尋ねします。 (1)上の例で、494.97になる標準偏差と350になる標準偏差は、金融工学的にどういう場合で使い分けるのでしょうか?(エクセルの説明では、前者STDEVは「標本に基づいて予測した標準偏差を返します。」、後者STDEVPは「母集団全体に基づく、ある母集団の標準偏差を返します。」とあります。正直申して、全く意味が分かりません。) (2)494.97になる標準偏差(エクセルの関数ですとSTDEV)の計算方法を教えてください。  数学にも、金融工学にも素人です。なにとぞよろしくお願いいたします。

  • ボリンジャーバンドの標準偏差の計算方法。

    ボリンジャーバンドの計算方法で良くわからない所があるので教えて頂きたいと思います。計算方法はn日移動平均線を基準とする場合、まずn日の標準偏差を求めます。n日の標準偏差は、n日間の個々の終値からn日移動平均値を引き、それぞれを2乗し、「その数値n日分を合計したものでnを割り」さらに平方根したものがn日標準偏差になります。これにより求められたσ(標準偏差)を、当日移動平均値から加減したものが±1標準偏差です。±2標準偏差を求める場合はσを2倍したものを加減します。という事なのですが「その数値n日分を合計したものでnを割り」という所は、その数値n日分を合計したもの「を」で割るではないのでしょうか?20日目の標準偏差値を求めるため具体的に数字を当てはめてみたいと思います。nは20日、20日目の終値は21,090、移動平均値は19,378、とします。よって21,090-19,378=1713X1713=2,932,656となります。この値のn日分の合計を24,909,236とすると、テキストによる計算では20÷24,909,236=0.000000802915 となり、これを平方根した0.00089606が20日標準偏差となると思います。しかしこれでは値が小さすぎて明らかに間違いだと思います。逆に24,909,236÷20=1,245,462、これを平方根で返してやると1,116となり+2標準偏差は21,610になると思います。でもこの値でも正解と微妙に違うんです。標準偏差の正しい計算方法と、今回示した例の+2標準偏差の値を教えて下さい。宜しくお願い致します。

  • 工程能力のN数補正について

    データ数(N数)が少ない場合の工程能力を求める際、標準偏差を補正したいです。調べたところ下記2つの方法があるようなのですが、どちらが正しい考え方なのでしょうか。使い分け等あれば教えていただきたいです。補正方法(1)のほうが(2)に比べて補正係数が大きく(信頼区間にもよりますが)、その意味するところの違いも教えていただきたいです。 できれば、実用面からエクセルでの計算例もあるとありがたいです。 ※下名の知識レベルとしては、学生時代に一度統計学の講義を受けた程度でほとんど忘れています。 補正方法(1)(・・・計算方法はわかりました)  標本から求めた標準偏差をχ二乗分布で区間推定し、  母集団の標準偏差とのずれを補正する   ※参考URL:http://ouenblog.divaandco.com/?eid=940571 補正方法(2)(・・・合っているかだけでなく、計算方法も不明)  標準偏差の不偏推定量D(Wikipediaより)を直接使い、標本の標準偏差との差を補正する。  具体的には、不偏分散u^2にはエクセルにおけるSTDEV関数で求めた標準偏差を代入し、  ガンマ関数の部分はGAMMALN関数内に自由度÷2、データ数÷2を入れて計算する?   ※参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE   →"統計値の標準偏差"の上から5番目の式 統計学は難しいですね・・・ ご回答よろしくお願いします。

  • 標準偏差及び3次、4次の中心積率の数字の意味につ…

    標準偏差及び3次、4次の中心積率の数字の意味について タイトルに書かせていただいた標準偏差等は計算できるのですが、導き出された数値の解釈が今一わかりません。よろしくお願いします。

    • 締切済み
    • ISO
  • 標準得点はなぜ平均0,分散1になるのか

    標準得点がなぜX~N(0,1)の分布になるのかが理解できません。 なんとなくですが、計算式 "(X-平均)/標準偏差"から、標準得点とは 「"平均から値Xの差"が標準偏差のどれくらいの割合か」 という意味だろうなぁと理解してます。 しかし、なぜこの計算式の結果が、平均が0、標準偏差が1の分布になるのでしょうか?

  • 標準偏差と平均偏差の違い

    標準偏差と平均偏差は、数字としての意味は何が違うのでしょうか。(算出方法の違いなどは分かります) 換言すれば、平均偏差でもサンプルのばらつきが表現できるのに、わざわざ計算過程をややこしくして標準偏差を求めることにどのようなメリットがあるのかということです。 『数種類の検体を用いて同一行程の実験を行い、その結果の値の揺れ(ばらつき)を求めたい』 このレポートへのアプローチとして、平均偏差または標準偏差を利用するとき、両者が意味的にどのような違いをもつのか、ご教授ください。

  • 株式のリターンってどうやって求めるの?

    一般的に株式のリターンが5%とか書いてある時、それって どういうふうに計算されているんでしょう? もちろん購入時1000円が売却時に1500円ならリターンは500円 で50%だってことはわかってるんですが、買い時はいっぱいあるし 売り時もいっぱいあるし、いったいどのデータを用いてリターンを 計算しているんでしょうか?さらに一般的にリターンってどのくらい の期間で得られるリターンのことを意味しているんでしょう?まぁ 1年間のリターンだとは思うんですが。。。 ご存知の方いたら教えて下さい!! 加えてできれば標準偏差の求め方もお願いします! これについてももちろん標準偏差の計算方法はわかってます。 いくつかリターンがあってその平均を求めてその平均値から 平均的にどのくらい乖離するかを計算するんですよね。 ただこれについてもリターンいくつあるんですか?無限? もしかして微分とか使わないと標準偏差求めれなかったり するんでしょうか? 株式に限らずリターンとか標準偏差の定義がよくわかりません。。。 すみませんが誰かご教示下さい!!

  • 標本標準偏差の発生確率を計算したい

    母標準偏差=7.0の母集団から、サンプルを6個取り出したときに 標本標準偏差<6.0となる確率を計算したいと考えています。 エクセルで計算する方法を教えてください。

  • エクセルの関数について教えてください。

    標準偏差を求めるのですが その表が4月から翌年3月になっていて ひと月のデータ数は最大で50くらいですが決まっていません。 空白の場所には 計算式が入っていて、データが入力されていないと 「0」が表示されています。 この「0」は標準偏差を計算するときも計算されてしまのですが 「0」は計算しないで標準偏差をだしたのですが 方法を教えてください。 宜しくお願い致します。

  • 発芽試験の根長測定の計算の仕方を教えて下さい

    発芽試験における、根長測定の計算の仕方を教えてください 発芽試験のGI(発芽指数)を求める計算の中で、誤差をどれくらい考えればよいのかわかりません。。。 約120個のコマツナの根の長さを測りました。 先生に教えてもらった方法だと 120個を30個、30個、30個、30個の4つのグループに分けて、それぞれ平均を出す。 (1)33.098875 (2)37.9744 (3)36.7502381 (4)40.05420833 (単位はmm) (1)~(4)の平均と標準偏差を出す。 36.96943036(平均) 2.918622002(標準偏差) また別の先生に教えてもらった方法だと 120個をすべて一気に平均と標準偏差を出す。 36.98711702(平均) 12.76690152(標準偏差) 二つの方法で標準偏差が大きく変わってきてしまいます。。。 どちらの方法をとればよいのでしょうか?教えて下さい よろしくお願いします。