• 締切済み

「t分布が自由度に従うのはなぜ?」の説明方法

たびたびお世話になっています。 t分布における「自由度」のうまい(=なるほど、と思えるような)説明方法がなかなか思いつきません。 ものの本で「自由度とは『標本の数から、作業に必要な平均値の数を引いたもの』と考えると汎用性がある」と知り、事実、「値を自由に選べるのは(n-1)個までで、最後のひとつはおのずと決められてしまう。だから我々に与えられた”自由”度は(nー1)である」という説明もなるほど、と思えます。 ただなぜそんな自由度がt分布で出てくるのか?t分布において、値が自由に選べるとか選べないとかはどこでどうからんでくるのか、そこが頭の中でうまく結びつかなくて困っています。 どなたかご教授ください。

みんなの回答

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.2

うまい説明はわかりませんが。 「計算したらそうなるから」というのが本当のところですが。 しいて言えば、t分布の自由度がn-1になるのは、分散の不偏推定量で、n-1が出てくるからですね。実際、t分布の分布関数を導出する途中で、n-1で割る分散が不偏推定量になっているという性質を使います。 じゃあ、「なんでn-1で割ると不偏推定量になるの?」っていわれると、「計算するとそうなる」としかいえないです。ヒマなら実際に計算してみてください。 http://case.f7.ems.okayama-u.ac.jp/statedu/lispstat-book/node119.html

  • selfer
  • ベストアンサー率76% (104/136)
回答No.1

こんにちは.とりあえず,ここでいうt分布を,よく使われる「student化されたt分布」だとして話を進めます. また,以下は厳密な説明と言うよりは,イメージ的説明をしています.その点御了承下さい. 御指摘の「t分布において自由度という数値は何を意味するのか?」については,統計法を実務的に勉強されている人は,「理屈はともかくそんなものである」とブラックボックス的に理解するのが第一段階でしょう.質問者さんは,次の段階に進まれているようですね. まず,t分布というのは,「ある数値が確率論的に散らばっているとして,特定の期待値を基準として,どのように散らばっているか」ということを考えるときに使う分布です.言わずもがなですが,分布という道具を持ち出すときには「あるデータは必ず『散らばり』がある」と考えていることになります. さて,分布には,「分布の基準点=期待値」と「数値の散らばり具合=分散」という情報が最重要となります. 例えば,「2」という数値が期待値であるとしても,これを基準としてどのように数値が散らばっていくかで分布の形は異なってきます.分散が「4」に比べて,分散が「9」の時の方が分布が横に広がることになります. t分布における自由度は,この分散と密接に関連があります.         z分布  t分布=──────────       自由度aのχ2分布 t分布というものは,上記のようにz分布とχ2分布によって構成されています.さて,注目してもらいたいのは,分母の「自由度aのχ2分布」の部分です.χ2分布というのは「二乗和の分布」といえるもので,自由度が大きくなればなるほど,χ2分布の形が広がっていきます(よくわからなければ,「自由度が大きくなればなるほど,分母部分の数値が大きくなるんだ」と漠然とお考え下さい).一方z分布の方は,自由度に影響されない,いわば定数扱いとなります(実際は確率論的に分布しているわけですが). そうすると,どうなるでしょう? 分子は定数,分母は変数です.不正確ですがイメージとして説明を続けます.  定数/変数(aの関数.ここでは倍数とする) a=1のとき, b/c=b a=2のとき, b/(c×2)=(b/c)×(1/2) a=3のとき, b/(c×3)=(b/c)×(1/3) aが大きくなるほど「定数/変数」の数値は小さくなっていきますね? あくまでも上記の「定数/変数」の例はイメージとして理解してもらいたいわけですが,t分布についても似たようなことになります. すなわち,自由度(aに相当)が大きくなるほど,分母部分(χ2部分)が大きくなり,「分子/分母」の数値が小さくなる.これは,t分布の形状としては「分布の横幅が小さくなる」ということなります.最終的に,aが∞に大きくなる場合は,t分布の形が最も小さくなるわけですが,これはz分布と一致します(自由度∞のt分布=z分布). 話をまとめると,t分布における自由度とは,数値の散らばり具合=分散をどの程度許容するか,という問題であり,形状としては,分布の広がりとして表現されます. 統計学の専門家ではなく,実務統計家の観点からは上記のよう説明できると思います. いずれにしろ,分布の仕組みに言及しなければならないので,「t分布の仕組みがどのようなものか,ちょっと難しめの話をしてもいいか?」を被説明者に確認を取るべきでしょう.

関連するQ&A

  • 統計学における自由度

    統計を勉強し始めたものです。 統計学における自由度の定義がイマイチわかりません。 なるほど!、と思う説明に出会えないでいます。 よく自由度は「自由に動ける変数の数」だと教科書に書いてあるのですが 例えば、2標本問題(e.g.男女の身長)で標本平均の差の標本分布を求める際、男子の標本の大きさをm、女子の標本の大きさをnとした時(互いに独立)の自由度はm+n-2となることが理解できません。 この場合、 「男子の平均」ー「女子の平均」 の分布を考えるので自由度(自由に動ける変数の数)はm+n-1でもいい気がしてしまいます。 教科書には「2つの標本平均を使って偏差の平方和を計算するから、自由度が2失われる」と書いてあるのですがなかなかこの説明が頭に入りません。 勉強不足で申し訳ありませんが、自由度を定性的に理解できる説明を教えて下さい。 よろしくお願い致します。

  • 標準偏差およびt-分布表について

    教えてください。 本に下記の例題がありました。 「取り出した標本が10、20、30、40であった と仮定します。この平均値の信頼区間をt表でもとめてください。」 回答は以下のようです 「平均xは(10+20+30+40)/ 4=25 標準偏差sは SQR{((10-25)^2+(20-25)^2 ・・・+(40-25)^2)/4)}=11.2 このxとsを下記の式に代入して t=(x-μ)/(s/SQR(n-1)) と記述して計算しますとあります。 質問1 標本から取り出したサンプルからの標準偏差の分母は 標本数nでなく、標本数nから1を引いた値n-1を分母として計算すると習ってきましたが、なぜこの問題ではsを求めるのにn-1でなくnで割ってあるのでしょうか? t分布表を使うときの標本の標準偏差はnで計算した値を利用しておこなうと考えるのでしょうか? 質問2 標本の標準偏差の分母はn-1とすると習ってきましたが、標本数が2のときには2-1ではなく2のままで標準偏差を計算すのですか? 標本が3を超えたときn-1を適応するのでしょう か?

  • t検定におけるt値の求め方について

    母平均の検定(1群を母平均と同じか検定)でt検定を行う際に、 T=(標本平均-母平均)÷(標本標準偏差)*√(n-1) と教科書にありました。ただ、次のサイト https://bellcurve.jp/statistics/course/9405.html を見ると、同じT値でも、 T=(標本平均-母平均)÷(不偏分散の標準偏差)*√(n) と書いてありました。不偏分散を求めるときに、n-1とするのは知っており、結局同じ式にはなっているのかと思いました。 以下質問ですが、 ①上の式はt検定なので√(n-1)は自由度を反映しているのだと思うのですが、自由度が違えば、下の式の不偏分散の求め方も、n-1で割るのではなく、n-2になったりするのでしょうか? ②以下のサイトに、nが大きければ、標本分散S²を母分散とみなしてz検定を行い、nが小さければ不偏分散を母分散とみなしてt検定をするとあります。 https://www.geisya.or.jp/~mwm48961/linear_algebra/t_test2.htm これは正しいですか?更に別の教科書には、nの数によって標本分散と不偏分散を使い分けるが、両方とも検定統計量Tを求めるとありました。それで、nが大きければTをZ分布表と比較すると書いてありました。 t検定は、サンプルが少ない時に使う確率密度のt分布表を使っていて、そもそもサンプルが小さい時点でt値を求めているから、比較先はt分布表だと思うのですが、、、。 解説のホームページによってかなりバラバラでどれが正しいのかわかりません。どうなっているのでしょうか。

  • 自由度とt分布

    自由度19のt分布の上側が2.5%が2.093 であるとき、帰無仮説が有意水準5%で棄却できるというのがわから ないでいます。t分布表の上側2.5%は片側検定? 有意水準5%は両側検定? おしえてください。

  • 統計学、自由度の意味がよくわかりません。

    「質問」 自由度の意味がわかりません 「質問の経緯」 統計学の学習をしています。自由度という言葉の意味がよく分からず困っています。 下記はあるウェブサイトからの自由度の説明の引用です "例えば、サンプルサイズが3のデータから算出された標本平均が5であるとき、1つ目の値と2つ目の値は自由に取ることができます。例えば、4と6とします。すると、3つ目の値は標本平均が5となるようにしなくてはならないので、「5」しか取ることはできません。つまり、自由に値を取れるデータの個数が1つ分減ってしまった(1つ分の情報量を失った)ことになります。したがって、自由度は「3-1=2」となります。" 全体的によくわからないのですが、上記の文章における >>1つ目の値と2つ目の値は自由に取ることができます が特に分かりません。例えば日本人の平均身長を標本から統計的推測をしたいとします。 この時、無作為に選んだ人間の身長の平均が標本平均となるはずです。 標本の中の一つ一つのデータについて、この人は平均身長は168で、とかこのひとは170でとか 値をつけることはないはずです。しかし上記の引用した文章においては まるで標本の中のデータの値を自分で勝手に決めているように思えます。 「質問まとめ」 自由度という言葉の意味がよく分かりません。 特に"1つ目の値と2つ目の値は自由に取ることができます" という、値を自由に取ることが出来る、という言葉が分かりません。 理解の手助けとなるようなアドバイスなどがあれば教えてほしいです。

  • 統計学(t値を2乗するとF値になる)について

    本に「t値を2乗するとF値になる」とあり、実際に確かめてみたところ、たしかに両者の値は一致しました。 しかし、なぜそうなるのかがわかりません。 本には、 t=(標準正規分布に従う変量)/【(自由度nのカイ2乗分布に従う変量/n)の平方根】であり、 F=【(自由度nのカイ2乗分布に従う変量)^2/n】/【自由度mのカイ2乗分布に従う変量/m】に2乗すると一致すると解説がありました。 しかし、「tってこんな値だっけ?」という点でひっかかっています。例えば、分子は「標準正規分布に従う変量」となっていますが、私が学んできたt値の分子は例えば「得られたデータの平均-μ」や「標本平均の差」などであり、標準誤差で割らないと「標準正規分布に従う変量」にならないのでは?と思ってしまいます。分母は尚更わかりません。 どなたか、噛み砕いて教えて頂けると有難いです。宜しくお願い致します。

  • 【統計学基礎】自由度とは?

    【統計学基礎】自由度とは? 以下の問題で自由度について答えさせられるのですが自由度とはなんでしょうか?自分はただ自由度=標本の大きさ-パラメータと考えていたのですが色々パラメータがどれを指すかによってかわってきて混乱してきています。 平均u=5、分散σ^2=4 の正規母集団より大きさn=16の無作為標本を抽出する。このときy=(n-1)s^2/σ^2は以下省略…また‐xを標準化したZは正規標準分布にしたがい、‐Xとs^2は統計的に有意であることから、z/√y/15は自由度???のt分布に従う。 という問題です。まずそもそもz/√y/15の式の意味もよくわからないのですがご回答お願いします。

  • 区間推定に使うt値

    ある母集団から10個の標本を抜取って、 標本の平均μと不偏分散σ^2、標本標準偏差σ/√10を求めました。 次に母集団の平均の区間推定を行います。 99%の信頼度で区間推定した場合、ある参考書に、 区間= μ ± t × σ/√10 と記されていました。 このtという値は信頼度とサンプル数(自由度)によって変化するとのことなので、 t分布表から選択して計算するようにと書いてあります。 自分は エクセルのNorminv(0.005,μ,σ/√10)~Norminv(0.995,μ,σ/√10) を使って求めたほうが簡単なので、こちらを使用するのですが、 上の参考書の値と異なってしまいます。 エクセルのNorminv関数にはなにか欠点があるのでしょうか? よろしくお願いいたします。 データ添付します。

  • 統計(自由度n-1)について

    統計の自由度のn-1で割るところがよくわかりません。証明とかいう意味ではなくて、0-1分布の場合についてです。例えばあるテレビの視聴率を調べるときに、標本数nを300とし、そのうちm人がある番組を見たとします。ここで視聴率pをp=m/nと定めます。このとき不偏標本分散はp(1-p)だとある本に書いてありましたが、n-1で割るのならnp(1-p)/n-1 になると思うんですがどうでしょうか?それともn/n-1=1 で近似したのでしょうか?少し分かりにくい文章ですいませんがどなたか教えてください。

  • 母相関0のときの相関係数の標本分布

    母相関0の二次元正規分布に従う母集団からn個(n≧3)の標本をとって、その(標本)相関係数rを得たとき、r√(n-2)/√(1-r^2)は自由度n-2のt分布t(n-2)に従うというの多くの統計の教科書で見かけるのですが、その証明はどうやればよいのでしょうか。 rを標本変数の式で実際に書いてみて式変形をするだけだとは思うのですが、うまくできませんでした。よろしくお願いします。