• ベストアンサー
  • 困ってます

実験値の統計処理-T分布-について

今、実験値の統計処理を行っています。 同じ試料について一定量をサンプリングし、測定値を理論式に当てはめ、誤差伝播を考えた形x±Δxで実験値を算出しています。何度も測定を行ったので、平均値や分散などを計算したいんですが、処理の方法に困っています。 標本の平均値や分散などの不確かさは、それぞれに誤差伝播式 f:=f(x_i) ⇒ Δf = ( Σ(∂f/∂x_i)^2 Δx_i^2 )^(1/2) を当てはめて計算して良いですか? あと、t分布で母平均を推定したいんですが、標本の平均や分散に不確かさが含まれている場合、どのように計算すれば良いのでしょうか・・・?? 何卒ご教授宜しくお願いします。

noname#70525
noname#70525

共感・応援の気持ちを伝えよう!

質問者が選んだベストアンサー

  • ベストアンサー
  • 回答No.1

> 当てはめて計算して良いですか?  引用なさっている式は、fをxiについてテイラー展開して1次までで打ち切ったもの f(x1+dx1,…,xn+dxn)≒f(x1,…,xn)+Σ(∂f/∂xi)dx を使った近似において、xiの誤差がそれぞれ互いに独立であると仮定し、その分散を計算したものに他なりません。ですから、 (1) fは(x1,…,xn)の近傍で十分滑らかであって、誤差の程度Δxiの絶対値が小さい、従ってfは線形近似できる (2) xi(i=1,2,…)の持つ誤差は互いに独立である という条件でなら大丈夫。 > 標本の平均や分散に不確かさが含まれている場合  標本から計算した不偏推定量に不確かさが含まれていない場合などあるんでしょうかね。ふつーにやればいいんです。ふつーに。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 > 引用なさっている式・・・ 2乗のルートを取る当たり、ベクトルの長さを考えたものだと思っていたんですが、テーラー展開だったんですね。それなら、相対誤差は1より十分小さいので、この式で見積もって大丈夫そうですね。 > 不偏推定量に不確かさが含まれていない場合などあるんでしょうかね 不確かさという言葉がまずかったのかも知れません・・・。 上の式が使って計算すると、分散や平均がV±ΔV、<x>±Δ<x>と幅を持って計算されてしまうと思うんですが、母平均を推定する際に、露わになっている誤差 ΔV、Δ<x> の影響をどう処理すれば良いのか困っています。こういうときは、どうやって母平均の信頼区間を計算するのでしょうか・・・。

その他の回答 (4)

  • 回答No.5

ANo.4のコメントについて、念のためANo.4で申し上げたことをもう一度整理しますと、 ●母集団A: うどんの重量の、無限個の数値の集団。 ●母集団B: はかりを使って得られるであろう測定値の、無限個の数値の集団。  なので、Bは、(1)Aの分布、すなわちうどんの重量のばらつきの分布と、(2)ヘタレなはかりの誤差の分布、の両方から決まるある分布に従っています。 ●実際に持っているデータはBから取ったサンプルであって、Aからのサンプルではない。 ●このデータから、Aの分布に関する情報を引き出したい。  第一段階として、サンプルからBの母平均の分布と母分散の分布を推定する。(この段階ではかりの心配なんかしても無意味です。それも加味しての母集団Bですから。)  「母平均と、その不偏推定(つまりデータの平均値)とのズレ」は、(1)Aからサンプルを取る際に生じた偏りと、(2)はかりの誤差、の両方に起因しています。(そしてこのズレは、t分布(あるいは2乗すればF分布)に従う。)  ところで「Bの分布は、Aの分布とはかりの誤差の分布(両者は幸いにも、独立と考えられる)の合成である」、および「はかりの誤差の分布は平均Aと分散S^2を持つ」というアプリオリな知識を持っている。  そこで第二段階として、第一段階で得たBの母平均の分布と母分散の分布から、はかりの誤差による影響を除いて、Aの母平均の分布と母分散の分布を計算すれば良い。 ====================== > 測定値の平均は > Δ<N> = (1/測定数 * ΣΔN_i^2)^0.5 > だけ揺らいでしまいました。  間違ってます。というのは、この式は「(2)はかりの誤差に起因する、真の母平均と不偏推定量とのズレ」しか表していない。肝腎の「(1)サンプルを取る際の偏りに起因する、真の母平均と不偏推定量とのズレ」を無視しています。 (もし母集団Aにばらつきが全くないなら、すなわち「ヘタレなはかりの誤差の分布を調べるために、たった一杯のうどんを繰り返し測る実験をした」という事なら、この式で良い。が、そういう話じゃないでしょ?)

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 > ヘタレなはかりの誤差の分布を調べるために、たった一杯のうどんを繰り返し測る実験をした 私の過ちが分かりました。コレで目的は達せそうです。長々とお世話いただきありがとうございました!

  • 回答No.4

 少し、問題の在処が見えて来た気がします、stomachmanです。気のせいかもしれませんが。 ご質問の文章でよく分からないのは、そもそもiは複数の種類(たとえば、体重、身長、握力、…)の測定を区別するための番号なのか、それとも同じ測定の繰り返しを言っているのか。fって具体的には何のことなのか(「理論式」のことなのか、当てはめにつかう目的関数なのか、あるいは、平均を計算するというような統計操作のことなのか)。Δx_iは測定して得たものなのか、あるいは、どこかに書いてある数値なのか…  ま、要するに分からないことだらけ。なので、具体的にどれがどうとは言えず、曖昧な表現になるけど一般論を書きます。  測定誤差がランダムなものであれば、それを含めての母集団だと考えれば良いんです。  どういうことかと言うとですね:  例として、1変数の分布を考えます。たとえば、「学食のうどん1杯に入っているうどんの本数」。これは数値の集団である。ただし、無限杯のうどんが供されたときに初めて構成される集団であり、空想上のものである。けれども、これを母集団Aとする。(改めて確認すると、Aは数値の集団であって、うどんの集団ではない。)そのAについて統計を知りたい。  ですが、その母集団Aとは別に、「Aを計測器で測定して得られる値」がなす母集団Bを考えるんです。すなわち、「『突撃!ぼくらのうどん調査隊』の隊員が報告したうどんの本数」が母集団B。これもまた、無限に調査を繰り返したときに到達するであろう、数値の集団のことです。  で、実際に得られるのはBのサンプルだけです。Aのサンプルは得られない。  母集団Aが正規分布に従い、『突撃!ぼくらのうどん調査隊』隊員の測定誤差も正規分布に従うものとすれば、母集団Bもまた正規分布に従う。そこで、 第一段階:母集団Bが平均m, 分散σ^2の正規分布に従うとき、母分散の不偏推定量u^2は、サンプルの分散s^2とサンプル数nを使って、 u^2 = (s^2)n/(n-1) であり、そして、 z = n(s^2) は自由度n-1のχ二乗分布に従う。また、サンプルの平均 aを使って y = ((a-m)√n)/u を作ると、これは自由度n-1のt分布に従う。 というわけで、Bの平均の推定値の分布と、 Bの分散の推定値の分布が分かる。  つまり今度は、「Bの平均の推定値」という母集団Cと、「Bの分散の推定値」という母集団Dを考えている。これらは、このようなサンプリング調査を無限回繰り返したときに到達すると想像される空想上の集団である訳です。  第二段階:Bの平均の分布と、分散の分布に加えて、測定装置である『突撃!ぼくらのうどん調査隊』隊員の持つ誤差の平均Aと分散S^2が分かっているとする。このときに、Aの平均の分布と分散の分布はどうなるかを考えるのです。ここでANo.3の後半の話になります。    で、ご質問と補足を拝見すると、全くの憶測ですけれども、母集団Aと母集団B、すなわち「うどんの本数の集団」と、「うどんを測定器で測定して得た本数の集団」を混同なさっているのではないか、さらに、その原因は、「うどんの本数の集団」と「うどんの集団」とを混同なさっているからではないか、という印象を受けました。なので、問題の在処が見えて来た気がする、と申し上げた訳です。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

わかりやすい例を交えてくださり、ありがとうございます。 > 「うどんの本数の集団」と、「うどんを測定器で測定して得た本数の集団」を混同・・・「うどんの本数の集団」と「うどんの集団」とを混同・・・ 正直混同しているかどうかも分かりません・・・。 うどんの例をお借りしますが、うどんの本数の測定のために重さを量ったとして、その測定値(から計算されるうどんの本数)の揺らぎが、うどん一杯の本数の揺らぎにはならない・・・これは分かります。 食堂が公表するうどんの本数が本当かどうかを判断し、違えば抗議しに行こうとしている私がいるとします。 はかりでうどんの重さを Wi と量り、それにうどんの密度 ρ (うどん一本の長さはほとんど違わないとして・・・無理がありますが・・・)を掛け合わせて、うどんの本数 Ni=Wiρ=:f(Wi) を測定してたのですけれども、はかりの仕組み上 ΔW だけ、どうしても重さに揺らぎが生じてしまうことがわかっているので ΔNi の計算に ΔNi = ( (∂f/∂W)^2 ΔW^2 )^(1/2) = ρΔW という式を使いました。(実際の式ではρにあたる部分に 測定番号i への依存性が多少あります・・・Ni に対して無視しても良いような差ですが・・・) 一度の測定値だけじゃ信じてもらえないと思って何度か測定して、その平均 <N> を求めることにしたんですが、なにぶん私は貧乏で、 ΔNi の影響を無視できるほどのうどんを買うことが出来ず、測定値の平均は Δ<N> = (1/測定数 * ΣΔN_i^2)^0.5 だけ揺らいでしまいました。 各測定値 Ni には、うどんの長さの僅かな差で揺らぎ u^2 がありますが、どうも疑わしい結果が出たため、私の測定平均値は「ここからここまでに95%の確率で入ってます」とt分布から主張したいのですが・・・ ΔNi をの影響をどう考慮すれば良いのかと悩んでいるのが今の私です。 測定平均値推定区間と、うどんの本数の平均値推定区間をごっちゃにしていた面は多少あるかも知れません。 ΔNiは測定平均値の推定区間と別の事柄じゃないのかと思えてきたんですが、ΔNiの影響はありますか? 長々と申し訳ありません。

  • 回答No.3

ANo.2のコメントについてです。  系統誤差にもいろいろあるけど、主に「未知の要因による誤差」を系統誤差と呼ぶことが多い。それを除外できたとすると、計測器の狂い、つまり「同じものを測定したらいつも同じだけ出る誤差」が残ります。「計器によって生じると分かり切った誤差」と仰るのだから、後者の話でしょう。  これは「同じものを測定したときに±幾ら」という格好にはならない。もし複数の計測器で測ったデータをごっちゃにするのであれば、その前にそれぞれの計測器の持つ狂いを補正する(較正と言います)処理をしなくちゃだめです。  一方、そうじゃなくて、計測器の測定精度の限界が「±幾ら」と書いてある、という話であるならば、それは系統誤差じゃなくて、測定値の持つ精度、つまりランダムな誤差のばらつきを表している。  測定結果のばらつき(分散(σr)^2)は、標本の持つばらつき(分散σ^2)と計測器のランダムな誤差(分散(σm)^2)の和であって、両者は独立だから、 (σr)^2 = σ^2 + (σm)^2 という関係にある。この式から、σ^2 が計算できますよね。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

何度もすいません。 > 系統誤差じゃなくて、測定値の持つ精度、つまりランダムな誤差のばらつきを表している 統計は一通り学んだつもりでいたんですが、全然駄目みたいですね。これを「系統誤差」と呼ぶものだとばっかり思っていました。お恥ずかしい・・・^^; > (σr)^2 = σ^2 + (σm)^2 分散の意味を考えてみたら、示していただいた式が理解できました。でも、標本の平均の誤差が気になります。自分なりに、少し調べてみたところ、標本平均の誤差は、誤差伝播式から Δ<x>^2 = 1/N * ΣΔx_i^2 と計算して良いみたいで、標本数が30くらいあれば無視して良い?とのことだったんですが、今のケースがそれに当てはまりません。標本平均に誤差を含んでいて、それが無視できないような場合、母平均はt分布で推定するようなことは出来ないのでしょうか・・・。

  • 回答No.2

> 2乗のルートを取る当たり、ベクトルの長さを考えたものだと思っていたんですが 間違いではありません。標準偏差の2乗(つまり分散)の和を取って平方根を使うのは、ピタゴラスの定理によって、互いに直交する(つまり独立な)誤差成分の和ベクトルの長さ(すなわち、標準偏差)を計算するためですから。 > 上の式が使って計算すると、分散や平均がV±ΔV、<x>±Δ<x>と幅を持って計算されてしまう  仰る意味がさっぱり分からない。というのは、もしΔVやΔ<x>まで分かっているんなら、既に答が出ているのでは? この上何をやろうと言うのかが分かんない。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご親切にご回答いただき有り難うございます。 補足もこちらでさせてください。 > 仰る意味がさっぱり分からない。というのは、もしΔVやΔ<x>まで分かっているんなら、既に答が出ているのでは? この上何をやろうと言うのかが分かんない。 「系統誤差」という言葉で良かったと思うんですが、生の測定値は計器によって生じると分かり切った誤差が含まれていて、それを理論式と誤差伝播式で処理して実験値 xi±Δxi を得ています。これより母平均の信頼区間を求めるにはどうすれば良いですか? 代表値 xi だけに対して処理するということも考えてみたんですが、なんだかしっくりいきません。こういう場合、どうやって母平均を推定すれば良いのでしょうか・・・ 上手く説明できず、ごめんなさい。

関連するQ&A

  • 実験データの統計と検定でかなり困っています。

    植物の生長量を調べる実験を計画しています。 AとBの二つの処理区での生体重の変化を見る項目があります。播種して二週間後に、任意で20本を切り取り、生体重を測り、平均値を計算し、処理開始前の生体重とします。 (質問1.この20本のばらつきは標準偏差で表すべきですか、標準誤差で表すべきですか。) その後に、50本づつ条件が違うA区とB区に分けて栽培実験を行います。実験終了後に、この二つの区での生体重を測って、平均値を計算し、処理前の生体重と処理A区とB区での生体重がどのように異なるかを比べる実験です。 (質問2.両区それぞれのばらつきを見るには標準偏差を用いるべきですか、標準誤差を用いるべきですか。) (質問3.エクセルのツールバーを用いて、両区での結果が有意差があるかどうかを見るには、まず二標本を使った分散の検定を行い、分散が等しいかどうか見た上で、二標本によるt検定を行うということで何か問題ありでしょうか。)

  • 統計学の基礎?

    前提 日本人の身長の真の平均値を知るためには、日本人全員の身長を測定しなければならないが、それはおそらく不可能である。 そこで、一部の人(標本)の身長を測定し、その結果から推測したい。 標本(n)の身長もばらつき(標本分散:v)を持つし、日本人全体(母集団:N)の身長もばらつき(母分散:σ^2)を持つが、これらと真実の値(母平均:μ)や標本平均(m)との関係はどうなっているだろうか? ただし、各人の測定結果(身長)はX1,X2,X3・・・XNとあらわす。 問 1)日本人の平均身長= 2)日本人の平均身長の標準偏差= 3)標本の平均身長= 4)標本の平均身長= 5)標本の平均身長の分散から推定される日本人の平均身長の標準偏差= 6)標準誤差はσ/√nで与えられるが、これを標本分散を用いて表すと次のようになる。  標準誤差= 7)標準誤差を用いると、真実の平均値(母平均)があるであろう範囲(信頼区間)を特定の有意水準で求めることができる。有意水準5%のときの範囲(95%信頼区間)を表す式を示せ。 8)160、165,170,175,180というデータの平均の95%信頼区間を求めよ また、145,165,170,175,195というデータの平均の95%信頼区間と比較せよ。 以上の問です。 7と8以外は、数値を聞いているわけではなく、求める式を問うていることはなんとなくわかるのですが、ちょっとパソコンを利用して調べて回ったところ、どれが必要な情報かさえわからないレベルで、頭が痛くなってしまいました。 よろしければ問いの回答、その回答に至る考え方の流れなどを、簡単なものでも構わないのでご教授願えないでしょうか?

  • 測定値のばらつきにおける分散

    物理実験で測定を行い誤差評価において測定値のばらつきを求める際に、分散は   (分散)= Σ(xi-x)^2/n もしくは  (分散)= Σ(xi-x)^2/(n-1) のどちらかを使って算出するのだと思うのですが、使い分けがよくわかりません。 私が大学から与えられたテキストには「測定数nが大きくないときには分散として (分散)= Σ(xi-x)^2/(n-1)を用いる方が良い」と書いてありました。 この測定数が大きくないとは、どの程度を指すのでしょうか? たとえば、測定データが10個程度のならばどちらの式を使うのでしょうか? また、最初に提示した二つの式は「標本分散」や「不偏分散」といった標本の分散を 求めるものですが、そもそも実験で得られる測定データというのは「標本」として扱うのでしょうか? 全体の中から一部を取り出してるわけではないので、測定データは「標本」ではなく 「母集団」のように思えてしまいます・・・。 回答よろしくお願いいたします。

  • 間接測定による測定誤差

    物理実験で行った実験のデータ処理で誤差を求めています。測定値の平均二乗誤差や確率誤差についてはおおよそ理解できたのですが、間接測定の確率誤差というのがよく分からないのです。 レンズの焦点距離を求める実験ですが、1/a+1/b=1/fという式を変形し、f=ab/(a+b)となります。a,bについての測定を行い、それぞれの平均二乗誤差がσa,σbであった場合、最確値fの確率誤差を求めるにはどのような計算を行えばいいのでしょうか?

  • 統計学の問題の回答をお願いします。

    ミカンジュースに含まれるビタミンCの含有量を調べるために、 抜き取り調査を行った。n本のジュース缶から得られた含有量は「mg」の 値をX(i=1~n)と記す。 (1)標本平均 x と標本分散s^2は式でどのように表わされますか? (2)標本分散s^2が不偏性を有することを示してください。 (数式を展開することにより示してください。) よろしくお願いします。

  • 統計学、分散について

    標本平均の分散が誤差項が互いに独立ならば、標本平均の分散は Var(Xばー)=1/n(σ^2) であるという事に関して質問があります。 https://sites.google.com/site/kanolabweb/home/econometrics/note04.pdf?attredirects=0&d=1 の4ページ目に計算過程が書いてあるのですが、 Var(μばー)=E(uばー^2)になるのは何故ですか? Var(μばー)=E{(ui-uばー)^2}        =E{(ui)^2-2*ui*uばー+(uばー)^2}        =E{(ui)^2}-2*E{ui*uばー}+E{uばー)^2} となるんじゃないでしょうか? uばーの分散ってなんなんでしょうか?(誤差項の平均の分散ってどういう事なんでしょう?平均は平均で定まってるんじゃないんですか?) そもそも期待値の関数の形のままでの計算方法が良く分かっていないです。 また、どの部分の知識が抜けているから分からないのでしょうか? 読みにくいですが、ご教授よろしくお願いします。

  • 統計学

    統計学についての質問です。 平均u(ミュウ)、分散σ^2(シグマの2乗)の正規母集団から大きさ4の無作為標本の平均(標本平均)をX(Xバーのこと)とするとき、  確率P(|X(Xバー)-u|<σ)の値を求めよ。 まったく分からないので誰か助けてください・・・。

  • データの整理と平均値のまとめ方

    よろしくお願いします。 現在、実験を行っており、データの整理をしているのですが、まとめ方で困っているので質問させていただきました。 9000ほどの母集団から100個取り出し、帯電量測定をします。正規分布であることを確認し、同じ実験を3回繰り返します。 このような実験を数種類行い、どのように変化したか(平均帯電量やバラつき具合など)を報告しようと思っています。 ところが、この実験はばらつきが大きく、サンプリングの計算をすると100個では平均の誤差(平均と標本平均の差)が大きくなっていしまいます。 100個以上の測定では大幅な時間がかかり実験としても成り立たず、効率が悪くなるため、また、他の数種類の実験結果との比較のために同じ100個で統一するために、100個で行いました。(100個でも誤差が大きくなる、というだけの話なので問題はないと思います) ですが、同じ実験を3回行った結果について疑問点が出てきました。 実験から得られた標本平均Xbarと標準偏差σを、 Xbar-k*√(σ^2*(N-n)/n/(N-1)) < μ < Xbar+k*√(σ^2*(N-n)/n/(N-1)) (信頼係数K、母集団N、標本数n) の式に用いて平均の範囲を出せると思います。(誤差が大きいということはこの範囲が大きくなるということですよね) 同じ実験を行って誤差の違い(平均μから近いか遠いか)はあれど、平均μの値はかならずどの実験でも範囲内に入るはずですよね。 ですが、3回行った実験のうち、範囲が重ならない結果(重複する範囲がない)が出てきました。3回すべて重ならなかったり、2個だけ重なって残り1個は重ならなかったりしました。重なれば少なくともその範囲に平均μがあると思っているのですが・・・ 最初はこの3回行った同じ実験でそれぞれ得られた平均の範囲から平均の範囲をある程度決められるかなと思っていました。(誤差が大きくても) 原因として何が考えられるか考えたのですが、 1. 3回の実験のうち、測定中に触ったり何かしてちゃんと測定を行えなかったなど何らかの影響でちゃんとしたデータではない実験があるため。 2. 実は同一条件ではなかった(異なる実験扱いで比較できない) どのようにデータをまとめていいか困っています。すべてのデータを載せるのも要領の関係で難しいので、まとめたいと思うのですが・・・ 自分の統計の勉強不足なのでしょうか。 それか、Xbar±3*σで範囲を決めようかとも迷っています。 何か「ここは間違ってるよ」とか「こういう風にしたら?」などありましたら書き込んでいただけないでしょうか? わかりづらい質問でお手数おかけしますが、ご教授いただけますでしょうか。 よろしくお願いします。

  • 分布関数

    標本の密度関数がf(x)=x^(-a)である。 但し 0<x<1 0<a<1 標本からm個無作為抽出して平均値をとる操作をn回繰り返したときの、nを大きくしたときの平均の分布はどのようになるか分かる方教えて下さい。  この場合標本の分散が有限でないので正規分布にはならない。EXCELで簡単な例をやってみると、条件からx>0で、+方向に長いすそのを持った山になるので対数正規分布ではないかとおもいますが、いかかがでしょうか。

  • 標準偏差およびt-分布表について

    教えてください。 本に下記の例題がありました。 「取り出した標本が10、20、30、40であった と仮定します。この平均値の信頼区間をt表でもとめてください。」 回答は以下のようです 「平均xは(10+20+30+40)/ 4=25 標準偏差sは SQR{((10-25)^2+(20-25)^2 ・・・+(40-25)^2)/4)}=11.2 このxとsを下記の式に代入して t=(x-μ)/(s/SQR(n-1)) と記述して計算しますとあります。 質問1 標本から取り出したサンプルからの標準偏差の分母は 標本数nでなく、標本数nから1を引いた値n-1を分母として計算すると習ってきましたが、なぜこの問題ではsを求めるのにn-1でなくnで割ってあるのでしょうか? t分布表を使うときの標本の標準偏差はnで計算した値を利用しておこなうと考えるのでしょうか? 質問2 標本の標準偏差の分母はn-1とすると習ってきましたが、標本数が2のときには2-1ではなく2のままで標準偏差を計算すのですか? 標本が3を超えたときn-1を適応するのでしょう か?