- ベストアンサー
統計の使用について
統計学についての質問ですが、 あるサンプルに対して、A値、B値、C値・・・ のように複数値が出るとします。 このような測定を複数回行い、 平均値と標準誤差を算出します。 この平均値と誤差を使って、 新たなサンプルが、平均値を出した 集団と同じ集団のものであると 証明する方法はないでしょうか。 また、このような作業を行うのに、 お勧めの参考書などないでしょうか。 教えてください。 よろしくお願いします。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
「サンプルが集団と同じものであることを証明する方法」はありませんが、第1種の危険(同じものであるのに大きな差が出てしまう確率;生産者危険)と第2種の危険(違うものであるのに大きな差が出ない確率;消費者危険)を数値化してみることはできます。工場では、抜き取り検査の結果を評価するのに、この考え方を使います。「統計的品質管理」というテーマで参考書を探してみてください。私が習ったのは50年以上前で、そのときは、森口繁一「初等数理統計学」しかありませんでしたが。
その他の回答 (3)
- stomachman
- ベストアンサー率57% (1014/1775)
No.2に付けられたコメントによれば、同じ母集団から取ったサンプルがN個あって、各サンプルiについてM種類の別の測り方で得たデータa[i,j] (i=1~N, j=1~M)がある訳ですね。で、それぞれの測り方についての平均値 m[j]と分散v[j] ( j=1~M)が得られた。で、ここに新しいデータz[j]( j=1~M)を持つサンプルをひとつ持って来た。 やっと話が見えました。 基本的な答は同じです。「同じ集団のものであると証明する方法はない。ただし、同じ集団のものでないと証明する方法ならある。」 「同じ集団のものでない」と判断する際の危険率については、それぞれの測り方が互いにどのぐらい相関を持つかによって、危険率の計算に影響が出ます (極端な例ですけど、測定Aは体積を、測定Bは質量を天秤で測定し、測定Cは質量を体重計で測った。なんてのだと、A,B,Cは強い相関を持つに違いありません)。互いに相関を持つ多次元の測定値がある場合の危険率の計算は結構面倒です。 なお、もし主成分分析などの計算パッケージをお持ちなら利用できると思います。
- stomachman
- ベストアンサー率57% (1014/1775)
A,B,Cの測定値を出したのはサンプル1個ではなくて、サンプルの集団じゃないんですか? だとすれば、最も基本的な検定です。易しい統計の本には必ず載っています。 それらの測定値でヒストグラムを作ってみて、たとえば平均m, 標準偏差sの正規分布らしい、と分かったとしましょう。 仮説「新たなサンプルが、上記と同じ集団に属する」が成り立つと仮定すると、その測定値xも同じ正規分布に従うはずです。 X = |(x-m)/s| を計算してみます。これが 2以上なら「新たなサンプルが、上記と同じ集団に属していない」と言うのが誤りである確率は5%程度、 3以上なら「新たなサンプルが、上記と同じ集団に属していない」と言うのが誤りである確率は0.1%程度 です。 これを、「(Xが3であるから)危険率0.1%で仮説は棄却できる」と表現します。 しかしこのことは、『Xが3以上なら「新たなサンプルが、上記と同じ集団に属している」と言うのが正しい確率は0.1%程度ある』ということを意味しません。 (新たなサンプルは集団Aか集団Bのどちらかに属することが確実だ、と分かっている場合は別ですが)、一般に、これだけの情報から「新たなサンプルが、上記と同じ集団に属する」と(いくらかの確率で)言う、ということは(どんな検定方法をもってしても)不可能です。なぜなら、ものすごく似ているけれど別のサンプル集団に属する、という可能性が常にあり、その確率は計算できないからです。ですから、Xが2未満になったら、「判定できない」と結論するのが正しい。 「同じ集団のものであると証明する方法」は、というご質問でしたから、以上により、「そんな方法はない。ただし、同じ集団のものでないと証明する方法ならある。」が答となります。
お礼
早速の回答、ありがとうございます。 書き込みがわかり難かったようで、 サンプル1 A値120 B値 130 C値 560 D値 360 サンプル2 A値113 B値 143 C値 630 D値 370 ・・・ サンプルn A値 n1 B値 n2 C値 n3 D値 n4 の値をそれぞれ、平均をとり、標準誤差を出す。 この平均値と標準誤差を使って、 ということでした。
- masuda_takao
- ベストアンサー率44% (47/105)
問題にしている状況が分からないので、推測ですが...。 t 検定で「2つのサンプルの間で、母平均値に差がない」ことを示せば良いのではないかと思いました。 t 検定を行う場合には、母分散の差がないことが前提になりますが、その前提が怪しい場合には、Welch の検定をすれば良いでしょう。 以下の URL に、説明があります。 参考書ですが、推定や検定を扱っている普通の統計学の教科書には大抵書いてあると思います。
お礼
早速の回答、ありがとうございました。 統計をよく理解していないので、間違った解釈かもしれませんが、t検定は、A値ならA値同士で有効ですが、 A値とB値の関係は無視されてしまうのではないでしょうか?
お礼
お礼が遅くなり、申し訳ありませんでした。 早速の対応に、非常に感謝しております。 品質管理の考え方で、対応できそうです。 「統計的品質管理」というタイトルで 検索してみたところ、多くの参考書やサイトを 見つけることができました。 これから勉強していこうと思います。 ありがとうございました。