• ベストアンサー

統計の使用について

統計学についての質問ですが、 あるサンプルに対して、A値、B値、C値・・・ のように複数値が出るとします。 このような測定を複数回行い、 平均値と標準誤差を算出します。 この平均値と誤差を使って、 新たなサンプルが、平均値を出した 集団と同じ集団のものであると 証明する方法はないでしょうか。 また、このような作業を行うのに、 お勧めの参考書などないでしょうか。 教えてください。 よろしくお願いします。

  • zxcz
  • お礼率80% (4/5)

質問者が選んだベストアンサー

  • ベストアンサー
  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.3

「サンプルが集団と同じものであることを証明する方法」はありませんが、第1種の危険(同じものであるのに大きな差が出てしまう確率;生産者危険)と第2種の危険(違うものであるのに大きな差が出ない確率;消費者危険)を数値化してみることはできます。工場では、抜き取り検査の結果を評価するのに、この考え方を使います。「統計的品質管理」というテーマで参考書を探してみてください。私が習ったのは50年以上前で、そのときは、森口繁一「初等数理統計学」しかありませんでしたが。

zxcz
質問者

お礼

お礼が遅くなり、申し訳ありませんでした。 早速の対応に、非常に感謝しております。 品質管理の考え方で、対応できそうです。 「統計的品質管理」というタイトルで 検索してみたところ、多くの参考書やサイトを 見つけることができました。 これから勉強していこうと思います。 ありがとうございました。

その他の回答 (3)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

 No.2に付けられたコメントによれば、同じ母集団から取ったサンプルがN個あって、各サンプルiについてM種類の別の測り方で得たデータa[i,j]  (i=1~N, j=1~M)がある訳ですね。で、それぞれの測り方についての平均値 m[j]と分散v[j] ( j=1~M)が得られた。で、ここに新しいデータz[j]( j=1~M)を持つサンプルをひとつ持って来た。  やっと話が見えました。  基本的な答は同じです。「同じ集団のものであると証明する方法はない。ただし、同じ集団のものでないと証明する方法ならある。」  「同じ集団のものでない」と判断する際の危険率については、それぞれの測り方が互いにどのぐらい相関を持つかによって、危険率の計算に影響が出ます (極端な例ですけど、測定Aは体積を、測定Bは質量を天秤で測定し、測定Cは質量を体重計で測った。なんてのだと、A,B,Cは強い相関を持つに違いありません)。互いに相関を持つ多次元の測定値がある場合の危険率の計算は結構面倒です。  なお、もし主成分分析などの計算パッケージをお持ちなら利用できると思います。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

A,B,Cの測定値を出したのはサンプル1個ではなくて、サンプルの集団じゃないんですか? だとすれば、最も基本的な検定です。易しい統計の本には必ず載っています。 それらの測定値でヒストグラムを作ってみて、たとえば平均m, 標準偏差sの正規分布らしい、と分かったとしましょう。 仮説「新たなサンプルが、上記と同じ集団に属する」が成り立つと仮定すると、その測定値xも同じ正規分布に従うはずです。 X = |(x-m)/s| を計算してみます。これが 2以上なら「新たなサンプルが、上記と同じ集団に属していない」と言うのが誤りである確率は5%程度、 3以上なら「新たなサンプルが、上記と同じ集団に属していない」と言うのが誤りである確率は0.1%程度 です。  これを、「(Xが3であるから)危険率0.1%で仮説は棄却できる」と表現します。 しかしこのことは、『Xが3以上なら「新たなサンプルが、上記と同じ集団に属している」と言うのが正しい確率は0.1%程度ある』ということを意味しません。  (新たなサンプルは集団Aか集団Bのどちらかに属することが確実だ、と分かっている場合は別ですが)、一般に、これだけの情報から「新たなサンプルが、上記と同じ集団に属する」と(いくらかの確率で)言う、ということは(どんな検定方法をもってしても)不可能です。なぜなら、ものすごく似ているけれど別のサンプル集団に属する、という可能性が常にあり、その確率は計算できないからです。ですから、Xが2未満になったら、「判定できない」と結論するのが正しい。 「同じ集団のものであると証明する方法」は、というご質問でしたから、以上により、「そんな方法はない。ただし、同じ集団のものでないと証明する方法ならある。」が答となります。

zxcz
質問者

お礼

早速の回答、ありがとうございます。 書き込みがわかり難かったようで、 サンプル1 A値120 B値 130 C値 560 D値 360 サンプル2 A値113 B値 143 C値 630 D値 370 ・・・ サンプルn  A値 n1 B値 n2 C値 n3 D値 n4 の値をそれぞれ、平均をとり、標準誤差を出す。 この平均値と標準誤差を使って、 ということでした。

回答No.1

 問題にしている状況が分からないので、推測ですが...。  t 検定で「2つのサンプルの間で、母平均値に差がない」ことを示せば良いのではないかと思いました。  t 検定を行う場合には、母分散の差がないことが前提になりますが、その前提が怪しい場合には、Welch の検定をすれば良いでしょう。  以下の URL に、説明があります。  参考書ですが、推定や検定を扱っている普通の統計学の教科書には大抵書いてあると思います。

参考URL:
http://aoki2.si.gunma-u.ac.jp/lecture/Average/t-test.html
zxcz
質問者

お礼

早速の回答、ありがとうございました。 統計をよく理解していないので、間違った解釈かもしれませんが、t検定は、A値ならA値同士で有効ですが、 A値とB値の関係は無視されてしまうのではないでしょうか?

関連するQ&A

  • 統計学における標準化について

    A)標準化は、次のページの https://bellcurve.jp/statistics/course/19647.html サンプルxー平均値/標準偏差 であり、これで正規分布のz値と照らし合わせて確率を求めるというのは理解できました。 B)ただ、実践において、統計量Zを求める際に、次のサイトでは、 https://bellcurve.jp/statistics/course/9317.html z=x⁻(xの平均) -μ / √σ² * √n とあります。 分母が標準誤差です。 C)一方次のページでは、 https://bellcurve.jp/statistics/course/9490.html z=X-np / √np(1-p) とあり、こちらは標準偏差で割っています。 以下質問ですが、 1)Aは何も推定しておらず、すなわち記述統計で全サンプルが分かっている、すなわち母集団での話で、あるサンプルxiの全体のうちでの発生確率を示すために標準化してZ値を求めている、という考え方で正しいですか? 2)Bは標準誤差で割っているのは、母集団σ²から抽出した標本であり、抽出した確率変数Xについて、母集団が正規分布に従うのであれば、X~N(μ、σ²/n)に従うので、この分散の√を使っている(すなわち標準誤差を使う)という認識で正しいですか? 3)Cは二項分布のnが大きいときに中心極限定理で正規分布と近似させて解くという計算の話なのかと思いますが、これは、Aと同じように、変数Xから平均を引き、標準偏差で割っています。これは抽出した標本だと思うのですが、Aと同じ方法でいいのでしょうか?かといって。正規分布から抽出していませんが……。 それぞれの用語とかも良く調べましたが、いまいち使いこなせていません。A,B,Cそれぞれ分子も違うので、標準化を基本に色々やっているのだろうと思うのですが、使い分けというか、それぞれの出てくる場面とかも教えてほしいです。 よろしくお願いいたします。

  • 測定値と計算値とが同じかどうか統計的に判定したいのです。お教えください

    測定値と計算値とが同じかどうか統計的に判定したいのです。お教えください。 測定値A1,A2,A3,A4とその平均がAであり、計算値B1,B2,B3,B4とその平均がBであるとき、この両者が同じ平均値を持つ母集団であることを統計的に証明したいのです。t検定を使って、平均値が等しい確率が1に近いことを持って、両者が同じ母集団に属すると考え、現在、この方法で行っています。

  • 信頼できる標本抽出に必要な数の決め方(統計)

    はじめまして。 実験で適切なサンプル測定数を決めたいのですが 統計的なことに弱く困っています。 どなたか教えてください。 例えば 5 6 8 8 9 10 6 7 といった母集団(n=8,平均=7.375,標準偏差=1.69) があった時に、 この母集団から信頼度α%の平均値を得るのに必要な 最低のサンプル数はどうやったら知れるのでしょうか。 どなたかご回答お願い致します。

  • 統計を知っている方、助けてください

    統計を知っている方、助けてください サンプル数:100 平均値:0.12 標準偏差:0.01 のとき 0.1以下となる確率を算出したいです 算出方法教えていただけませんか? よろしくお願いいたします

  • Fold Changeで表すグラフにする際のエラーバーの付け方(統計学)

    統計学初心者です. 実験データをFold Changeで表すグラフにする際の,エラーバーの付け方がわかりません. 具体的には,たとえば, 非刺激群Aの平均値が100,標準誤差1.5 刺激群Bの平均値が200,標準誤差2.0 治療群Cの平均値が140,標準誤差1.2 というデータがあり, Aが1に対してBが2,Cが1.4というグラフを作りたいのですが,その誤差(すみません,統計的に,正しくは何と言うのかわかりません)をエラーバーで示さなくてはなりません. どのような計算が必要なのでしょうか? 追; グラフをローデータで表せない理由は,A,B,Cの実験が,実際には別々の実験で行われているため(実際はABCだけでなくもっとたくさんのサンプルを持っています),各々の実験のcontrolに対してのFold Changeをとらなくてはいけないからです.質問を簡便にするため,上記のような例・値とさせていただきました. よろしくお願いいたします.

  • 統計学について質問です。

    統計学について質問です。 統計学が全然わかりません。 正規分布、とT分布の違いがよくわかりません。 正規分布が十分に大きいn個のサンプルを取り出す。母集団の平均、標準偏差がわかっている。 これってどういうときに使うのでしょうか? そもそも母集団平均がわかっている状況って存在するのですか?? 正規分布、T分布、F分布、ガウス分布、ポアソン分布などいろいろありますが、何が何だかわかりません。理工系の統計術として最低限知っておきたいので、わかりやすくお願いいたします。

  • 統計の計算ができません・・・!!!

    至急お願いします!統計分かる方! 四苦八苦してます・・ (1) データB 13.5.7.7.9.10 最大値に対応する10の偏差値を計算しなさい (2) P(0≦Z≦0.50)=0.1915 P(0≦Z≦1.00)=0.3413 P(-∞≦Z≦∞)は何でしょう (3) N(10,16)からサンプルを40個抽出した場合 その標本平均に関する標準誤差を計算しなさい よろしくおねがいします!!!! この質問に補足する

  • 統計学?の誤差の求め方が分かりません。

    統計学の話になるのかよく分からないのですが、 以下のようなデータがあった場合に、 全体の誤差(何%?)というのはどのように求めたら良いのかが分かりません。     予想時間 実際の時間(単位:h) 作業A  10.0   9.0 作業B   8.0   8.0 作業C   5.0   6.0 作業D   3.0   3.0 作業E   7.0   8.0 ------------------------------- 合計   33.0   34.0 合計の差分が1.0なので 誤差の%は"1÷33"で およそ"3%"と導くのは間違いですよね? 作業毎に誤差があり、その値が全て違うので、全体の誤差は?となるとどのように求めて良いのか統計学の書籍を見ても全く分かりません。 全体の誤差が何%でしたと言うには、どうしたら良いでしょうか?? 分かる方がいれば是非教えていただきたく思います。

  • 統計学

    統計学なのですが、標本平均の分布と母集団分布の関連性はどのようなものでしょうか?あと分布型、平均の分布の平均と標準偏差について教えてください

  • 繰り返し測定による誤差の減少について

    ある母集団より、無作為にN個サンプリングします。 1個のサンプルについて、 1回測定する場合と、 複数回繰り返し測定した場合を考えます。 複数回測定した方が偶然誤差を小さくできると思うのですが、 何回測定することによって、○○%偶然誤差が減少した・・・。 などの考え方はございますでしょうか? また、公式などから証明することは可能でしょうか? ご教授いただければと思います。 どうぞ宜しくお願いします。