- ベストアンサー
データ間に差がないことを統計的に述べる方法
- データ間に差がないことを統計的に述べる方法を探しています。
- 具体的には、何らかの統計手法を使用して差がないことを示したいです。
- 例えば、異なるサイコロの結果を分析し、サイコロ間に差がないことを統計的に示したいです。
- みんなの回答 (8)
- 専門家の回答
質問者が選んだベストアンサー
誤っています. > サイコロAとサイコロBに差がない を実験で証明するということは,どうやったってできないんです.判定出来るのは「差がある」か「何も言えない」(せいぜい、「これだけの実験じゃ差があるとは言えなかった」としか言えない)かのどちらかだけ. 「サイコロAとサイコロBに差がない」という命題は「帰無仮説(null hypothesis)」と呼ばれ,実験によってこの命題は否定される(このとき「差がある」と言える)か,あるいは無に帰す(このときは何も言えない)かのどちらかしかありません.帰無仮説が肯定されるということは決して起こらないのです. どういうことなのかといいますと: もっと具体的に H1:「出る目の平均値が同じだ」 という帰無仮説を考えて,二つのサイコロの出目を100回記録してそれぞれ平均を取りその差を計算したら,計算結果が丁度0になったとしましょう.すると,この実験結果によってH1は否定できない.ではH1は正しいのか. ここで H2:「サイコロAの出る目の平均値はサイコロBの出る目の平均値より0.001だけ大きい」 という帰無仮説を考えると,同じ実験結果はH2も否定しない.ところがH1とH2は絶対に両立しない,互いに矛盾した命題ですから,両方とも正しいということはありえません.だからH1が正しいのかH2が正しいのかまだ決まりません. そこでもっとうんと沢山実験すれば,「H1は否定できないがH2は否定できる」という状況が生まれるかもしれません.が,その時にも H3:「サイコロAの出る目の平均値はサイコロBの出る目の平均値より0.000001だけ大きい」 はやはり否定できないでしょう.実験の回数が有限であるかぎり,どんなに繰り返したところで,「H1が正しい(つまり,H1と矛盾するあらゆる命題は誤りだ)」という結論は得られない. と,そういう事情なんです. では、どんなことなら実験で言えるのかというと、たとえば H4:「サイコロAもサイコロBも、振るたびに独立であり、かつ、サイコロAの出る目の平均値とサイコロBの出る目の平均値との差の絶対値は0.01以上である」 という帰無仮説を考える。「振るたびに独立」とは「過去の出目とは無関係に出目が決まる」という意味であり、従って、サイコロAの1の目が出る確率はいつもある一定値である。他の目も同様で、またサイコロBについても同様である。この帰無仮説によってひとつの確率モデルが決まります。このモデルに従って、「N回実験したときにサイコロAの出る目の平均値とサイコロBの出る目の平均値との差の絶対値が偶然の偏りのせいでd未満になってしまう確率P(N,d)」が確率論を使って理論的に計算できます(なかなか難しいですが)。 さて、実際にN回実験してみればその結果からdが決まります。これを使ってP(N,d)を具体的に算出してみたところ、非常に小さな値(たとえば0.0001%)になったとしましょう。すると、もし命題H4がもし正しいのだとするなら、こんな実験結果dが偶然出るなんてことはまずあり得ない。なので、H4は否定してよろしかろう。(このとき、「H4を否定する」という判断が誤っている確率[有意水準]はP(N,d)である。)この場合、命題H4の否定、すなわち「サイコロAかサイコロBは振るたびに独立ではないか、あるいは、サイコロAの出る目の平均値とサイコロBの出る目の平均値との差は0.001未満である」と言えるわけです。
その他の回答 (7)
- stomachman
- ベストアンサー率57% (1014/1775)
「帰無仮説を肯定する」「対立仮説を棄却する」ということをやる「検定」は検定ではない.全て誤りです.そして「データに差がないと断定」されることは決してありません.適当な教科書を丁寧に読めばこれらのことが分かるでしょう.(しかし,大嘘が書いてある本がときどき見つかるのも,残念ながら事実なんですよ.) 一方,たとえば「製品Aの代用として製品Bが使える」と言いたい場合には,決して「データに差がないと断定」することを求めている訳ではありません.ただ,それらの製品のいくつかの性能だけについて注目して,「どの性能についても,製品Aの性能がばらつく範囲の中に,製品Bの性能のばらつきがほとんど収まっていること(あるいは,製品Aの性能を,製品Bの性能がほとんどの場合越えていること)」を示せば足りる.なので「間違う確率が最小になるように」という考え方が適用可能であり,統計で扱うことができます.
- eclipse2maven
- ベストアンサー率32% (33/101)
No6 さんがいわれるように、サイコロの例がまずいのです。 帰無仮説が棄却できないとき、帰無仮説を正しいとする基準は検出力のはず、間違った仮説を正しいとしたときの確率(ないしはそれを1から引いたものが)検出力(これを導く式の根拠は私には分かりません)です。 もともと、検定は どちらの選択をしても、すべての場合に、間違う確率が最小にになるように目指したものです。 だから、サイコロの例は別として、検出力がわかれば、そして、それがちゃんとしていれば、データに差ががないと断定できます。 あと、回帰を行い、ある範囲内にいる信頼区間が95%とかいうとらえかたもできるのではないでしょうか? ただ、分散分析は、一般線形モデルの特殊形です。制限最小二乗法というのが 稲垣氏の「数理統計学」にあります、ある線形な関係を帰無仮説として、その否定命題が対立仮説ですが、対立仮説を棄却するための統計量Fについては、同本のp.226に書いてあります。 ただ、Rとかではどうやるんだろう
- kamiyasiro
- ベストアンサー率54% (222/411)
色々述べられていますが, 解決策が無いわけではありません. 企業では,製品のコストダウン後の強度などについて 以前と差が無いと言うことを納入先に示す必要があります. そんな場合に似ていますね. 「同等性の検定」で調べてみてください. 参考書としては,永田先生のサンプルサイズの本とか, あまり見かけない手法ですが, 手法が無いわけではありません. ただ,これは,サイコロの出目ですよね. 皆さんが言われるように難しいかもしれませんね.
- kgu-2
- ベストアンサー率49% (787/1592)
差が無いことを言いたい、というのは、ド素人の陥る罠。 統計学の教科書に、「差が無い」と言う表現は無い。それは、不可能だから。
- eclipse2maven
- ベストアンサー率32% (33/101)
明らかに違っている点は、 帰無仮説が棄却されなかったからといって、帰無仮説が正しいとは言えない、(検出力とか第一種、第二種の誤り) これは、交互作用も同じ、主効果がなくても交互作用はあるかもしれない。 私がはっきりとわからない点は、サイコロの目は、正規分布にしたがっていない、その際に、一般線形モデルの回帰分析を使うような、分散分析の確率分布の前提をみたすのか? つまり、サイコロの確率分布自体は正規分布でないのにに分散分析は適用可能か? (各目ガ出る確率の誤差だけを見ているので、その分布は正規分布なので、多分大丈夫だとは思いますが)
- fu5050
- ベストアンサー率29% (250/859)
参考にならないかもしれませんが、統計値があやまっていないことを示すには2000件について調べればよいといいませんか?(トリビアでよくいっている)
- MagicianKuma
- ベストアンサー率38% (135/348)
>サイコロAとサイコロBに差がない 何を比較したいのでしょうか? 出る目の平均のみ? であれば分散分析可能です。 >私の予想では3要因 3つ要因とは何と何と何の事ですか? 私には1要因(サイコロの種類)に見えますが? 朝昼夜の違いを別の要因として2要因としてもかまいませんが、元々の検定の目的がサイコロの違いのみに言及してますので、1要因で朝昼夜は意味なしと見ているようにも思えます。
補足
回答ありがとうございます. >何を比較したいのでしょうか? 出る目の平均のみ? であれば分散分析可能です。 2種類のサイコロを朝昼夜にそれぞれ600回ずつ振って,出た目(1~6)の回数をそれぞれ記録し,その結果を比較して,「朝昼夜,どちらのサイコロを使っても,観測される出目は統計的にみて差がみられなそうだ」ということを述べたい状況です. >3つ要因とは何と何と何の事ですか? 私には1要因(サイコロの種類)に見えますが? 「サイコロの種類」,「朝・昼・夜」,「サイコロの出目」で3要因と思い,そのように記述していますが,誤っているでしょうか・・・? 確かに,朝昼夜というのは何か捉えていない条件設定でしたね. サイコロを振る高さとかに設定すれば少しはマシでしたかね. よろしくお願いします.
補足
回答ありがとうございます. ここでは一例で質問のような例を挙げていますので,その件については大丈夫です. わざわざのご指摘ありがとうございます.