データ間に差がないことを統計的に述べる方法

このQ&Aのポイント
  • データ間に差がないことを統計的に述べる方法を探しています。
  • 具体的には、何らかの統計手法を使用して差がないことを示したいです。
  • 例えば、異なるサイコロの結果を分析し、サイコロ間に差がないことを統計的に示したいです。
回答を見る
  • ベストアンサー

データ間に差がないことを統計的に述べるには?

データ間に差がないことを統計的に述べたい場合,どのような検定手法を実施すればよいのか? ということで,悩んでいます. 例としまして,以下のような条件で実験を行い,実験の結果を統計的にみて差がない(差がみられない?)と述べたい場合,3要因の分散分析を実施すればよいのでしょうか?御教示・御助言よろしくお願いします. 例) 2つの異なる六面サイコロ(サイコロA,サイコロB)を,朝昼晩に600回ずつ振り,サイコロの目を記録した. この結果をもとに,何らかの統計手法を実施し,サイコロAとサイコロBに差がないことを述べたい. 私の予想では3要因の分散分析を行い,有意差が見られなければ,2つのサイコロに差がない(差がみられない?)といえる,と予想しているのですが誤っていますでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

 誤っています. > サイコロAとサイコロBに差がない を実験で証明するということは,どうやったってできないんです.判定出来るのは「差がある」か「何も言えない」(せいぜい、「これだけの実験じゃ差があるとは言えなかった」としか言えない)かのどちらかだけ.  「サイコロAとサイコロBに差がない」という命題は「帰無仮説(null hypothesis)」と呼ばれ,実験によってこの命題は否定される(このとき「差がある」と言える)か,あるいは無に帰す(このときは何も言えない)かのどちらかしかありません.帰無仮説が肯定されるということは決して起こらないのです.  どういうことなのかといいますと:  もっと具体的に   H1:「出る目の平均値が同じだ」 という帰無仮説を考えて,二つのサイコロの出目を100回記録してそれぞれ平均を取りその差を計算したら,計算結果が丁度0になったとしましょう.すると,この実験結果によってH1は否定できない.ではH1は正しいのか.  ここで   H2:「サイコロAの出る目の平均値はサイコロBの出る目の平均値より0.001だけ大きい」 という帰無仮説を考えると,同じ実験結果はH2も否定しない.ところがH1とH2は絶対に両立しない,互いに矛盾した命題ですから,両方とも正しいということはありえません.だからH1が正しいのかH2が正しいのかまだ決まりません.  そこでもっとうんと沢山実験すれば,「H1は否定できないがH2は否定できる」という状況が生まれるかもしれません.が,その時にも   H3:「サイコロAの出る目の平均値はサイコロBの出る目の平均値より0.000001だけ大きい」 はやはり否定できないでしょう.実験の回数が有限であるかぎり,どんなに繰り返したところで,「H1が正しい(つまり,H1と矛盾するあらゆる命題は誤りだ)」という結論は得られない.  と,そういう事情なんです.  では、どんなことなら実験で言えるのかというと、たとえば   H4:「サイコロAもサイコロBも、振るたびに独立であり、かつ、サイコロAの出る目の平均値とサイコロBの出る目の平均値との差の絶対値は0.01以上である」 という帰無仮説を考える。「振るたびに独立」とは「過去の出目とは無関係に出目が決まる」という意味であり、従って、サイコロAの1の目が出る確率はいつもある一定値である。他の目も同様で、またサイコロBについても同様である。この帰無仮説によってひとつの確率モデルが決まります。このモデルに従って、「N回実験したときにサイコロAの出る目の平均値とサイコロBの出る目の平均値との差の絶対値が偶然の偏りのせいでd未満になってしまう確率P(N,d)」が確率論を使って理論的に計算できます(なかなか難しいですが)。  さて、実際にN回実験してみればその結果からdが決まります。これを使ってP(N,d)を具体的に算出してみたところ、非常に小さな値(たとえば0.0001%)になったとしましょう。すると、もし命題H4がもし正しいのだとするなら、こんな実験結果dが偶然出るなんてことはまずあり得ない。なので、H4は否定してよろしかろう。(このとき、「H4を否定する」という判断が誤っている確率[有意水準]はP(N,d)である。)この場合、命題H4の否定、すなわち「サイコロAかサイコロBは振るたびに独立ではないか、あるいは、サイコロAの出る目の平均値とサイコロBの出る目の平均値との差は0.001未満である」と言えるわけです。

その他の回答 (7)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.8

 「帰無仮説を肯定する」「対立仮説を棄却する」ということをやる「検定」は検定ではない.全て誤りです.そして「データに差がないと断定」されることは決してありません.適当な教科書を丁寧に読めばこれらのことが分かるでしょう.(しかし,大嘘が書いてある本がときどき見つかるのも,残念ながら事実なんですよ.)  一方,たとえば「製品Aの代用として製品Bが使える」と言いたい場合には,決して「データに差がないと断定」することを求めている訳ではありません.ただ,それらの製品のいくつかの性能だけについて注目して,「どの性能についても,製品Aの性能がばらつく範囲の中に,製品Bの性能のばらつきがほとんど収まっていること(あるいは,製品Aの性能を,製品Bの性能がほとんどの場合越えていること)」を示せば足りる.なので「間違う確率が最小になるように」という考え方が適用可能であり,統計で扱うことができます.

回答No.7

No6 さんがいわれるように、サイコロの例がまずいのです。 帰無仮説が棄却できないとき、帰無仮説を正しいとする基準は検出力のはず、間違った仮説を正しいとしたときの確率(ないしはそれを1から引いたものが)検出力(これを導く式の根拠は私には分かりません)です。 もともと、検定は どちらの選択をしても、すべての場合に、間違う確率が最小にになるように目指したものです。 だから、サイコロの例は別として、検出力がわかれば、そして、それがちゃんとしていれば、データに差ががないと断定できます。 あと、回帰を行い、ある範囲内にいる信頼区間が95%とかいうとらえかたもできるのではないでしょうか? ただ、分散分析は、一般線形モデルの特殊形です。制限最小二乗法というのが 稲垣氏の「数理統計学」にあります、ある線形な関係を帰無仮説として、その否定命題が対立仮説ですが、対立仮説を棄却するための統計量Fについては、同本のp.226に書いてあります。 ただ、Rとかではどうやるんだろう

回答No.6

色々述べられていますが, 解決策が無いわけではありません. 企業では,製品のコストダウン後の強度などについて 以前と差が無いと言うことを納入先に示す必要があります. そんな場合に似ていますね. 「同等性の検定」で調べてみてください. 参考書としては,永田先生のサンプルサイズの本とか, あまり見かけない手法ですが, 手法が無いわけではありません. ただ,これは,サイコロの出目ですよね. 皆さんが言われるように難しいかもしれませんね.

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.4

 差が無いことを言いたい、というのは、ド素人の陥る罠。 統計学の教科書に、「差が無い」と言う表現は無い。それは、不可能だから。

回答No.3

明らかに違っている点は、 帰無仮説が棄却されなかったからといって、帰無仮説が正しいとは言えない、(検出力とか第一種、第二種の誤り) これは、交互作用も同じ、主効果がなくても交互作用はあるかもしれない。 私がはっきりとわからない点は、サイコロの目は、正規分布にしたがっていない、その際に、一般線形モデルの回帰分析を使うような、分散分析の確率分布の前提をみたすのか? つまり、サイコロの確率分布自体は正規分布でないのにに分散分析は適用可能か? (各目ガ出る確率の誤差だけを見ているので、その分布は正規分布なので、多分大丈夫だとは思いますが)

  • fu5050
  • ベストアンサー率29% (187/628)
回答No.2

参考にならないかもしれませんが、統計値があやまっていないことを示すには2000件について調べればよいといいませんか?(トリビアでよくいっている)

tubarutubame
質問者

補足

回答ありがとうございます. ここでは一例で質問のような例を挙げていますので,その件については大丈夫です. わざわざのご指摘ありがとうございます.

回答No.1

>サイコロAとサイコロBに差がない 何を比較したいのでしょうか? 出る目の平均のみ? であれば分散分析可能です。 >私の予想では3要因 3つ要因とは何と何と何の事ですか? 私には1要因(サイコロの種類)に見えますが? 朝昼夜の違いを別の要因として2要因としてもかまいませんが、元々の検定の目的がサイコロの違いのみに言及してますので、1要因で朝昼夜は意味なしと見ているようにも思えます。

tubarutubame
質問者

補足

回答ありがとうございます. >何を比較したいのでしょうか? 出る目の平均のみ? であれば分散分析可能です。 2種類のサイコロを朝昼夜にそれぞれ600回ずつ振って,出た目(1~6)の回数をそれぞれ記録し,その結果を比較して,「朝昼夜,どちらのサイコロを使っても,観測される出目は統計的にみて差がみられなそうだ」ということを述べたい状況です. >3つ要因とは何と何と何の事ですか? 私には1要因(サイコロの種類)に見えますが? 「サイコロの種類」,「朝・昼・夜」,「サイコロの出目」で3要因と思い,そのように記述していますが,誤っているでしょうか・・・? 確かに,朝昼夜というのは何か捉えていない条件設定でしたね. サイコロを振る高さとかに設定すれば少しはマシでしたかね. よろしくお願いします.

関連するQ&A

  • 統計分析の方法と意味

    下記(1),(2)は5日ごとにA区とB区の値を示したもので、 A区とB区の間に有意差があるのかを調べたいのです。 時間的経過があるので単純に一元配置の分散分析では、おかしいと思い、単回帰分析を行ったところ、理解できない結果が出てきました。結果の意味が十分出来ていないのか、そもそもこのような分析に単回帰分析を用いること自体が間違っているのでしょうか。間違っているなら、正しい分析を教えてください。分析はエクセルで行っています(エクセル統計も入っています)。 統計について全く知識がありませんので、専門用語をあまり使わず、教えてください。 (1)A区 50.4,44.1,34.1,15.8   B区 67.5,46.8,39.5,16.6  一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は正しい気がする。 (2)A区 12.6,4.2,1.9,1.4   B区 12.0,5.9,2.0,1.0 一元配置の分散分析を行うと両区に有意差はない。  単回帰分析を行うと5%水準で有意差がある。 単回帰分析の結果は変な気がする(有意差がないのが正しいのでは)

  • 交互作用について

    二要因の分散分析をしたところ、 要因Aには有意差がでました。 要因Bには有意差がでませんでした。 ところがAとBの交互作用は有意でした。 こういう場合、なぜAとBの交互作用を検討することが重要なのでしょうか? また要因Aに有意差があり=主効果 でよろしいでしょうか? 統計に詳しい人だれかたすけてください・・・。

  • 分散分析で有意差が確認された場合、データの水準を解析範囲から外して再解析を行うことは駄目ですか?

    統計初心者の一人です。ご指導宜しくお願いします。基本的な質問で恐縮ですが、2元配置の分散分析で有意差が確認された場合、他と異なるデータの水準を解析範囲から外して再解析を行うことは統計上問題ですか? 分散統計で要因の一つを操作因子、もう一つは濃度因子にした2元配置の分散分析を行なっております。その結果、操作因子並びに濃度因子共に「有意差」が確認されました。 このため、元のデータの範囲設定を変更し、影響のありそうな操作因子や濃度水準を分散分析の計算範囲から除外して再計算を行なってみました。そうしたところ「有意差ありとはいえない」との結果が得られました。当然、信頼限界を計算してそれから有意な濃度範囲を求めることも行っています。 この結果をもとに報告書に実験の操作要因と影響する濃度の範囲として考察に加えようと考えていますが、この考えは統計的な観点からは邪道な考えでしょうか?もともと実験計画はR.Aフッシャーの3原則の一つである実験番号の割り当ての無作為化(ランダムに実験番号を割り付ける)が基本であるので、この様な解析はその考え方から逸脱するため意味を持たないかとも思っていますが、本当に駄目なのでしょうか? 理由を含めご教授願いたく宜しくお願い致します。レベルを下げて具体的にご教授願えれば幸いです。 <例> Data 水準-1 水準-2 水準-3 SampleA n=1 24 24 22 n=2 25 24 22 n=3 25 24 22 SampleB n=1 25 24 22 n=2 25 25 25 n=3 25 25 25 SampleC n=1 21 20 17 n=2 21 20 17 n=3 21 20 17 分散分析・・・Sample間(濃度)、水準間(条件)で有意水準5%で有意差あり →ここで、濃度、水準がどの範囲まで影響しているかを確認するために、下記のよ うにデータ範囲を変更して再解析 Data 水準-1 水準-2 SampleA n=1 24 24 n=2 25 24 n=3 25 24 SampleB n=1 25 24 n=2 25 25 n=3 25 25 分散分析 有意差なし 以上です。

  • 二元配置分散分析について

    今回A,B二つの項目についてa,bという二つの実験を行なった。 実験のnは10です。 t-検定にてAではaのほうがbより有意に高い値を示した。 それに対してBではaのほうがbより有意に低い値を示した。 A,Bともbの値は変わりがない。 aとbの平均値はほぼ同じである。 この結果を二元配置分散分析で行なうとA,Bの要因では有意差が出るのに対しa,bの要因では差が見られなかった。 このように極端に値が逆転したものに二元配置分散分析を適用することは可能でしょうか?

  • 有意差について

    統計分析をしています。 LSD法で5%水準で有意差なしと判断したのですが、エクセルの分散分析でみると1%水準で有意な結果となります。 統計ソフトがないので、LSD法は自分でエクセルに式を入力しました。 LSD法と分散分析で解析結果が異なるようなことはありうるのでしょうか? 統計について勉強が十分でないもので、戸惑っています。 どなたかご教示いただきたく思います。 よろしくお願い致します。

  • 分散の有意差について

    客先より分散の有意差検定を求められています。 ある金型を修正した際に修正前後で成形品の寸法値に 有意差があるかどうかを検証して欲しいといわれています。 有意差検定はこれまでも実施しておりましたが、客先より 私が実施しているのは平均値の有意差のみであり、今後は 分散の有意差も確認して下さいと言われています。 これまで私が実施していたのはExcelの分析ツールでF検定、T検定を 実施しておりました。 客先に分散の有意差の求め方を聞いてみましたが、客先では計算ソフトを 使用しており、実際には求め方等は分かっていないようでした。 分散の有意差の求め方なのですが、調べていく中で これまで実施してきたF検定こそが分散の有意差検定なのか? と思わせる文献等をいくつか確認しました。 但しはっきりそのように記載されていないのでよく分かりません。 F検定での結果が 等分散→分散の有意差無し 不等分散→分散の有意差有り という認識で正しいのでしょうか? もしくは全く別の求め方があるのでしょうか? またT検定が平均値の有意差検定という認識で 宜しいのでしょうか? 統計学は正直、詳しくありませんのでお手数ですが 分かりやすく解析して頂きたくお願い申し上げます。 また分散の有意差で別の求め方がある場合Excelで求められる方法を 教えて頂ければ大変助かります。 以上、どなたかお力を貸して頂きたく宜しくお願い致します。

  • 二つの項目の関係の有意差を求めたいのですが・・・

    二つの項目の関係の有意差を求めたいのですが・・・ ある要因を与えることで成長にどのような影響があるのか、という実験をしました。 要因のあるグループとないグループで縦軸に身長、横軸に体重の散布図から(近似式の?)有意差があるか求めよ、ということなのですがこのような場合どうすればよいのでしょうか? ヒントとして(答えでしょうか?)t検定、共分散分析とは言われているのですが、探せど二つ以上のファクター(?)がある場合の解析がわからないのです。 統計はまったくわからなくて困っています; できればエクセルで分析ツール以外のやり方のやり方を教えてください。

  • 2群間のデータ比較

    ある化合物Xの生体への影響を調べる実験をしました。 A群は無処置,B群には化合物Xを投与。各群n=5。 その結果,ある血中パラメータ(正常値:20-50)において下記のような数値が得 られました。 A群:30,35,40,35,40 B群:9000,200,40,7000,4000 正常値が25-50なので,明らかにB群(5例中4例)は異常値を示しており,「生物 学的有意差あり」と結論できます。 では統計学的にはどうだろうかと思いExcel関数を用いて統計処理をしました。 まず,FTEST関数で等分散性を調べたところ,P=7.15E-12となり,不等分散である ことがわかりました。 次に,TTEST関数(不等分散,両側検定)で群間比較したところ,P=0.088538(P>0.05 )となり,統計学的有意差なしとなりました。 生物学的有意差は明らかなのに統計学的有意差が無しとなり,気持ち悪いです。 この統計処理の手順,どこか間違っているでしょうか?

  • 統計について質問があります.

    統計について質問があります. よろしければ教えて下さい. 実験条件は以下の通りです. 2種類のトレーニング器具を用いた場合に,何も用いない場合と比べて効果があるかという実験設定です. 被験者は同一被験者で,ランダムに全てのトレーニング器具を実施し,測定しています. 1.何も器具を用いない場合 2.トレーニング器具Aを用いた場合 3.トレーニング器具Bを用いた場合 この3条件の効果の差を検定したいのですが,この場合は繰り返しのある1元配置の分散分析を用いればよいのでしょうか?t検定を3回繰り返すことは問題なのでしょうか? 例えば,t検定の場合,1と2に差はあるが,分散分析を用いた場合では有意差は無い場合があります. この場合に,1と2だけで論文を書いた場合はトレーニング効果はあるが,3種全てで論文を書いた場合は効果が無いという結果になると解釈するのはどうも腑に落ちません. よろしければ教えて下さい.よろしくお願いします.

  • 多重比較 p<.05なのにn.sと出ます

    現在、論文執筆のために、ANOVAで統計を行っています。 一要因6水準の分散分析の結果、p<.05と結果が出た部分があったのですが、多重比較を行ってみると、どの水準でもn.sとなってしまいます。このことについて、 1.この結果をどう読みとったら良いのか、 2.私としては、少しでも有意差を示せる結果をだしたいと考えています。なので、他にどういった統計的手法が考えられるかを教えていただけたら、と思います。 すみません、よろしくお願い致します。