• ベストアンサー

統計に関する質問です。

統計に関する質問です。 2つの集団が等しいか否かを確認するとき、通常は「2集団間の平均や分散に差がない」ことを帰無仮設としますが、「2集団は異なる」ことを帰無仮設として検定する手法はありますか? 「2集団が同じとは言えない」ではなく「2集団が異なるとは言えない」→「同じ母集団に属している可能性が高い」ことを示したいのです。

質問者が選んだベストアンサー

  • ベストアンサー
  • okormazd
  • ベストアンサー率50% (1224/2412)
回答No.1

たとえば,同じ母集団から何個か(たとえば10個)の標本を採ってきて,その平均を求めます。これを何回も繰り返したとき,その平均の分布がどうなるかは,統計的にわかっています。要するに平均に差の無い母集団から採ってきた標本の平均の分布がわかっているのです。仮説検定はこの分布を使った検定です。同じ母集団から採った標本の平均なら,この分布に従うので,この分布から極端にずれた場合は,同じ母集団からの標本ではないだろうとするのです。しがって,「「2集団は異なる」ことを帰無仮設」とした検定はできないことになります。もし,「2集団は異なる」ことを帰無仮説としたいなら,異なる集団から採ってきた,標本の平均の分布が必要でしょうが,うまく統計的に意味のある分布になるかわかりません。うまくいったとしても,異なる程度によって異なる分布になり,無限の分布があることになります。したがって,どの分布を使って検定をするのか決めるのも大変でしょう。現在,一般に行われている検定では,このような検定はできないでしょう。うまく工夫して,これができる方法でも考えられたらいかがでしょう。見込みがあるとも思えませんけど。

ogaty55
質問者

お礼

統計が素人の私に、分かりやすく教えていただきありがとうございました。 困難な理由が理解できました。 「異なる集団から採ってきた標本の分布」というものを設定するのが難しそうですね。

その他の回答 (4)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.5

 「同じ集団」を主張する検定法は無い、ことはご理解いただいた上で。  測定法としてA法があるが、「新たにB法を考案した。B法が使えるか」などの対になっているデータを判定するときに回帰分析を利用します。臨床検査などで、新しい方法を開発したときには、必ずといっていいほど論文に書いてあります。臨床検査だけでなく、一般の測定法の開発でも。回帰式の選択、回帰式の切片がゼロを通らない、などの処理が出来れば、一人前です。  ただ、回帰分析は、測定法のAとBの比較では、初心者でも大丈夫でしょう。が、応用範囲が広く、社会学などに適用すると、専門家でも間違っている論文を多々見ます。

ogaty55
質問者

お礼

お礼へのご返事ありがとうございました。 今回取り組んでいる事柄は、旧A法と新B法を比較することに近いので、 回帰分析を用いた各種論文について勉強し、自分なりの結論が導けるように 頑張りたいと思います。

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.4

> 困難であることは分かりました。 困難ではありません。「仮説検定の枠組みでは不可能ですけど、モデル選択の枠組みなら、実質的な困難は標本の大きさくらいしかありません」と言ったつもりでした。 > 標本数が小さい(20~30個程度) 各集団でそれだけあるのですか、両集団を合わせての話ですか? 「各集団で」だとします。モデルが正規分布なら最も複雑な場合でも「2 集団で平均も分散も異なる」ですから、未知母数は 4 つです。それなら c-AIC http://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96 くらいを使っておけば、標本が小さいから無意味だと言う人はいないでしょう。

ogaty55
質問者

お礼

補足していただきありがとうございます。 必要なサンプル数がどれくらいかという点も検討していたところでしたので、 アドバイス大変助かりました。 現在、各集団において10~30程度という微妙なところですが、 ご紹介いただいたc-AICに当てはめてみて最低限必要なサンプル数も把握しておきたいと思います。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.3

>「2集団が異なるとは言えない」→「同じ母集団に属している可能性が高い」ことを示したいのです。 可能性をの部分を無視すれば、「差が無い=同じことを証明したい」と判断します。これは統計学では、基本的には証明できません。これを、私も、数年苦しみ、出来ないことが分かり、「初心者の罠」と呼んでいます。教科書的には、「有意差が見られた」との記述はあっても、「差は無い」と書いているものが皆無(差は無い、と論文に書かれているのを何度が読んだが、初歩的な誤り)なのが証拠です。ただ、何故かを解説している本を読んだことはありません。  百万人を調査して、0.01でも差があれば、同じとは言えないからです。わずか0.01ても、単位が億円なら、現実的には意味があるでしょう。億万長者なら、『0.01憶円(百万円)くらい』と思うかもしれませんが、私には大金です。何をもって同じとするか、判断基準が無いので不可能、が私の結論です。  全員を調査して(一人でも欠けてもダメ)、全く同じ数値になれば、差は無い、と断言できますが。  また、使用前と後、のように、対のデータなら回帰分析を利用して「違っていない」と結論することは可能です。

ogaty55
質問者

お礼

回答ありがとうございます。 通常の検定の反対のようなイメージで捉えていたのですが、 「初心者の罠」ということで生易しい事ではないようですね。 回帰分析による方法についてもっと勉強してみたいと思いますが、 どのような方針で行うのか、よろしければヒントをいただけませんか? 例示していただいた「使用前」と「使用後」であれば、 それぞれについて回帰直線を引いて判断するイメージでしょうか?

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.2

z := {x, y} を標本、f を確率分布、p,q,r を母数、Z を確率変数として M0: z は f(Z,r) からの標本である M1: x は f(Z,p)、 y は f(Z,q) からの標本である とします。=/ を不等号として、M1 は通常の仮説検定で用いる複合仮説 p =/ q でなく、具体的な値 (p,q) による単純仮説であることに注意。(ANo.1 は複合仮説を想定した回答です。) 質問は「M1 を帰無仮説、M0 を対立仮説にできるか」であると解釈します。形式的には可能です。しかし M0 の母数は M1 の半分なので、M0 のあてはまりは M1 のあてはまりより常に悪くなります。だから採択されるのは常に M1 で、検定は役に立ちません。 標本に対する説明力の高いモデル(M0 か M1 か)を決定することを、モデル選択と言います。選択の基準はいろいろ提案されており、代表的なのは情報量基準です。これらを使えば質問の意図に対応できる可能性があります。ただ、あくまでも有限個の候補 {M0, M1, ...} からの選択になります。それから、モデル選択は大概が漸近理論に基づいており、標本が小さいと使えません。

ogaty55
質問者

お礼

ご回答ありがとうございました。 私の勉強不足のためご回答が十分に理解できたわけではありませんが、 困難であることは分かりました。 モデル選択の情報量基準などを勉強してみたいと思います。 ただ、今回対象としている標本数が小さい(20~30個程度)のため、 困難なのかなとも思いました。

関連するQ&A

  • 社会統計について質問です。

    友人に社会統計学について、質問を受けました。 私は心理学科なので、心理統計しか分からず、困っています。 どなたか助けてください。 以下のような問題です。 体重に関して正規分布N(μ,σ二乗)に従う母集団から、無作為抽出によって以下の16の標本を得た。 62,50,60,48,62,59,36,64,64,62,87,63,75,27,65,76 (1)標本平均、不偏標本分散、不偏標本標準偏差を求めよ。 (2)母平均の最尤推定値(最尤推定量の実現値)を求めよ。 (3)母分散は既知とする。このとき標本平均の標本分布はどのような分布に従うか。「確立変数~確率分布」という形式で答えよ。 (4)母分散は未知であるとする。このとき、母平均の95%信頼区間を求めよ。 (5)母平均は未知であるとする。帰無仮説をHo:μ=52としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1% 水準右片側検定をそれぞれ実施せよ。 (7)さらに、体重に関して正規分布する別の母集団から、無作為抽出して以下の16の標本を得た。2つの母集団の母分散は未知であるが、母分散は同じであると仮定して良い。「2つの母平均は等しい」を帰無仮説として、母平均の差に関する5%水準両側検定を実施せよ。(ヒント:t0.025(30)=2.042) 65,60,57,76,79,72,57,75,54,75,42,77,38,48,71,78 よろしくお願いします。

  • 統計解析法

    統計解析手法の検定についての質問です。 2つの母平均の差の検定の場合です。 帰無仮説H0:μ1=μ2 対立仮説H1:μ1≠μ2とします。 帰無仮説が棄却された場合は結論として対立 仮説が成り立ち、第1種の過誤はαであり、 このケースは問題ありません。 しかし、帰無仮説が棄却されない場合、第2 種の過誤の問題があり、積極的に結論として 帰無仮説が成り立つとは言えません。 上記問題は、2つの母平均の差の検定の手法を 使って、積極的に2つの母平均に差が無いと言 う結論を統計的に導き出す事の障害になります。 2つの母平均の差の検定の手法をうまく工夫 する事、又は、別の手法で、2つの母平均に差 が無いとの結論を統計的に導く事は出来な いでしょうか? ご教授の程宜しくお願い致します。

  • 社会統計について質問です。

    大学生です。社会学部の友人に統計学の課題について、助けを求められたのですが、これが私にもさっぱり分かりません。どなたか私達を助けて下さい。以下のような課題です。 母平均μ、母分散σ二乗を持つ正規分布でない母集団から、標本数900のデータを得たところ、標本平均は92、不偏標本分散は100であった。この場合、大標本であると見なして良い。ただし、母分散は未知である。 (1)仮説検定に用いる統計量は何か。また、その統計量は近似的にどのような分布に従うか。 (2)母平均の99%信頼区間を求めよ。 (3)帰無仮説をHo:μ=90としたとき、適切な検定統計量を求め、5%水準両側検定、1%水準両側検定、5%水準右片側検定、1%水準右片側検定をそれぞれ実施せよ。 よろしくお願いします。

  • 【統計】AとBが同じであることを確認する方法

    統計学的にAとBに差があるかどうかをみるときは、「AとBには差が無い」という帰無仮説を立てて、この仮説が95%超の確率(p<0.05)で棄却されるかどうか確かめますよね? では、AとBには差が無いことを確認したい場合は「AとBには差がある」いう帰無仮説を立てて、この仮説が95%超の確率(p<0.05)で棄却されるかどうか確かめるのですか? その場合、どのような検定方法があるんでしょうか? 一瞬、「AとBには差が無い」が棄却される確率が5%未満(p≧0.95)であれば、差がないことを確かめられるのかと思いましたが、JMPでこれが間違っていることを確かめました。(同じ平均値、中央値でも標準偏差が大きく異なる2群を入れて検定するとp=0.999…となる。これは「同じ集団」とは言えないですよね。)

  • 統計学について

    卒業研究で実験条件の決定に統計学な手法をつかいたいと思っています。分散が予めわかっていて無限母集団の平均値をできるだけ正確に調べたい場合、標本数をどのように決定すればよいかがわかりません。統計学の教科書で言うとどのあたりに載っていますか。それとも、そもそもこんなことはできないのでしょうか?

  • 統計で

    統計で 差があるかないかを示す検定で 良くt検定ってしますよね! それについて聞きたい事があります。 良く統計の本とかで、 男子の年収と女子の年収に差があるか? という問題で、 帰無仮説に 差がないをを立てて、 p<0.05 なら差はあるっていいますよね? 逆にp>0.05なら差はあるって言い切ってよいものなのでしょうか? それともほかの検定があるものなんですか? 卒業論文で悩んでます。 誰か統計に詳しい方よろしくお願いいたしますm_ _m

  • 統計学(検定)の問題なのですが…

    母平均が既知、母分散が未知である正規母集団の母分散σ^2>0について、 帰無仮説:σ^2=σ_0^2 対立仮説:σ^2>σ_0^2 と設定し、片側検定を有意水準5%で行うことを考える。真の値がσ^2=(1/3)σ_0^2であるとき、97.5%以上の確率で帰無仮説が棄却されるために必要な標本数の最小値はいくらか。 という問題が解けず、どなたか考え方をお教え頂けると幸いです(σ_0は添字です)。本文ではこの下にずらずらとカイ二乗の値が並んでいます。答え自体は分かっていて、22個ということでした。自分は東大出版会の統計学入門という本で学んだのですが、これに類する問題は目にしたことがなく、いささか戸惑っています。 また、もし宜しければこのように少し応用しなければ解けない統計学の問題集をご存知の方がいらっしゃいましたら教えて頂けると光栄です。単なる検定なら実行できるのですが、応用力が全く身に付かず困っています…。 長くなりましたがどうぞ宜しくお願い致します。

  • 統計学3

    以前にも似たような質問をして今回もその回答のようにやってみましたが、やっぱりうまくいきません。毎度申し訳ありませんがまた教えてください。 課題 8.  S 社の14インチ液晶ディスプレイ(A-xyz) 13 台の寿命を測定したところ,次の結果を得た.   寿命時間が指数分布に従うものと仮定して,平均寿命時間 t に関する 帰無仮説 H0: t=7942.00,対立仮説 H1: t<7942.00 を,有意水準 0.04 で検定せよ. また,平均寿命時間 t に関する下側信頼区間を信頼度 0.96 で構成せよ.    27847 6482 18846 8828 1778 6545 15847 5200 5443 9570 9870 1999 4086 検定統計量= 臨界値(棄却域の端の値)= 帰無仮説 H0は 棄却される,or棄却されない 信頼区間 ( 0 , ] ただし,検定統計量=2×標本数×標本平均÷(帰無仮説の元での平均寿命)

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 統計に関する質問です。

    統計に関する質問です。 小麦における3産地以上の蛋白質含量における差を比較しています。 それぞれ標本数の異なり、例えばアメリカ産は1000標本、カナダ産は500標本、国産は50標本となっています。 その場合は、分散分析し、差が見られた場合はturkey法という多重検定で精査する統計法が適しているのでしょうか? ご助言をよろしくお願いします。