• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:全数調査でもカイ二乗検定?)

全数調査でもカイ二乗検定?

このQ&Aのポイント
  • カイ二乗検定は全数調査のデータでも使えるのか疑問です。
  • カイ二乗検定は標本調査でクロス集計をした場合に行う必要があるのか疑問です。
  • 初歩的な質問ですが、全数調査でカイ二乗検定をする必要はあるのか教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

 検定の目的は、母集団について、何かを明らかにしたい。しかし、全数は調査できないから、標本のデータから推定します、ということです。私が例に出した1年生と2年生は、全員を調査することが可能でしょうから、検定は不要です。例えば、身長の平均値は、測定ミスが無ければ、誰がやっても同じ結果になるからです。 >組合員が100名弱で、アンケートの回収率が8割ぐらいをみこんでいるのですが  この場合は、全数調査にはなりません。1名欠けても統計学上は文字通りで全数にはなりません。すなわち、残りの2割が入ると、異なる結果になるからです。身長だと、今日と明日では誤差範囲でしょうが、この場合は今日と明日の回答者が異なる可能性が大きいので、差があることを主張するには、検定が必要です。  回答率100%なら、検定は不要です。  有意差は、学術論文では必要不可欠ですが、現実の社会の価値とは無関係です。例えば、所持金はわ調べたら、Aグループは10±1、Bグループは100±1だった。100人も調べれば有意差はでますが、単位が円ならばどちらでも気にしませんが、億円であればBグループとお友達になりたい、と思います。  有意差を出したあとの現実的な応用については、どこにも書いてありません。有意差が出ると鬼の首を取ったような印象がありますが、・・・。

cat-paw
質問者

お礼

テキストなんかには書いてない、知的興味をそそるご回答、ありがとうございます。 アンケートの回収率が100%でないかぎり、検定は必要・・・なるほど。しかし、「統計的に有意≠現実的な価値」というあたり、なんか、心苦しいですね。 どうやら、統計的な結果が、実際の行動や生活では何を意味しているのかを理解するには、統計学以外の考え方が必要なようです。

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 検定は、有意差を求めるものです。なぜ検定するのかといえば、全数のデータを得られないからです。  検定の前提に、サンプリングがありますが、このサンプリングはいかに無作為抽出をやっても、やる人によって偶然が生じ、同じ数値にはなりません。ですから、偶然性を排除するために検定が必要になります。  例えば、ある小学校で、1年生と2年生の身長の差を比較します。全員を測定すれば、1mmでも、0.1mmでも、差があれば、差はあるのです。誰も異議は唱えません。全国の小学校となると、全員を調査しにくいので、サンプリングによって検定が一般的です。ただ、身長は、学校の定期健康診断の必須項目なので、文部科学省なら全数調査でしょうが。  ここで、5cmならまだしも、0.1mmの差が現実にどれだ価値があるのか、この判断は統計学の守備範囲外です。有意差の判定法については、多くの著作がありますが、有意差有りとの結果で鬼の首をとったように勘違いされている感を受けますが、現実社会でどれだけ価値があるのか、これは統計学の有意差検定の関与するところではありません。  全数の場合、本当に全数なのか否かは確認してください。小学生なら、健康診査の当日欠席したものは、とツッコマレます。  ここからは、通常は代表値で比較します。例えば平均値(上述の身長)中央値(データが正規分布していない貯蓄額)、最頻値(アンケートに多い)などです。

cat-paw
質問者

補足

丁寧なご回答、ありがとうございます。 確認ですが、本当に「全数」を調査したものなら、統計的な検定はいらないということで、よろしいのですね。 じつは、私の会社の労働組合員のみなさまにアンケートをしようと思っています。 「組合のイベントへの参加率は、年齢、性別、家族形態や、ふだんの働き方で、いかに変わってくるか」というテーマでアンケート調査しようとしているのです。 それでですが、組合員が100名弱で、アンケートの回収率が8割ぐらいをみこんでいるのですが、この場合は「全数調査」という位置づけで、いいのでしょうか? そうだとすると、「統計的検定」なんてもの、しなくてもよいのですよね? 調べる人数が少ないので、検定なんて行わなくていいや、全体の傾向だけつかめればいいや、と、私は思っていたのですが・・・。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • カイ二乗検定について

    サイコロがフェアであるかどうか、カイ二乗検定を行いたいのですが テキストには、自由度5で理論度数で割るやり方で解答がなされているのですが これを、自由度6で、二項分布の分散で割るやり方で解くのは間違いなのでしょうか? 具体的には p=1/6 nは理論度数*6=全試行回数 [(標本度数-理論度数)/√np(1-p)]二乗 を1の目から6の目まで足して、それを自由度6のカイ二乗検定に掛けるやり方です。 もし分かる方がいらっしゃったら、教えていただけるとありがたいです。

  • カイ2乗について

    カイ2乗について、以下サイトを参照していたら疑問が出たため投稿します。 http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm 上記サイトの「簡単な例でイメージ作り(1)」項の「考え方」という項目に下記とあります。  (↓行頭「|」の行はサイトからの抜粋です。)  | この式は,観測値が大きくなると必要以上に大きくなり過ぎる.実際,標本を10倍に増やしたときを考えると,次の分布が上の分布と比較して100倍ずれているとは言えない.  |  血液型 A型 B型 AB型 O型 計  |  観測度数 370 250 120 260 1000  |  期待度数 400 200 100 300 1000  | そこで,各々の(差)2を各々の期待度数で割った次の式を考え,χ2と呼ぶ.  この10倍された、観測度数や期待度数にて、カイ2乗値を計算すると、カイ2乗値についても元の10倍になりました。 そうなると、元々のデータ(10倍していないデータ)での検定結果は下記とありますが、10倍されたデータだとそう言えなくなるということでしょうか?  | χ2<7.81 だから有意水準5%で「有意差はない」と言える.  もし仮に、実際にこの10倍された観測度数や期待度数のような表(血液型の表)が、現実の調査結果として手元に得られたとすると、どのようにすればカイ2乗検定にて「有意差あり、なし」を出せるのでしょうか? (あるいはカイ2乗検定は出来ない…??…標本数が多すぎる??…モヤモヤしてわかっていません。) 小生、統計や数学のド素人でしてわかりやすく教えて頂けると幸いです。 どうぞよろしくお願いします。

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • カイ2乗検定を使ってよいか?

    よろしくお願いいたします。 同一対象者にて、ある年と、その翌年の肥満者の割合を比較したいのですが(ある年には10%だったが、翌年は12%、有意に増加したかが知りたい)、その場合の検定方法はどのようにしたらよいのでしょうか。 自分で考えたのが、肥満の有無でクロス集計をかけてカイ2乗検定、なのですが、解釈のしかたがおかしいかな?と思い、質問させていただきました。 ソフトはSPSSを用いています。 教えていただけますと幸いです。 よろしくお願いいたします。

  • カイ2乗検定の使い方とp値について

    アンケートを行いました。 結果の考察を行うにあたり、カイ2乗検定で優位差が認められるかを知りたいと思っています。 SPSSやエクセルでカイ2乗検定をしたところ、spssの場合「漸次有意確率(両側)」に「8.89E-13」や「5.964E-27」、エクセルの場合「p値」に「7.15688E-05」などアルファベットの入った数値が出てくることが多かったです。5%や1%水準で有意差が認められるかどうかを知りたかったのですが、この数値の意味が分かりません。 この様な数値が出てくるということは、どこかがおかしいのでしょうか? p値がおかしいこともあって、そもそもカイ2乗検定でよいのかが不安になりました。 「成績」と「開始時期」で、「開始時期が早いほど成績がよい」といったようなことが見たいと思っています。 成績は11項目、開始時期は12項目あります。SPSSで集計結果のクロス集計表を作るときにカイ2乗検定も行ったところ、値が350.994、自由度が110、確率(両側)が5.964E-27でした。 「開始時期が早いほど成績がよい」という結論を導き出したいのですが、この場合「カイ2乗検定で5%水準で有意差が認められた」となったらこの結論を導き出せるのでしょうか?例えば2つの項目の比較ではなく、11×12項目のカイ2乗検定で有意差が認められた場合、何に有意な差が認められたのかがよく分かりません。 クロス集計表を作成し、グラフにしたところ、開始時期によって差がありそうなのですが、単純なパーセントの数値の大小でしか分かりません。調査結果ではなく、卒業論文なので、ただ「これは何パーセントでこれは何パーセントだった。この時期以前に始めた人の方が高い成績を回答している割合が高い」のようなことだけでいいのか…と悩んでいます。 まとまりのない文章で、質問内容も多九手申し訳ありませんが困っています。よろしくお願いします。

  • 正規性の検定でのカイ2乗検定の自由度について

    エクセル統計p051に記されているものです。 標準化値(-1.2,-0.4,0.4,1.2,∞) 理論確率(0.1151,0.2295,0.3108,0.2295,0.1151) 観察度数(4,10,6,9,3) 期待度数(3.6822,7.3443,9.947,7.3443,3.6822)を 列に変換してください。 n=32のデータです。その正規性の検定をするためカイ2乗検定を行ったのですが、自由度が2になることが分かりません。よろしくお願いします。

  • 「重み付け」 と 「カイ二乗検定」 のことを教えてください。

    SPSSで心理学研究のデータ解析をしておりますが、とても基本的なことを教えていただきたいです。 質問がとんちんかんだったら申し訳ありませんm(_ _)m 1.「重み付けする」というのは、結局どういうことなのでしょうか?ふつうSPSSでは、変数データのパターンの度数をクロス集計で出し、それを「ケースの重み付け」で度数変数に設定するのだと思いますが、これをやると1つ1つの値はどのように算出されて出てくるということですか?度数変数を設定したケースの1つ1つの値は重みが付いたものに変換されるということですよね? 2.1つの名義変数(カテゴリーデータ)と1つの量的変数、これの組み合わせ(のパターン?)から、別の1つの変数を算出する方法はありますか? 2.2列×2行のデータではない(例えば5×5とか、3×2×5とか…?)場合、カイ二乗検定をするのは正しい手法ですか? どうぞよろしくお願いいたします。

  • 検定について教えてください。

    検定について教えてください。 アンケート調査をクロス集計し、χ2乗検定を行ったのですが、期待度数が5未満のセルが多く検定にかけられませんでした。 カテゴリーを結合するとよいと知り、5つあったカテゴリーを2つにして検定をし有意差5%未満となったのですが、この場合、最初の5つのカテゴリーのクロス集計表の扱いはどうなりますか? 有意差がなくても、クロス表をグラフにしたものはこういう結果でした。と結果だけ出しても差し支えありませんか? 内容: あることの継続を望む人と継続を望まない人と、体調をクロス集計しました。 体調は質問票では「良好である」「まあまあ良好である」「あまり良好でない」「少し不調である」「とても不調である」の5つとしましたが期待度数5未満が33%だったため 「良好である-まあまあ良好である」「あまり良好でない-とても不調である」の2つに振り分けなおしました。 統計についてよくわかっておらず、なんとかχ2乗検定までたどりつきましたが、これからがすすみません。 的外れでわかりにくい質問かもしれませんが、よろしくお願いします。

  • カイ2乗検定

    ある乱数を危険率1%のひん度検定を行え。 ただし、自由度49のカイ2乗分布の1%点は74.9とする。 という課題が出たのですが、このときというのは、 検定統計量vが79.4よりも小さければ受容される、という考え方良いのでしょうか??

  • カイ二乗検定を行いました。正しいでしょうか?

    Χ二乗検定を行いました。素人のため、上司に見せる前に間違っていないか 見ていただきたいです。 添付ファイルをご覧ください。 職場の年間インシデント件数が83件ありました。 エクセルを使用しグラフにしてみると、発生時間帯に差がある、 つまり、発生しやすい時間帯があるように思います。 そのため、素人のために検索を行いながら、 カイ二乗検定を行いました。 上の図のたて列は、 O(観測度数) E(期待度数) O-E (O-E)の二乗 (O-E)の二乗/E で並んでいます。 検定の結果は、 (1)自由度=12-1=11 (2)カイ二乗分布表から、自由度が11、p=0.05の値(有意水準5%)の値は、19.6751 (3)計算で出したカイ二乗値は52.2311 (3)そのため、有意水準5%で「発生時間帯に差は無い」という帰無仮説は棄却される。 つまり、インシデントが発生しやすい時間帯がある という結論が出たのですが、ここで皆さんの意見をお聞きしたいです。 (1)この検定は正しいか?間違いか? (2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか? (3)検定は正しい、しかし、時間帯の判断はできない場合、なぜ判断できないのか? (4)検定が間違いの場合、どこに問題があるか? (5)より信頼度を上げる検定方法はあるか? 皆さんのお知恵を、よろしくお願いします。

このQ&Aのポイント
  • EP-M553Tのバッファロールーター設定時にSSIDの選択ができない問題が発生しています。
  • プリンター本体ではルーターの機種が表示されるものの、パスワードの入力ができない状況です。
  • EP-M553Tのバッファロールーター設定に関してどうすれば問題が解決するかアドバイスをお願いします。
回答を見る