• ベストアンサー

カイ二乗検定について

初歩的な質問ですいません。 カイ二乗検定のについての質問です。 期待度数の出し方なのですが、 列数や行数に関係なく、 列の合計*行の合計/総計 でよいのでしょうか。 2*2のクロスの時以外は、違う計算方法になる(その方法はよくわからない)といったことを人から聞いたのですが、ネットで調べても、2*2の表を例としてあげているものが殆どで、 http:www.ias.tokushima-u.ac.jp/linguistik/2005/joho/joho2005_chi.html に、2*4の表があったのですが、こちらでは、列の合計*行の合計/総計 になっていました。 統計というものについて、よくわかっておらず、どれが正しいのかさっぱりです。(数学もあまり習っていないので、情けないのですが、数学の記号もよくわかっていません・・・) また、期待度数は割り算があるので、小数点以下の値も出る場合もあると思うのですが、その場合、小数点何桁まで用いれば妥当なのかとか、 また、クロスではなく、1行の場合の期待度数はどうすればよいのかなどもわかりません。 質問ばかりですみません。 よろしくお願いします。

noname#232383
noname#232383

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

>10000ということでしょうか? >(単純集計の場合は平均値=期待度数?) はい。その通りです。それで間違いありません。 上の問題の場合は、「それぞれの升目に入る確率」が全て1/6と言う前提が基になっています。 もちろん、いっつも等確率である必要があるワケではなくって、升目によってバラバラの確率が問題によって設定されていれば、それを採用する事で「期待度数」が求まります。そう言う事ですよね。 上の問題の場合は、全ての升目の期待度数はそれぞれ10,000になるので、この数字を使って、カイ二乗検定に持ち込んで、「実際に得られたデータ」との乖離度を調べる、と言うのが作戦となるんです。 クロス集計でのカイ二乗検定も原則的に筋書きは同じです。ただし、先ほどの問題を違うのは、列の合計/総計と行の合計/総計(専門的には周辺確率と呼びます)と「理論値としてではなく」計算しておいて(ここが先ほどの問題の"理想的なサイコロだったら1/6の確率になる"と言う"決め打ち"と違う)、それら周辺確率の交差している升目を「理論値として」計算している部分です。すなわち、「周辺確率」に関しては「厳密性は不問にしている」って部分ですよね。ここが違うんです。 何故なら、あくまで興味があるのは「交差している部分の」度数が問題なんであって、周辺確率自体は問題視していないから、ですよね。 その辺り、「問題設定が何を問うているのか?」に良く目を配ってみてください。そうすれば「原理は簡単」なんですから、「適する場所に適する計算を行う」習慣が付く、とおもいます。

noname#232383
質問者

お礼

こんにちは。 すごくすごく丁寧な解説、ありがとうございます。 書籍やネットでΣとかが出てきてしまうと、もうそこで私には亀田語録のような理解不能な世界になってしまうので、数式ではなく、言葉で解説を頂けると、非常に理解しやすく、助かります。 今まで集計というと、結果の分布を見て、こういう傾向があるとか、こういう選択をした人が多いとか、そんなふうな見方しか考えられなかったのですが、数学的にありえないとか、偶然ではないとかを判定できることに、ちょっとした不思議さと面白さを感じています。 6万連敗は、さすがに無知な私でもイカサマだと気が付きますが。 本当にありがとうございます。

その他の回答 (3)

回答No.3

>1行の期待度数の場合は、セルの値=列の合計になってしまうので、1:1:1:1のように仮定して期待度数を求めるのかと思っていました。例えば、3,5,2,6のように値が出た場合は、3*16/16、つまり値=期待度数ということでしょうか? う~ん・・・・。ちょっと混乱しているようなんで、次の例を考えましょう。 今、ここに「普通に見える」サイコロが一個あるとします。「普通に見える」んですね。 今、hanako0525さんが・・・・あんまりいい例じゃありませんが、チンチロリンに参加してて、負けがこんでいるとしましょう。 「いや、このサイコロはおかしい!!!あたしがこんなに負けるなんてありえない!!!そうだわ、このサイコロはインチキに違いないわ!!!」 幸い、今までhanako0525さんは6万回ゲームに参加していて(ながっ!!!)、1回1円づつ賭けてて60,000円の負けでした。サイコロがインチキだったらそれを指摘して60,000円取り返したい。そして、hanako0525さんは用意周到なので、今までのサイコロの目が出た回数を全て記録していたのです・・・・・・。 とまあ、こう言う筋書きを考えてみましょう。ちょっとしたサスペンスですよね(笑)。 さて、サイコロがインチキだと指摘するにはどうすればいいのか?ちょっと考えてみましょう。 今、実際にメモった60,000回の目の出方は次のようになっている、とします。 目| 1  2  3  4  5   6 ---------------------  |9836 10150 9901 9982 10104 10027 さて、「正常な普通のサイコロだった」場合、「各目の出る数」の期待度数はいくらになるでしょうか? ちょっと考えてみてください。

noname#232383
質問者

お礼

ありがとうございます。 ちょっといいますか、かなり混乱しています。 月の中旬に6万円の負けは、混乱というより、破綻してしまいます。 10000ということでしょうか? (単純集計の場合は平均値=期待度数?) 6万回も勝負しながら、1円づつしか賭けない・・・。 勝負師なのか、小心者なのか・・・サスペンスです。

回答No.2

>列数や行数に関係なく、列の合計*行の合計/総計でよいのでしょうか。 何故期待度数が列の合計*行の合計/総計になるのでしょうか? 通常、事象Aの生起確率P(A)と事象Bの生起確率P(B)が独立だ、と仮定したとき、次の計算が成り立つとしています。 P(A∧B)=P(A)×P(B) ここで∧は「かつ」と言う意味です。つまり、事象Aと事象Bが「同時に起こる」と言う意味ですね。 さて、クロス集計をする場合、ある特定の列に置ける確率P(A)は P(A)=列の合計/総数 そして、ある特定の行に置ける確率P(B)は P(B)=行の合計/総数 で表されます。ここまでよろしいでしょうか? そしてその二つの確率が表す、クロス集計上のある行とある列の交差する場所の生起確率は「もしこの二つの確率が独立であったなら」次のように書き表せます。 P(A∧B)=P(A)×P(B)=列の合計/総数×行の合計/総数=列の合計×行の合計/(総数^2) 上のようになりますね。これが「独立だったら」計算上はこうなる、と言う「仮定」です。 さて、一般的に「期待値」と呼ばれるモノは次の計算式で導かれます。 期待値=総数×確率 故に、「ある枡目に於ける期待値=期待度数」は次の計算式によって導かれます。 期待度数=総数×確率=総数×P(A∧B) そして、今、P(A)とP(B)が独立である、と言う前提なので、期待度数は 期待度数=総数×列の合計×行の合計/(総数^2)=列の合計×行の合計/総数 となりますね。これが質問に上がっている式の意味です。 この考え方を延長する限り、基本的に2行2列だろうが何だろうが変わらない、と言う事ですよね。違う計算方法、と言うのが何を指すのか分かりませんが、原則この考え方で構わない、と思います。 なお、「独立であると仮定して」とずーっと書いてきましたが、「ホントにそうなのか」はここでは問うてません。と言うのも、カイ二乗検定と言うのは「独立じゃない」事を検定する為の技法なので、上の「独立だったら得られる理論値」と実際のデータが乖離すれば「独立ではない」事を言えるので、仮定としてはこれでOKなのです。 >1行の場合の期待度数はどうすればよいのか これも考え過ぎです。 と言うより、1行の場合の期待度数がまさに「期待値を計算する」と言う事の礎です。 例えば簡単な例として、表が出る確率が1/2、裏が出る確率が1/2のコインがあるとしましょう。今そのコインを1万回ふるとします。では「表」が出る期待値(期待度数)、「裏」が出る期待値(期待度数)は一体いくらでしょうか? これは簡単でしょう。これが「1行の場合の期待度数」って事なんです。(別に全ての面が1/6の確率で出るサイコロでも構わないんですが、いずれにしてもクロス集計じゃない方が考え方は簡単でしょ?)

noname#232383
質問者

お礼

ありがとうございます。 本当に数学をちゃんとやっておけばよかったと、後悔しきりです。 書籍を読んでいると、途中までは理解できるのですが、最後の方で、「こういう式」が成り立ちますって出てきてしまうと、その肝心な式の読み方がわからないとなってしまっています。 mamirs3876さんの解説、すごく参考になります。 1行の期待度数の場合は、セルの値=列の合計になってしまうので、1:1:1:1のように仮定して期待度数を求めるのかと思っていました。例えば、3,5,2,6のように値が出た場合は、3*16/16、つまり値=期待度数ということでしょうか? 丁寧な解説、ありがとうございます。

  • backs
  • ベストアンサー率50% (410/818)
回答No.1

普通、教科書にはi*j分割表の計算公式が載っています。2*2分割表の場合はもっと簡単に計算できますよ、という公式も載っています。 > どれが正しいのかさっぱりです。 基本的には書籍を読んで、補助としてwebサイトを拝見させてもらうと参考になるでしょう。独立性の検定などは基本的な計算ですから間違いも少ないでしょうが、より高度な内容になると全くの間違いを堂々と説明しているページもありますから気をつけましょう(ちょっとオーバーですが、、、)。 > 小数点以下の値も出る場合もあると思うのですが、その場合、小数点何桁まで用いれば妥当なのか 特別な場合を除いては0.12というように、小数点以下2まで記しておけば問題ないでしょう。もちろん、コンピュータで計算する際にはもっと精度が高い必要があるわけですが、手計算は「練習」ですからね。 > クロスではなく、1行の場合の期待度数はどうすればよいのか 一般化された公式(つまり2*4とか決まっているものではないもの)を用いれば、1行4列の分割表でも問題なく計算できます。数学に全くなじみのない場合は数式を読むのも苦労するのかもしれませんから、 遠藤健治 例題からわかる心理統計学 倍風館 という本を読めば良いと思いますよ。これは1*4分割表とか2*2分割表、3*4分割表とか色々な例が載っています。

noname#232383
質問者

お礼

ありがとうございます。 >数学に全くなじみのない場合 まさしくその通りで、ずっと文系で数学らしきものをろくにしてこなかったものですから、本屋さんで色々本を調べても、数式自体が理解できなくて、困ってしまっています。 >遠藤健治 例題からわかる心理統計学 倍風館 探してみます。 ありがとうございます。

関連するQ&A

  • カイ二乗検定について

    例えば、2x2クロス集計表で期待値が5以下であれば、フィッシャーの直接確率計算法を使うと思います。 2x3以上の集計表であれば、例え5以下があってもカイ二乗検定で問題ないでしょうか。 例えば、 100 3 70 30 100 3 という集計表の場合です。 宜しくお願いします。

  • カイ2乗について

    カイ2乗について、以下サイトを参照していたら疑問が出たため投稿します。 http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm 上記サイトの「簡単な例でイメージ作り(1)」項の「考え方」という項目に下記とあります。  (↓行頭「|」の行はサイトからの抜粋です。)  | この式は,観測値が大きくなると必要以上に大きくなり過ぎる.実際,標本を10倍に増やしたときを考えると,次の分布が上の分布と比較して100倍ずれているとは言えない.  |  血液型 A型 B型 AB型 O型 計  |  観測度数 370 250 120 260 1000  |  期待度数 400 200 100 300 1000  | そこで,各々の(差)2を各々の期待度数で割った次の式を考え,χ2と呼ぶ.  この10倍された、観測度数や期待度数にて、カイ2乗値を計算すると、カイ2乗値についても元の10倍になりました。 そうなると、元々のデータ(10倍していないデータ)での検定結果は下記とありますが、10倍されたデータだとそう言えなくなるということでしょうか?  | χ2<7.81 だから有意水準5%で「有意差はない」と言える.  もし仮に、実際にこの10倍された観測度数や期待度数のような表(血液型の表)が、現実の調査結果として手元に得られたとすると、どのようにすればカイ2乗検定にて「有意差あり、なし」を出せるのでしょうか? (あるいはカイ2乗検定は出来ない…??…標本数が多すぎる??…モヤモヤしてわかっていません。) 小生、統計や数学のド素人でしてわかりやすく教えて頂けると幸いです。 どうぞよろしくお願いします。

  • クロス表からのカイ二乗検定またはマンホイットニー検定

    はじめまして。 Sab6と申します。 現在,6列×8行のクロス表があります。 それぞれのセルには,100単位の数値が入っております。 しかし,このクロスは自分で作成したのではないので,あくまでも集計結果でしかありません。 このクロス集計表のデータをもとに,検定を行いたいのですが,クロス集計表から行うことは難しいのでしょうか。 一度,ローデータの形に落としてから,やるしかないいのでしょうか。。。 ちなみに,当方が利用可能なシステムは,SPSSとエクセルがあります。 お忙しいところ恐れ入りますが,お教え頂ければ幸いです。 宜しくお願い申し上げます。

  • カイ二乗検定を行いました。正しいでしょうか?

    Χ二乗検定を行いました。素人のため、上司に見せる前に間違っていないか 見ていただきたいです。 添付ファイルをご覧ください。 職場の年間インシデント件数が83件ありました。 エクセルを使用しグラフにしてみると、発生時間帯に差がある、 つまり、発生しやすい時間帯があるように思います。 そのため、素人のために検索を行いながら、 カイ二乗検定を行いました。 上の図のたて列は、 O(観測度数) E(期待度数) O-E (O-E)の二乗 (O-E)の二乗/E で並んでいます。 検定の結果は、 (1)自由度=12-1=11 (2)カイ二乗分布表から、自由度が11、p=0.05の値(有意水準5%)の値は、19.6751 (3)計算で出したカイ二乗値は52.2311 (3)そのため、有意水準5%で「発生時間帯に差は無い」という帰無仮説は棄却される。 つまり、インシデントが発生しやすい時間帯がある という結論が出たのですが、ここで皆さんの意見をお聞きしたいです。 (1)この検定は正しいか?間違いか? (2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか? (3)検定は正しい、しかし、時間帯の判断はできない場合、なぜ判断できないのか? (4)検定が間違いの場合、どこに問題があるか? (5)より信頼度を上げる検定方法はあるか? 皆さんのお知恵を、よろしくお願いします。

  • 「重み付け」 と 「カイ二乗検定」 のことを教えてください。

    SPSSで心理学研究のデータ解析をしておりますが、とても基本的なことを教えていただきたいです。 質問がとんちんかんだったら申し訳ありませんm(_ _)m 1.「重み付けする」というのは、結局どういうことなのでしょうか?ふつうSPSSでは、変数データのパターンの度数をクロス集計で出し、それを「ケースの重み付け」で度数変数に設定するのだと思いますが、これをやると1つ1つの値はどのように算出されて出てくるということですか?度数変数を設定したケースの1つ1つの値は重みが付いたものに変換されるということですよね? 2.1つの名義変数(カテゴリーデータ)と1つの量的変数、これの組み合わせ(のパターン?)から、別の1つの変数を算出する方法はありますか? 2.2列×2行のデータではない(例えば5×5とか、3×2×5とか…?)場合、カイ二乗検定をするのは正しい手法ですか? どうぞよろしくお願いいたします。

  • カイ二乗結果の見方 SPSS

    今、例としてタバコを吸う人、吸わない人に分けています。 吸う人105人(期待度数102.5残差2.5)、吸わない人100人(期待度数102.5残差-2.5) 検定統計量の表を見ると タバコをすうかどうか カイ二条 .122a 自由度 1 漸近有意確率 .727 と出てきたのですが、この結果の見方が分かりません。 タバコを吸う人のほうが多いというのはなんとなく分かりますが、 残差に-がついているのはどういう意味かとか 検定統計量の表の見方とかが分かりません。 どなたかこんな初心者に分かりやすく教えてくれる人いますか キーワード 統計学 数学 心理学 SPSS 名義尺度 χ2乗

  • 検定について教えてください。

    検定について教えてください。 アンケート調査をクロス集計し、χ2乗検定を行ったのですが、期待度数が5未満のセルが多く検定にかけられませんでした。 カテゴリーを結合するとよいと知り、5つあったカテゴリーを2つにして検定をし有意差5%未満となったのですが、この場合、最初の5つのカテゴリーのクロス集計表の扱いはどうなりますか? 有意差がなくても、クロス表をグラフにしたものはこういう結果でした。と結果だけ出しても差し支えありませんか? 内容: あることの継続を望む人と継続を望まない人と、体調をクロス集計しました。 体調は質問票では「良好である」「まあまあ良好である」「あまり良好でない」「少し不調である」「とても不調である」の5つとしましたが期待度数5未満が33%だったため 「良好である-まあまあ良好である」「あまり良好でない-とても不調である」の2つに振り分けなおしました。 統計についてよくわかっておらず、なんとかχ2乗検定までたどりつきましたが、これからがすすみません。 的外れでわかりにくい質問かもしれませんが、よろしくお願いします。

  • エクセル関数について

    集計表の総計セルにうまく計算式が入れられなく困ってます。 E列:科目、K列:収入で、9行から入力が始まります。 K行の収入総計で (=E行科目の電力費を除いて合計)と式をいれたいのですがうまくできません。 初心者のためうまく説明できませんがよろしくお願いいたします。

  • A/Bテストの検定方法(カイ二乗検定)につい

    仕事でweb制作を行っておりまして、A/Bテストの検定方法について質問です。 統計学超初心者です。 特定のwebページの特定箇所の文言について4パターンを作成し、 コンバージョン率の高いものを見つけるためにテストしています。 その結果が例えば下記のような形だったとします。 <結果> パターン名 / クリック数 / コンバージョン数 / コンバージョン率 A / 10000 / 20 / 0.200% B / 10500 / 23 / 0.219% C / 10800 / 25 / 0.231% D / 9980 / 21 / 0.210% ■質問1 4パターン同時に有意差を確認するには カイ二乗検定で4×2列の表で検定する、と理解していますが合っていますでしょうか? ■質問2 カイ二乗検定で4×2列の表で有意差があった場合、 4パターンでやった場合にバラつきがあった、というだけで、 各パターン個別の有意差については何も言及出来ない、と認識しています。 そこから最もコンバージョンが低いものだけを除いて、 3パターンだけの数字で再度カイ二乗検定(自由度2)したり(上記の結果だと、Aを除いた3パターン)、 上位2パターンだけを取り出し(上記の結果だとCとBだけ→自由度1)カイ二乗検定を行うことは意味があるでしょうか? カイ二乗検定という統計手法を使う上で、数学的な前提が崩れるため意味が無い計算なのか、 それとも、上記のようなパターンで4パターンでの検定を行った後に、 個別に検定を行うことが出来る/意味がありますでしょうか? ■質問3 二項検定・Z検定・二群の比率の差の検定は、 2パターンの比較にだけしか使えないという理解で良いでしょうか?

  • 【Excel】マクロを使って、自動集計ができるようにしたいと思っています。

    こんにちは。 宜しくお願い致します。 アクセスがあったデータをピポッドテーブルでまとめ、さらに集計結果を出したいと思っています。 ピポッドテーブルを作成するまではマクロの自動記録でどうにかなったのですが、その後の集計結果のところでとまどっています。 <データの現状> ※ピポッドテーブルで出したデータは、1・2行目が空白、3~5行目に項目名が入っており、6行目からデータが入っています。何行までデータが入っているかはその月によって異なり、行の一番最後はA列に「総計」と入力されています。 ※A~C列は項目名(日付や商品名など)が入っています。 D列以降は合計などが入っており、ここで基準として使いたい項目はすべて4行目に入っています。 列の数は項目によって増減します。 項目の一番最後は「総計」です。 マクロで集計したいのは次の作業です。 (1)「Sheet1」を全コピー→「Sheet2」に形式を選択して貼り付け→値貼り付け (2)貼り付けたシートで、D列以降、4行目の項目が「集計1」「集計2」「詳細集計」「総計」以外のものも列を表示しないにする ※D列から始まって、「集計1」の前の列までを表示しないにするのと、「集計1」の次の列から「集計2」の前の列までを表示しないにしたい。 例えば、H列に「集計1」・L列に「集計2」が入力されている場合は「D~G列」「I~K列」を表示しないにしたい。 (3)詳細集計の列を1列選択し、列を1行挿入。挿入した列4行目のセルに「合計」と入力。 (4)挿入した列のところに、6行目以降、A列に「総計」と入っている行まで数字のデータが入っているところ(A列で「総計」と表示されている行まで)は、「集計1」と「集計2」のセルの合計をそれぞれ表示し、枠線を入れる。 (5)一番先頭に1列挿入し、6行目から元A列の「総計」と表示されている前までの通し番号を入れる。 (6)「総計」の次の列の4行目に、「ゼロ数」と入力し、5行目に(3)で挿入した列、A列に「総計」と入っている1行前までの範囲で「0」表示があるセル数を表示。 (7)ゼロ数と入力したの次の列の4行目に「ゼロ率」と入力し、先に出した「ゼロ数」を(5)で入力した通し番号の一番最後の数で割った数を表示。 (8)入力終えた後はA1のセルを選択。 以上になります。 長いですが、どなたか教えてください。 宜しくお願い致します。