- ベストアンサー
百分率の統計解析について
百分率の値を従属変数として平均値,標準偏差を 比較し,統計解析しようと考えています. そのままの値を用いて解析を行ってよいのでしょうか? あるいは何かに換算する必要があるのでしょうか? よろしくご教授ください. ex) グループ1:12%, 13%, 14%, 15%, 16%, 17% グループ2:34%, 35%, 36%, 37%, 38%, 39% の2群に有意差はあるのか? といった場合を想定しています.
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
パーセント値はすべてその精度は等しくないため角変換(Angle transformation)をして正規分布しているような数値に変換します.その後この場合はt-検定で解析します.t-検定は三種類ありますがAspin-Wilchを推奨します.その他の手法では分布を利用しないノンパラメトリック検定(順位和検定)のWilcoxonまたはMann-WhitneyのU検定です.この両者の検出力は同一です.この場合は平均値の検定でなく順位の検定であることに留意してください.
その他の回答 (3)
- sanori
- ベストアンサー率48% (5664/11798)
>>>>> 実は,標準化するためにパーセンテージ化しているので,パーセントを出すいわゆる分母がみんな違った状態です. だとするともしかすると何らかの演算か重み付けが必要になるのかもしれませんね. あら、あら、そうですか。 それは悪いニュースです。(笑) 重み付けのやり方を、ただ今、考え中です。 すみませんが、忘れそうなので、まだ途中ですけど投稿しておきます。 1グループのデータの個々が、異なる分母の分数で表されるとします。 計算得意じゃないので、データの数を3個とさせてください。 なお、εは誤差を表す文字です。 3つのデータ: a1/b1 ±ε1 a2/b2 ±ε2 a3/b3 ±ε3 総平均は、 (a1+a2+a3)/(b1+b2+b3) ±εT 分母b1,b2,b3が分子a1,a2,a3に比べて非常に正確であると仮定する。 (たぶんそうですよね?) a1の誤差をα1と書けば (a1±α1)/b1 = a1/b1 ±ε1 であるので、 α1=b1・ε1 同様に α2=b2・ε2 α3=b3・ε3 ここで、分子の合計a1+a2+a3を考える 合計a1+a2+a3 の誤差は、どうなるか? 誤差論では、誤差のあるもの同士を足し算したときの誤差(誤差の伝播という)は、各々の誤差を2乗したものの合計の平方根を取ったものである。 すなわち、a1+a2+a3 の誤差(α)は α=√(α1^2+α2^2+α3^2) したがって、分子の合計は、このように書くことができる。 a1+a2+a3 ±α =a1+a2+a3 ±√(α1^2+α2^2+α3^2) さらに、総平均は (a1+a2+a3)/(b1+b2+b3) ±εT =(a1+a2+a3±√(α1^2+α2^2+α3^2))/(b1+b2+b3) であるから、誤差のところだけ書けば、 εT = √(α1^2+α2^2+α3^2))/(b1+b2+b3) ところが、 α1=b1・ε1、α2=b2・ε2、α3=b3・ε3 なので、 εT = √((b1・ε1)^2+(b2・ε2)^2+(b3・ε3)^2))/(b1+b2+b3) これで、グループ総合の誤差が表現できました。 さらに「データ数n個」に一般化して書けば グループ総合の誤差は εT = {√(Σ(bn・εn)^2)}÷ Σbn ・・・と、 いまのところ、ここまでです。 たぶん、このあと、分子のほうのΣの中身を、規格化か何かすればいいような気がします。 引き続き考えますけど、行き詰まったりして(笑)
お礼
ご丁寧な説明をありがとうございます. 上の数式の意味について今理解しようと格闘中です(汗) 私もこれを見ながら考えてみたいと思います. もし行き詰ったら,このパーセンテージを「標準化した計測値として用いています」という説明で逃げられないかな,とも考えているのですが,それは甘いですかねぇ...どう思われますか?(例えば,人間の重心はどこにあるか?というような感じの実験なのです.身長とか,はみんなちがいますよね?その大きさの違いを規格化するためにパーセンテージを計測値にしている,といった感じなのです)
- sanori
- ベストアンサー率48% (5664/11798)
いわゆる「有意差」の検定になります。 ちょっと気になるのですが、 ご質問文にある12個のデータが全て、例えば ・100点満点で設問数100、配点各1点のテスト ・1リットル中の、なんちゃらの濃度 というように、1個1個が互いに「対等」であると仮定すれば、有意差の検定もマニュアルどおりにやればよいのですが、 1個1個が「対等」で無い場合、例えば ・テストの場合、設問数が一定でなく、1問で百点のもあれば100問で百点満点である場合 ・テストの成績で、1グループ6データのうち、5つは同一の受験者Aで、残り1つだけが受験者Bである場合 ・水溶液サンプリングで、採取量が一定でなく、桁違いに少なかったり多かったりする場合 このような場合、有意差の検定をどうやるかは、私は分かりません。たぶん何かしらの重み付けとか複雑な計算が必要になると思います。 さて、データ1個1個が「対等」として、以下、進めます。 ちょっとWeb検索してみましたが、 ここがわかりやすいです。 http://www.shibayagi.co.jp/ia/yuisa.htm あとは、言葉や考え方の解説にとどめます。 「標準誤差」とか「標準偏差」とかの用語が出てきますが、文章や式を良く見るとわかるように、殆ど計算は同じで、分母がNであるかN-1であるかの違いだけです。 あと、「自由度」という言葉が出てきます。 上述した「N-1」も、それに関係します。 (上記リンクでの文章で「N1+N2-2」というのがありますが、それはN1群の自由度N1-1とN2群の自由度N2-1との和です) 自由度については、だいぶ前に私がここ(教えてgoo)で回答したことがあります。わかりやすく書いてありますから。 下記です。 http://oshiete1.goo.ne.jp/kotaeru.php3?q=975496 t分布の考え方による有意差の検定は、一から計算でやろうとすると、とても大変なので、通常は(というか必ず)「t表」(t分布の表)と呼ばれる数値表を使います。 t表は、統計学関係の本・QC工学の本・それ関係の教科書とかの付録や本文中に載っています。危険率(有意差の判断が間違っている確率)については、たしか、危険率1%のとか5%とか、色んな表があったと思うので、お好きなものを選べば良いでしょう。 私はよく知りませんが、もしかしたら表計算ソフトでもできるかも。
お礼
回答ありがとうございます. 実は,標準化するためにパーセンテージ化しているので,パーセントを出すいわゆる分母がみんな違った状態です. だとするともしかすると何らかの演算か重み付けが必要になるのかもしれませんね. URLもぜひ参考にさせていただきます.
- Mathematica
- ベストアンサー率22% (50/225)
>百分率の値を従属変数として平均値,標準偏差を比較し,統計解析しようと考えています. 百分率の値が従属変数? 平均値、標準偏差を独立変数とする? 独立変数と従属変数の意味は理解しているのかな? 比率12% 12/100 34% 340/1000 では、比率の出し方としては同じだが、Nの数が異なるので、直接比較は出来ないのだが。χ2検定でも有意差は分かるが・・・ 補足を願います。
補足
回答ありがとうございます. 補足させていただきます. 例えば,10mmの棒があって,2つの溶媒に溶かしたときに溶解した割合,といったイメージです. こういう場合は,各々が独立な測定値なので,1つの数値として考えていいのでしょうか?それとも,単位が%の場合,角度の統計をするときのように特別な解析法があるのでしょうか?
お礼
回答ありがとうございます. また,参考リンクもつけていただきありがとうございます.今見せていただいております. 角変換とは,Arcsin またはArccosの変換を行う ことと認識していますが,正しいでしょうか? また,sinとcosのいずれが多く用いられているのか, といったことが記載されている参考図書がありましたらお教えいただけましたら幸いです. 今後ともよろしくお願いいたします.