統計重みを計算する方法

このQ&Aのポイント
  • カテゴリーごとの割合から重みを計算する方法を教えてください。
  • 7529個のデータを持つ4つのカテゴリーについて、各カテゴリーの割合と重みを求めたいです。
  • 質問の意味が理解できました。カテゴリーごとの割合を使って、重みを計算する方法を教えてください。
回答を見る
  • ベストアンサー

統計_重みを計算で出すこと

カテゴリーが4つ(たとえばABCD)あり、Aの下位分類にa1 a2があるとします。BCDについてもそれぞれ下位分類がb1 b2、c1 c2、d1 d2のように2つずつあります。 データ総数が7529個で、各カテゴリーが次のように分布しているとき、重みを求めるにはどうすればいいのでしょうか。 カテゴリー 1系列の実数 割合 重み A a1=121/168 72% ? B b1=3200/5459 59% ? C c1=653/1418 46% ? D d1=172/484 36% ? 表がうまく表れませんが、「カテゴリー」の下にABCDがあり、「1系列の実数」の下にa1=121/168などがあり、「割合」の下に72%などがあり、「重み」の下に?があります。そんな表です。 a1,b1,c1,d1のそれぞれの%が、72%、59%,46%,36%となりますが、その全体に対する重みを計算で出したいのですが、どうすればいいのでしょうか。 上には1系列だけ示しましたが、2系列は略してもわかると思ったからです。ちなみにa2の%は、100-72=28%となりますよね。 うまく説明ができませんが、質問の意味はわかっていただけたでしょうか。よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

#2の補足ありがとうございます. カテゴリーごとの(数学的)意味が分かっていなかったのですが,補足のおかげで少し前進しました. 例えば,カテゴリーAはBに比べて現れるデータ数が少ないから重要度が低いといった意味ではなく, 「疑問詞」「普通名詞」「代名詞」「名詞節」という種類ごとに「zero形」の出現割合(確率)を比較するという話のようですね. #2の考え(試算)では 各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25%ということです. そうすると,#2で書いた形式的試算は次のような意味があります. 全体平均の出現確率(約53%)を基準(0.5=50%に換算)として,各カテゴリーではそれぞれどのくらい基準(全体平均)よりも出現確率が高いかそれとも低いかの「相対的な重み」を表します. つまり,#2によれば 4つの単純平均は,詳しくやると M=53.06%で, P(a1)/2M=0.679 (←平均よりもかなり高い) P(b1)/2M=0.552 (←平均よりも少し高い) P(c1)/2M=0.434 (←平均よりもやや低い) P(d1)/2M=0.335 (←平均よりもかなり低い) というように,単純な絶対的出現確率を見るのでなく,平均的使用率に比べて相対的に現れる率が高いか低いかを見るためのものではないでしょうか. (補足の値と比べると誤差にしてもややずれが気になりますが,原因は分かりません.いちおう話が正しい信じて進みます.) 例えば全体平均が80%ならば72%は高いとは言えないが, 全体平均が53%ならば72%は高いと言える. といったように,相対比較のために換算したのではないでしょうか. ただし,するとなぜ基準を0.5にとったのかは不明です. (論理的には,平均を1=100%としてもいい.でもまあ,偏差値も平均を50にとって基準値としますから,ご研究の分野での習慣かも知れません.) ただし,上の話では全体平均として,4つのカテゴリーを全て対等の重みで扱って, 72%,59%,46%,36%を単純に平均して53.25% としましたが,もう一つ可能性があって, 各カテゴリーの使用頻度を反映させた加重平均を全体平均の値として採用すると, (121+3200+653+172)/7529×100=55.07% で,これは用例が多いBの値によって主に決まってしまいます. これを用いると M=55.07%で, P(a1)/2M=0.654 P(b1)/2M=0.532 P(c1)/2M=0.418 P(d1)/2M=0.323 となります. これも細かくみるといくらかずれていて,悩ましいです. ともあれ結論としては,適切な平均値に対する,相対的な重みのようです. どの平均値を使っているのかはどうぞご検討下さい.

sumomoyama
質問者

お礼

oshiete_goo様、この段階でかなりのことがわかってきました。ありがとうございます。さらに研究してみて、100%わかるように努力してみます。重ねて感謝もうしあげます。

その他の回答 (3)

回答No.4

#3の補足です. >#2の考え(試算)では 各カテゴリーごとの割合,72%,59%,46%,36%を単純に平均して53.25%ですが,これにはいちおう意味があって,(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25%ということです. こう書きましたが, >(カテゴリーを区別しないときの)全使用数中での平均出現確率 ならば,むしろ#3で後半に挙げた M'=(121+3200+653+172)/7529×100=55.07% を指すべきで,書き方が雑でした. 要するに,「平均」をするときに 高校野球で言えば #2と#3の前半の議論は1県(原則)1校で甲子園に出られる(カテゴリー同士を対等と見る). #3の後半は,1人1票でカテゴリーに全く関係なく,人口比で重みを決めて出場校数を比例配分する. といった違いがあります. どれが「公平か」というと,目的にもよりますので,一概には言えません. いずれにしても,記述に雑な点がありますので,学術研究で数値を議論されるときはよくよく批判的に吟味してお使いになることをおすすめします.

回答No.2

#1に対する補足によれば,#1の解釈は全く外れていたようです. 一般的に数学で言う意味での統計的重み(統計的重率)とは違うようです. 問題の出所が分からないのですが, [1]統計学の学習のための例題なのか,それとも,実際の現象の解析の報告の表なのか. [2]前者ならば,定義がどこかに書いてないか,または同様の例題(使用例)がないか. 以上ぜひ補足下さい. なお,無意味とも思われるのですが, P(a1)=72.02(%) P(b1)=58.62(%) P(c1)=46.05(%) P(d1)=35.54(%) この4つの単純平均は M=53.06で, P(a1)/2M=0.679 P(b1)/2M=0.552 P(c1)/2M=0.434 P(d1)/2M=0.335 です. 誤差を考えてもいくらかずれが大きいですが, 偶然なのかどうか...

sumomoyama
質問者

補足

oshiete_goo様、 一生懸命考えていただいてありがとうございます。 >[1]統計学の学習のための例題なのか,それとも,実際>の現象の解析の報告の表なのか. >以上ぜひ補足下さい. 実際の解析のものです。 言語学なんですが、目的格助詞「を」があるかないかについて会話データをもとに調べたもので、「ごはんを食べてから、、」などは「を」あり、「ごはん 食べてから、、、」などは「を」省略でこれをzero形といってます。このzero形の現われを調べてみると、いろいろおもしろいことがあるのです。「を」がつく単語別に「疑問詞」「普通名詞」「代名詞」「名詞節」とわけてあるのが、A、B、C、Dのカテゴリーです。たとえばAは、データ総数7529個のうち168個が疑問詞のもので、そのうちゼロ形とマークされたものがa1であらわされている121/168=0.72すなわち72%である、ということなんです。で、この72%が重みでいうと0.679になるというのがわかりません。私が参考にしてみている論文にはそういう数字が書いてあるのですが、GoldVarbというマッキントッシュ用のソフトで計算した数値であるということは書いてありますが、その詳しい出し方が書いてありません。それで質問することになりました。質問の意味、ご理解いただけたでしょうか。

回答No.1

データ総数が7529個でそれらが全て対等としてよいのならば A1を例に取ると 最初から (121÷7529)×100 [%] の方が手っ取り早いかも.(72%とかの丸めの誤差の影響を受けないので,その意味でもこれが有利.) 原理的には (属するカテゴリーの割合)×(カテゴリー中の割合) ={(カテゴリーAのデータ数:168)÷(全データ数:7529)}×(カテゴリー中の割合:72/100) =(168×72)/(7529×100) で,百分率では 168×72/7529 [%] ともいえます.それを学ばせたい問題? 取り違っていたら補足下されば,見た方が助けてくださるでしょう.

sumomoyama
質問者

補足

さっそくお答えいただきましてありがとうございます。 でも、実は、a1の重みが0.651となっているんですよね。 b1,c1,d1の重みがそれぞれ、0.526,0.435,0.345って なってるですよ。 で、こうした重みがどういう計算ででてくるのかがわからないんです。 No.1様のやりかたでも、上に書いた数値はでてきませんよね。質問の意味がわかりにくくて、どうもすみません。よろしくお願いします。

関連するQ&A

  • 統計

    統計初心者です。 ある商品のパッケージをみて、 カテゴリーA,B,C,Dから分類を予想し、分類してもらうアンケートを実施しました。 80名の集計が終わったのですが、 カテゴリーAを選択した人 40名 カテゴリーBを選択した人 20名 カテゴリーCを選択した人  8名 カテゴリーDを選択した人 12名 とします。 その商品のカテゴリーの正解はAだとすると、正答率は50%ですが、 A,B,C,D間での比較をしたいと考えています。 例えば、カテゴリーAとカテゴリーBを比較し、有意差がなければカテゴリーAとBは間違えやすい分類であると言えるのではないかと…。 この時の統計に用いる方法をお教えいただければと思います。 よろしくお願いいたします。

  • 計算式

    エクセルで計算式をかこうと思ったのですが式がまったくわかりません^^; ABCDと4つあり Aは金額入力 B100個 AからBに変換確立が68% C105個 BからCに変換確立が33% D10個  CからDに変換確立が16% BCDをそれぞれAが上記の確立で最低いくつ必要の計算式がわかりません。 どなたかご教授おねがいします。

  • 組合せの総数がわかりません.

    例えばa,b,c,dの四つの組み合わせ方を挙げます. 組み合わせるものを同じ数字であらわすとしまして, 1123は,a,bを組み合わせてbとcは別々という意味です.ただし,2213も3321も3312も1123と同じ組合せになります. つまり総列挙すると 1123(ab,c,d) 1213(ac,b,d) 1231(ad,c,b) 2113(a,bc,d) 2131(a,bd,c) 2311(a,b,cd) 1122(ab,cd) 1212(ac,bd) 1221(ad,bc) 1112(abc,d) 1121(abd,c) 1211(acd,b) 2111(a,bcd) 1111(abcd) 1234(a,b,c,d) の15通りになるかと思います. 今,4つのアルファベットの組合せでしたが, これをnとすると,組合せの総数はどのようになりますでしょうか? 定式化不可能なのでしょうか?不可能ならこの組合せ総数が指数関数的に増大することを示せればよいのですが.

  • 確率…単勝から三連単を計算する

    単順に確率論の話です A、B、C、Dの4人で走るとします 優勝する確立はA:40%、B:30%、C:20%、D:10%だとします この場合A、B、C、Dの順番にゴールする確率を計算したいのですが、 以下の計算は間違っていますよね ABCDの中でAが1番である確立は40/100 BCDの中でBが1番である確立は30/60 CDの中でCが1番である確立は20/30 A、B、C、Dの順番にゴールする確率は40/100*30/60*20/30=2/15 間違っているとは思うのですが どう計算したらいいのか分かりません 頭の良い方、教えてくださいませ

  • にゃんこ先生の自作問題、基本対称式が正なら元の数も正か?

    にゃんこ先生といいます。 2実数a,bがあるとします。 基本対称式a+b,abがすべて正であれば、a,bはすべて正であることがわかります。 3実数a,b,cがあるとします。 基本対称式a+b+c,ab+bc+ca,abcがすべて正であれば、a,bはすべて正であることもわかります。 ここまでは確かめました。 次に、4実数a,b,c,dがあるとします。 基本対称式a+b+c+d,abc+abd+acd+bcd,ab+ac+ad+bc+bd+cd,abcdがすべて正であれば、a,b,c,dはすべて正なのでしょうか? さらに、そのn変数のときはどうなるのでしょうか? 計算では手に負えなくて、別の考えがいりそうなのですが、わからないです。

  • 不等式の証明

    不等式の証明の問題で、 絶対値が1より小さい4つの実数a,b,c,dに対して、次の不等式が成り立つことを示せ。というものがありました。(1),(2)と2問あって (1)はa+b<1+abの証明でした。 これは(右辺)-(左辺)をして(a-1)(b-1)>0となり、証明できました。 (2)は(1)を利用して示せ。となっており (2)はa+b+c+d<3+abcdの証明でした。 (1)よりa+b<1+abなのでc+d<1+cd 辺々加えてa+b+c+d<2+ab+cd ここまではできたのですが、ここからどうやって右辺を3+abcdに するのかどうしてもわかりません。 答えにはa+b+c+d<2+ab+cd            <2+(1+abcd)            <3+abcd と書かれていたのですがどうしても    <2+ab+cd          ↓    <2+(1+abcd) が分かりません。教えてください!            

  • SQLでの複数列が重複してる行の削除(SQLite)

    こんにちは。 複数の列で重複した列がある場合の行削除のクエリが思い付きません。 A表 A    B   C   D   ==== === === ==== 1 ああああ 100 200 ABCD 2 いいいい 200  90 ASKB 3 うううう 300 800 ALTE 4 ええええ 400 200 ABCD B表   ==== === === ==== 1 ああああ 100 200 ABCD 2 ああああ 400 100 ABCD このとき、A表とB表を比較し、B,C,D列で重複したデータをB表から削除した行を表示したいのです。 ほしいデータは B表   ==== === === ==== 2 ああああ 400 100 ABCD です。よろしくお願いします。

  • エクセルの表で,決まった列だけを印刷したい

     エクセルで表を作っています。その中でAに地域名が入っていてBCDの順で,総人数,未登録者数そして総数から未登録者数を引く計算で登録者数が入っています。今回その表を配布するのですが,B,C欄は印刷せず,A,D欄のみ表として印刷したいのですが,よい方法はありますでしょうか?

  • にゃんこ先生の自作問題、四角形の対角線の交点をベクトルで表したときに見つけた等式

    にゃんこ先生といいます。 平面上に四角形ABCDがあるとします。4点は順に左回りとします。 また、同じ平面上に原点Oがあって、ベクトルOA=aなどと、矢印を省いて書くことにします。 直線ACと直線BDの交点Pを書き表したいと思います。 AP:PC=△ABD:△BCDから、 p=(△BCD/□ABCD)a+(△ABD/□ABCD)c と書けます。 ここで、2次元ベクトルの第三成分を0として、3次元ベクトルとみなします。すると、外積を用いて、 △BCD=|(c-b)×(d-b)|/2=|b×c+c×d+d×b|/2 などとなります。三角形の面積を符号付面積と考えて、 △BCD=△OBC+△OCD+△ODB=|b×c+c×d+d×b|/2 と考えることも出来ます。したがって、整理して、 (|a×b+b×c+c×d+d×a|)p=|b×c+c×d+d×b|a+|a×b+b×d+d×a|c となります。また、図から、 (|a×b+b×c+c×d+d×a|)p=|a×c+c×d+d×a|b+|a×b+b×c+c×a|d となります。したがって、 |b×c+c×d+d×b|a+|a×b+b×d+d×a|c=|a×c+c×d+d×a|b+|a×b+b×c+c×a|d という等式を見つけたのですが、これだけ見て、代数的に等しいことを示すにはどうやったらよいのでしょうか? また、3次元空間で、平面ABCD外に原点Oがあって、ベクトルOA=aなどと、矢印を省いて書くことにします。 AP:PC=△ABD:△BCD=四面体OABD:四面体OBCD で、 四面体OBCD=det(b,c,d)/6=(b×c)・d/6 となることから、 det(b,c,d)a+det(a,b,d)c=det(a,c,d)b+det(a,b,c)d や {(b×c)・d}a+{(a×b)・d}c={(a×c)・d}b+{(a×b)・c}d という等式を見つけたのですが、これだけ見て、代数的に等しいことを示すにはどうやったらよいのでしょうか? いいアイデアがありましたら教えてください。 △ABCなどの面積を、平面ベクトルa,b,cと内積,根号を用いて、 (2△ABC)^2=|a-c|^2*|b-c|^2-{(a-c)・(b-c)}^2 =(a^2)(b^2)+(b^2)(c^2)+(c^2)(a^2)-2(a^2)(bc)-2(b^2)(ca)-2(c^2)(ab)-(ab)^2-(bc)^2-(ca)^2+2(ab)(ca)+2(bc)(ab)+2(ca)(bc) ただし、a・a=a^2、bc=b・cなどと略記 と表されることからも等式が見つかります。 複雑すぎて等式を書くことはしませんが、その等式だけ見て、代数的に等しいことを示すにはどうやったらよいのでしょうか?

  • エクセルで++、-+、--、+-の計。

     よろしくお願いします。 このような表が有ります。   A  B  C  D  E 1 3  -4 2 2  4 3 -1 5 4 7  3 5 -4 -5 6 1  -1 7 9  2 8 9  この表でA列が+B列が+で有る場合の総数。(この表では3つ)  この表でA列が-B列が+で有る場合の総数。(この表では1つ)  この表でA列が+B列が-で有る場合の総数。(この表では2つ)  この表でA列が-B列が-で有る場合の総数。(この表では1つ)  と表示できるようにしたいと思います。よろしくお願いします。