• 締切済み

統計の信頼性について聞きたいです。数学的に知りたい

統計の信頼性について聞きたいです。数学的に知りたいです。選挙とかで、選挙結果の前に予想とかありますよね?ああいったデータってどれくらい信頼できるんですか?アンケートとってアンケート結果から予測してるわけですよね? つまり、20歳以上、今だったら18歳以上の人口全てにアンケート取らず、その一部からあたかも全体の予想の如くしているわけですよね?本当に信頼できるんですか?数学的に知りたいです。 選挙人口か1億人だっとしたら、どれくらいのサンプルを取ればいいんですか?1億人で仮に1000万のサンプルアンケートだったら信頼性は10パーセント%じゃないんですか? 残り9000万が全く反対の政党支持し出したら全然結果変わりますよね?この計算方法違いますか? 正規分布かなんかで信頼性求めたような、、すっかり忘れてしまいました、、

みんなの回答

  • staratras
  • ベストアンサー率41% (1445/3523)
回答No.2

選挙のついての世論調査(統計学的に意味のある方法で行ったアンケート調査)には、サンプル調査一般に共通する数学的(統計学的)な誤差に加えて、選挙固有の宿命というか制約があります。 それは「知りたいのは実際の選挙結果(選挙に行く人の投票する内容)なのに、調査対象は選挙に行かない人も含んでいる」という点です。これが例えば「工場で生産した商品の一部をサンプル調査して全体の品質を推定する」などという問題との決定的な違いです。 もちろん、世論調査をする側はそのようなことは百も承知なので、「今度の選挙で投票しますか」という設問を設けるなどしています。これは有権者の関心度(投票率)を予測するうえでの参考にはなりますが、では「必ず行く」「行くつもりだ」と答えた人の回答結果だけを集計すればよいかと言えばそうもいきません。 またサンプルを選び出す方法にも課題があります。日本では大昔は「米穀配給台帳」、昔は「住民票や選挙人名簿」からの無作為抽出(ランダムサンプリング)が用いられて、対象に選んだ有権者と面談する方法がとられていました。この方法は手間がかかるうえ、年々在宅率が低下して回答が得られにくくなりました。 このため最近ではRDD法と呼ばれる、「ランダムに発生させた電話番号に電話をかけて調査する方法」が用いられるようになっています。これも当初は固定電話だけが対象でしたが、それでは世代に偏りがあるなどの問題があるため携帯電話も対象とするようになりました。しかし携帯電話では固定電話では可能な「市街局番による地域限定」が不可能という問題があります。これから有望視されるのはインターネットによる調査ですが、これも世代間などの偏りが想定されます。 こうしたことから、選挙結果を予測するには事前の世論調査には限界があり、むしろ選挙当日に投票所の出口で実際に投票した有権者に聞く「出口調査」の方が信頼できるという考え方が強くなっています。これは確かにその通りで、『投票締め切り直後に選挙結果の予測をテレビ・ラジオで放送する」ような目的にはきわめて有効です。 しかし「投票日当日ではなく選挙戦の最中に全体の情勢を知りたい」という、社会に広く存在するニーズに対応するためには、「事前の世論調査」も、なお継続して行われていて利用する側はその限界(誤差)を理解する必要があります。

  • skydaddy
  • ベストアンサー率51% (388/748)
回答No.1

数学の説明をすると統計についての数学的基礎知識から始めることになりここには書き切れないので概念的は話をします。 選挙の結果を予測するアンケートは、どのぐらいの精度で結果を予測するかで必要なアンケート数が決まります。当然、沢山の人に聞いた方が当たる確率の高い結果が得られます。一方、統計は予想する対象(選挙なら投票者)が大きくなると一定の分布に近づくことを示します。これは何を意味するかというと対象が大きくなると検討すべきサンプル数が全体の数に合わせて増えるのではなく、割合と全体に対して小さな数でも予想が当たりやすくなることです。実際、対象の数が数千を超えると調査に必要な数はほとんど増えません。日本国民全体でのことを予想するのにたかだか数千のサンプルで99%以上の精度で予測ができます。選挙速報などだと、多分過去の履歴など単純なアンケート以外の要素も考慮しているのでその確率は99.99%以上で当確をだしているはずです。 1億に対して1000万に聞いても残りの9000万が異なると予想が外れるということですが、確率として1億の中から同じ答えを持った1000万だけを取り出す確率は天文学的数値で人の一生ではなく、地球の一生の中で1回起こるかどうか?(選挙が1年に数回程度として)の事です。それは起こるかも知れないと考えるよりほぼ確実に起こらないことと扱うのが統計や確率です。計算として0ではありませんが、起こるより起こらないが圧倒的に大きいという意味です。

関連するQ&A

  • なんという数学・統計分野?

    予想分布Aと予想分布Bどちらが本当の予想に近いか判断したいのです。 過去の分布から将来の分布予想を算出します。 その算出した予想が、実際の結果とどの程度合致しているのかを判断したいのですが、数学や統計学的にはなんいう分野になりますか?

  • 高校数学 統計

    数学Bの問題集を買いましたが、数列とベクトルだけで、確率分布と統計についての問題がありません。 確率分布と統計の分野に特化した問題集があれば教えてください。 レベルは青チャート以上でお願いします。

  • 数学(確率統計)の問題なのですが・・・

    数学(確率統計)の問題なのですが・・・ 数学(確率統計)の問題なのですが、わかる方がいらしゃったら教えてください。 全く確率統計はわかりません。 (1) ある政党について、1200世帯を対象として調査したところ、 支持率が10%であった。 このとき、真の支持率を95%の信頼区間で推定しなさい。 (2) ある遺伝性障害は出生数400人に1人の割合で 発生することが知られている。 今、出生前に障害を持っているかどうか分かる検査法が 開発されたとする。 この検査では、もしも胎児が障害を持っていた場合には、 95%の確率で陽性、残りは陰性となり、 もしも胎児が健常であった場合には、1%の確率で陽性 となり、残りは陰性となる。 今、ある妊婦がこの検査法を受けたところ、 陽性の診断が出たとする。 このとき胎児が本当に障害を持っている確率はどれだけか。 よろしくお願い致します。

  • 数学や統計学に詳しい方、お力をお借しください。

    数学や統計学に詳しい方、お力を借していただけないでしょうか(>_<) ある統計学のテキストを読んでいると、「えっ?」と頭を悩ませることになってしまいまして・・・ 標本抽出実験のためにA政党支持者とB政党支持者からなる母集団を考え、A政党支持者比率(母比率π)を0.4とします。母集団はA政党、B政党からなる質的データですが、これを2つの値しかとらない変数(ダミー変数と呼びます)を用いて、 X_i=1:A政党支持  X_i=0:B政党支持 のように表しますと、データ数がNの母集団では、 A政党支持者数=Σ_i^N▒X_i 、母比率π =(Σ_i^N▒X_i )/N となりますので、比率は変数Xの平均値となります。さらに、変数Xの母集団における分散σ^2を考えると、 σ^2=(Σ_i▒〖(X_i-π)〗^2 )/N=π(1-π)^2+(1-π) π^2=π(1-π)(1-π+π)=π(1-π) となりますので、このケースでは母比率π=0.4ですから、σ^2=0.4(1-0.4)=0.24です。 数式はうまく貼りつけることができず文字化けしてしまってる箇所もあるので、添付の画像ファイルをご覧になっていただきたいのですが、私はどうしても赤字箇所が理解できないのです(ToT) 「なぜこのような数式の展開になるの?」と、昨日からずっと考えてるのですが一向に理解が進みません。 皆様の回答をいただければ幸いです。 よろしくお願いします<m(__)m>

  • [至急!]統計(信頼区間、標準誤差)について

    次の問題に対する考え方や計算の仕方を、教えていただけますか。 なお、統計ソフトを使っても全く構いません。 むしろ、その方がありがたいです。 どこから、手をつければ良いのかわからない状態です。 [問題] 以下のような世論調査(無作為抽出)の結果について、それぞれ95%信頼区間を計算し、東京都と大阪府で内閣支持率に差があると言えるかどうか、論じて下さい(計算式を書く必要はありません)。 東京都 内閣支持率60% 回収サンプル数 2,400 大阪府 内閣支持率50% 回収サンプル数 2,500

  • 血液型性格判断の信頼できる統計はあるのでしょうか

    血液型性格判断を「科学的」に研究している人がいるようですが、 たとえば政治家と血液型の関連についての説があります。 0型・・・自由党(旧)に多い AB型・・・都道府県知事に多い しかし、自由党(旧)の国会議員や都道府県知事はサンプルが少ないため、偏るのは当然ではないでしょうか。また、自民党の国会議員の分布をみると、ほとんど日本人の割合に近いものでした。 このように、野球選手は0型が多い、横綱はA型が多いといった例は、サンプルが少なすぎ、科学的とはいえないと思います。 サンプルが十分にあり、明らかに分布が偏っている、信頼できる統計はあるのでしょうか。

  • アンケート調査の信頼度について

    こちらのカテゴリーでいいのか分かりませんが… アンケート調査をする場合、母体の数に対する抽出数によって信頼度(%)というのがあると思うのですが、それらが分かるサイトなどがあれば教えてください。 例えば、母体数1万人に対して、30%(3千人)を無作為抽出。 内70%(2100人)から回答が得られた場合、そのアンケートの結果は どれくらいの信頼度なのでしょうか? 数学・統計はまったくの不得手ですので、分かりやすいとありがたいです。

  • 正規分布による分析

    すみません、質問が複数あるので長文になります。 また当方、統計学については素人のため初歩的すぎる質問であったら失礼します。 前提:卒研でアンケート調査を行い結果を統計で分析することになりました。アンケート内容は「ある事項につき賛成~反対までを無段階で聞く」とうもので、その結果を正規分布にかけて5段階にわけ、各段階の割合を求める。というものです。 1:アンケート調査を行い結果を分析するにあたりそのアンケート結果が正規分布なのか検定する手段として、尖度、歪度は学んだのですが、この二つの検定方法はそれ以外の検定方法(カイ二乗検定など)に比べ信頼性に足るのでしょうか? 2:アンケート結果が正規分布にのっとらない場合、片端に偏ったり、中心が最少で両端に偏ったりした場合に、正規分布による分析をした時は信頼に足る結果は出ないという事になるのでしょうか? 3:上記のようなアンケート調査の場合に、正規分布にのっとらない場合に用いられる分布などがあれば教えていただきたいです。 以上、長文失礼しました。m(_ _)m

  • 統計についての文を添削してください

    統計のことはぜんぜん理解していないものです。 どなたか私の文を添削していただけないでしょうか? 言葉遣いがおかしいとか、意味が違うとか指摘していただけると助かります。 サービスの品質改善というテーマで翻訳をしていたのですが、調査をおこないデータを整理して結論をだすために、統計の手法を使うことができる、という部分がでてきて困っています。 ネットでいろいろ学習??しましたが、あっているかどうかまったく自身がありません。 よろしくお願いいたします。 カイ二乗‐2つの変数の間での関連を決めるための統計技術。(1)観察されたデータが期待とマッチするかどうかを見る、(2)一方の変数の分布がもう一方の分布と関係があるかみる。 t-検定-サンプルが同じ人口から選べれているかを見るため、2つの個別サンプルの平均や割合を比較する統計技術。(3つ以上のサンプルの平均をテストするには、分散分析が使われます) 重回帰-複数の変数の値の変化によって、1つの変数の変化の値を予測するための統計技術です。 クラスタ分析-対象(学校/場所/物など)を特定された数の排他的グループ(内部的に同種)に分ける統計技術。 因子分析‐相関関係をもつ変数の大きなセットの要因を決める統計技術。 判別分析-人や物を2つ以上のカテゴリーに分類するための統計技術。 カイ二乗による相互作用の自動検出方法(CHAID)‐分岐方法を使って、因数のなかの相関と見つける統計技術。 以上です。

  • 統計学 市場の必要サンプル数の算出方法教えて下さい

    10万6,015人の母集団から987人の有効アンケートをもらいました。 この987人のうち25%は、商品を使ってみたいという結果になりました。 987人のサンプル数は、必要サンプル数を満たしているかを 統計学をもとに調べています。 仕事で、信頼度95%?!として、調べることになっているのですが、 WEBで調べても、文型の私には理解が難しくて、 どなたか教えていただけませんでしょうか。 本当に困っています。 すみませんが、どうぞ宜しくお願いします。