• 締切済み

統計学について(抽出)

政府の事業仕分けにおいて、全国一斉テストの経費削減を求められた文部科学省は、全数調査をやめて。40%の抽出調査に変えることによってコストの削減をはるかと述べた。これに対して、レンホウ委員からは、「6%ではだめなのですか?40%を抽出する場合と6%を抽出する場合でどこがどのように違うのか?それをわかるように説明してください。」という指摘があった。この指摘に対して、文部科学省の担当官は、(おそらく意図的に)的外れな返答を繰り返したため、最終的に「予算要求の大幅縮減」となった。という問題があったが投じたコストと得られた平均点の精度との関係をまとめてわかるように説明してください。なお、具体的に計算をするための基礎として、小中学生の全部で9年について、各学年の全数200万人に単価200円のテストを受けさせたと仮定します。この場合に必要なコストは36憶円になりますが、実際の文部科学省の予算申請も36憶でした。また、このテストにおける平均点は60点、標準偏差は20点と仮定します。 この問題について教えてください。

noname#100225
noname#100225

みんなの回答

  • at9_am
  • ベストアンサー率40% (1540/3760)
回答No.1

根本的に理解していないようですが、このテストの目的は、全国のテストの平均ではなく、その分布にあります。例えば北海道と東京都と沖縄県の比較、という具合です。 全国、全学年の平均点だけであれば、それこそ5%でも十分に精度は高いでしょうが、分布まで考えるならば5%では不足しています。 平均点のみであれば、計算は楽です。200万人×6%=12万人なので、平均点の標準誤差は、概算で20/350=0.06点ほどになります。この数字でも小数点以下±1点を参考としてしまう程度の誤差です。 一方で40%であれば、80万人なので0.02点ほどになります。この程度であれば、小数点以下1ケタも充分に意味を持ちます。 しかしながら分布を考えるならば、6%ではまったくもって不足するものとなります。 例えば正規分布に従っているものとして、都道府県別で考えるためには、単純に考えて全都道府県が同数としても各都道府県2500人ほどです。これでは標準誤差は概算で20/50=0.6となります。この数字は、平均点の±2点の差(小数点以下ではない!)を全くの参考としてしか扱えない程度の誤差になります。 40%では1万7千人ほどなので、±0.15点ほどです。この数字であれば、平均点は小数点以下ひと桁ですら参考という程度の意味は十分に持ちます。 もちろん、実際には子どもが多い都道府県、少ない都道府県がありますから、もっと差は激しいと思われます。 この差は、言ってみれば、58点と62点が同等程度の意味しか持たない精度と59.1点と60.5点は60.5点のほうが高い平均点を持つといえるという精度の差です。

noname#100225
質問者

お礼

どうもありがとうございました。 よくわかりました。

関連するQ&A

  • 勤労統計問題

     毎月勤労統計の不正調査 厚生労働省の毎月勤労統計調査で、従業員500人以上の事業所を全数調査すべきところ、2004年から東京都分について約3分の1の抽出調査にしていた問題。04~17年は抽出した数値を全数に近づける復元処理を行っていなかったため、給料が高い東京都の大企業の比率が本来より小さくなり、平均賃金などが低くなっていた。 との記事があります。 この文章では、大事業所全てからデータを取っていたが統計処理するとき3分の1を採用したのか、3分の1の企業からしかデータを取っていなかったのかわかりません。 前者なら、データを追加処理すれば正しい事になり、後者なら2004年から2017年に至る過去のデータを集めねばなりません。 マスコミも野党もこの点を明確にしていないのでお尋ねします。 問題発覚から3ヶ月で、正しいデータにしたというのだから前者と理解はしていますが。

  • 統計学

    至急です ガチで困ってます、 statistics(統計学)のこの問題の解き方と答え教えてください、、提出が今日までなんですけど体調不良でずっと休んでたから授業聞けてなくて分からないです。 あるクラスのテストの点数を5つ記録した。平均点の95%信頼区間を求めよ。点数はほぼ正規分布であると仮定する。という問題です。

  • 新体力テスト、得点区分けの方法・根拠(統計?)

    文部科学省の新体力テストでは、各種目ごと記録に応じた得点表があります。(1~10点の区分け、例えば握力で○kg~○kgまでは○点など) 体力テストとは違った種目の記録データ(1種目に対し200件~ほど)がある場合、どのように得点表を作成すれば良いでしょうか? なお、当方統計について学んだことがない状態です... もしエクセルでこのような処理ができれば理想と考えています。 よろしくお願いいたします。

  • 統計:検定とシミュレーション

    統計:検定とシミュレーション 統計を勉強している途中で出てきた素朴な疑問です。 統計学においては非常に多くの検定方法がでてきますが、「正規性」だとか「等分散性」だとかさまざまな制約がありますし(勿論ノンパラ手法もありますが)、そもそもの仮説の立て方にも違和感を覚えます。 そこでなんですが、例えば、取得した400サンプルのテスト点数データの平均値が前回の同テスト点数の平均値70点より高いといえるか、などという場合に、母平均の検定など使わず、その400サンプルから無作為に200サンプル抽出して平均値を得る、そしてそれを1万回PCで反復処理させてその1万個の平均値の平均値をとって理論値である70点と比較する、なんていうやり方ではダメなんでしょうか?個人的にはこのほうがしっくりくるのですが・・・。 同様の考え方で、分散分析や重回帰分析などもできないものかと考えています。 見当外れのことをいっていたら恥ずかしい限りですが、ご教授願います。

  • 標本調査と利用

    (1)紅白2種類の球が合わせて250個入っている袋があります。 この袋の中から20個の球を無作偽に抽出したところ抽出した球のうち赤球は8個でした。 この袋の中にはおよそ何個の赤球が入っているとかんがえられますか。 (2)次の調査は全数調査、標本調査のどちらですか。 1.ある川の水質調査 2.学校で行う体力テスト (3)ある工事で作った製品の中から200個のせを無作偽に抽出して調べたらその中から3個が不良品でした。 この工事で作った1万個の製品の中にはおよそ何個の不良品がふくまれていると考えられますか。 教えてください! お願いします!

  • 統計の問題について(Rを用いています)

    某県のA高校とB高校の生徒からそれぞれ,32人と36人を選び学力テストを行い,得点の平均と標準偏差に 関して次の結果を得た. A : x_A = 66.9, s_A^2 = 90.3, B: x_B = 59.7, s_B^2 = 50.7 これらは正規母集団からの標本であると仮定して (1) 有意水準0.05で「等分散仮説の検定」を行え. (2) A高校の得点の母平均はB高校のそれを上回っているといえるか.有意水準0.05で検定せよ. という問題について、私は以下のように考えました。 (1) 測定値の母集団分布を正規分布と仮定する。 「等分散仮説の検定」なので、定理5.4(III)(両側検定)より、 σ_1:某県のA高校の生徒の母分散、σ_2:某県のB高校の生徒の母分散 として、 H0:σ_1=σ_2、H1:σ_1≠σ_2 を検定する。 > 90.3/50.7 [1] 1.781065 > qf(0.975,31,35) [1] 1.99025 > qf(0.025,31,35) [1] 0.4950745 よって、 1.78<1.99、1.78>0.50 となるので、H0を採択。 従って、有意水準0.05でσ_1=σ_2となる。 (2) (1)より、σ_1=σ_2なので、 定理5.6(I)(右側検定)より、 μ_1:某県のA高校の生徒の学力テストの平均点、μ_2:某県のB高校の生徒の学力テストの平均点 として、 H0:δ=μ_1-μ_2=0、H1:δ=μ_1-μ_2>0 を検定すればよい。 > sqrt((31*90.3+35*50.7)/(32+36-2)) [1] 8.324662 > (66.9-59.7)/8.32*sqrt(1/32+1/36) [1] 0.2102507 > qt(0.95,66) [1] 1.668271 よって、 0.21<1.67 となるので、H0を採択。 従って、有意水準0.05では、A高校の得点の母平均はBのそれを上回っているとは言えない。 (>のところはRでの実行結果です。) これは正しいですか? 間違っている部分を指摘してほしいです。

  • 統計学の信頼区間

    現在、日本語でも勉強したことのないsurvey designと統計学の授業を英語で、しかも駆け足で学んでいます。今まで文系で来たので、もう何が何だかわかりません。どなたか以下のことを簡単に教えていただけませんでしょうか。 2009年、ロンドンで8年生を対象とした読解能力調査が実施された。シンプル・ランダム・サンプリングを用いて1000人をサンプルした。全員から回答を得ることができた。このサーベイによって出された平均値の一つがPである。このPは、一日に一時間以上テレビを見る生徒のプロポーションである。そしてこのPの値は0.25である。 1) このPに対する95% confidence interval(信頼区間)を計算し、解釈せよ。 さて、費用削減の為、来年度の調査より、以下の方法をとることにした。 まず、学校をシンプルランダムサンプリングで選別し、その後にそれらの学校の生徒の約5パーセントをシンプル・ランダム・サンプリングでサンプルする。サンプルサイズは2009年度とおなじである。そして、その際の平均値Pが2009年度と同じ0.25になると仮定した場合、信頼区間は昨年度から変化するか否か、説明せよ。 どうぞよろしくお願いします。

  • 統計学が全くわかりません。

    以下の問題の解答および、解法手順を教えていただけると幸いです。 1・ある生徒の集団の、ある科目の点数の偏差値は、平均50、標準偏差10の正規分布を仮定して計算している。 (1)この集団で偏差値が65以上の生徒の割合はいくらか。 (2)この集団で、偏差値が55から60までの割合はいくらか。 (3)この集団で偏差値が45以下の生徒の割合はいくらか。 2・無作為に選んだn=100人の大学生からの図書館利用率調査で、利用者をX人とするとき、学生全体の中での利用率pの90%信頼区間を求めよ。 (1)実際にⅹ=64人が利用していたとき、pの点推定値としてのp(上にちょぼっとしたマークがついています)はいくらか? (2)Xは2項分布に従うが、これを正規分布で近似するとすれば、この正規分布の平均uおよび分散oの2乗はnやpを用いてどうあらわせばよいか。 (3)p(上にちょぼっとしたマークがついています)=X/rを正規分布で近似するとすれば、この正規分布の平均uおよび標準偏差oはnやpを用いてどう表せるか。 (4)p(上にちょぼっとしたマークがついています)=X/nを標準化してZ=・・・の形で表せ。 (5)(1)のp(上にちょぼっとしたマークがついています)を用いて学生全体の利用率pの90%信頼区間を小数3位まで求めよ。

  • 新体力テストの平均値の比較に関して

    文部科学省から発表されている新体力テスト平成17年度の統計資料 http://www.mext.go.jp/b_menu/houdou/18/10/06100304/003/001.xls があります。 この資料では標本数、平均値、標準偏差がわかります。 さて、自分の学校で特に優れいている分野はないか調べたいと思います。 しかし、単に平均値の比較だけで優れている、優れていないを比較できないことは心理統計をやっていたので多少わかります。 が・・・ではどうしたらよいのでしょうか? どなたか助けてください。 お願いします。 なお、エクセルでこのような処理をかけたらよいなどアドバイスいただけると助かります。

  • 平均の比較についての質問

    テストの平均点の比較についての質問です。 2008年前期、2008年後期、2009年前期の3回のテストの平均を比較したい。 テスト結果が着実に上がっていることを結論付けたい。 2008年前期→2008年後期:平均点が10点アップ(t-検定でも有意差あり)、2008年後期→2009年前期:平均点が15点アップ(t-検定でも有意差あり)と仮定します。 この2つの検定結果から2008年前期の平均点と2009年前期の平均点の差(25点)には有意差があると結論付けられますか? もちろんt-検定をしても有意差が見られます。 他者から3つの平均を比較する際はt-検定は使えない、分散分析だと指摘を受けましたが、このような時期が違う平均の比較(同時に比較する必要のない平均)の場合は、t-検定での多重比較で十分に結論づけられると思うのですが? もしだめな場合はやはり分散分析→多重比較法 という作業が必要でしょうか?