• 締切済み

サンプルデータの信頼性

5%の抽出誤差(サンプリング誤差)のある標本(1000個)の平均値を求める際、 (1)1000個全てを使った平均値 (2)1シグマ(標準偏差)分のデータを棄却したものの平均値 (3)上下2.5%(抽出誤差より)のデータを棄却したものの平均値 どれを使うべきでしょうか? 教えて下さい。

みんなの回答

  • info22
  • ベストアンサー率55% (2225/4034)
回答No.1

(3)だと思います。 オリンピックの得点の複数の審判性でも、最高得点の審判の点数と最低得点の審判の点を除いて、残りの得点データを使って得点とします。 統計でも、起こりえないような極端に大きいデータや極端に小さな誤差によって、統計量(平均値や分散)に不本意な誤差が入るのを避けるために、極端な上下のデータを統計から除外することが良く行われます。

noemo91
質問者

補足

上下1標準偏差切ることが、統計的に正しい気がするのですが、抽出誤差分を切っても大丈夫なのでしょうか? 教えて下さい。

関連するQ&A

  • 標準平均Xバーの標準偏差について

    たびたびすみません。 http://oshiete1.goo.ne.jp/qa3484149.html を質問させていただいたものです。 まず、「標準平均Xバーの標準偏差」というのは「標本誤差」という のですか? そもそもこの標本誤差というのは何に役立つのでしょうか? 高校の数学の教科書の問題で、下記のようなものがありました。 「ある県の17歳男子の体重の平均値は62kg、標準偏差は9kgである。  この県の17歳男子100人を無作為抽出で選ぶとき、100人の体重の  平均Xバーの期待値と標準偏差を求めよ。」 この標準誤差?というのは9/√100で0.9kgとなると思うのですが、 この0.9kgはどんな意味をもつのでしょうか? 100人全体の標準偏差は、「標本標準偏差」というものになり本来は 分母をn-1にして、これが母標準偏差の推定値ということなんです よね?それでこれはだいたい9kgに近いということですよね? (分母をnにしたものを標本標準偏差と呼ぶの?) 文章下手ですみません。 よろしくお願いします。

  • 標準誤差の式について

    標準誤差を求める式、SE = SD / √nについて質問がございます。 現在、標準誤差を勉強しております。 標準誤差が標本平均の標準偏差だと知り、 下記母集団を単純な例にして標準誤差を求めました。 ■1 母集団「2,3,4」 標本集団「2,3」「3,4」「2,4」 ■2 母平均:μ=3 母標準偏差:σ=√[{(2-3)^2 + (3-3)^2 + (4-3)^2} / 3] = √(2/3) ■3 標本平均:μ1=2.5、μ2=3.5、μ3=3 標本平均の平均:x=3 標本平均の標準偏差(標準誤差): s=√[{(2.5-3)^2 + (3.5-3)^2 + (3-3)^2} / 3] = √(1/6) ■4 標準誤差の式にあてはめ SE = SD / √n =√(2/3) / √3 =√(2/9) 3は標準偏差の公式に当てはめました。 4は標準誤差の公式に当てはめました。 計算間違いあるいは値の代入間違いでなければ、 3の標準誤差と4の標準誤差は同じになるはずだと思うのですが、 なっておりません。 何故なのでしょうか? 3の計算方法が間違っているのでしょうか? お教えていただければ幸いです。 以上、宜しくお願いいたします。

  • 標準誤差と標準偏差の違いは何?

    誤っているのはどれか? 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい ――――-―――――――------------------------------------- このような問題を考えています。 自分なりに答えを出すと・・・・・・ 1. 算術平均値とは対象群のすべての変量の総和をその対象群の総数で徐したものをいう →(○)正しい。  定義どおりだと思います。 小学校で習った平均値ですね。 2. 2集団の平均値が同じであっても2集団を構成する標本の分布が等しいとはいえない →(○)正しい。 極端な例が混ざれば平均値は同じでも、バラツキがちがう 3. 集団の標本が正規分布している場合、平均値±標準偏差の範囲には標本中の約68.27%が抱合される   →(○)正しい。 そのとおり標準偏差(SD)のSD±1は68.27%である。 SD±2はたいか95%くらいでしたっけ。 SD±3は99.9%くらいだね。 つまりバラツキの度合いに占めるパーセンテージだと。 4. 集団における平均誤差の絶対値は常に標準誤差の絶対値より大きい →(○)正しい。 これがうさんくさい。 でも、私の持論によると・・・・・ ■SEχ(標準偏差の平均値)=σ/ √n     σは標準偏差です。 ■SDχ(標準誤差の平均値)=s/ √n      sは限られたサンプルより抽出した標準偏差の「予想値」です。                          そしてnはサンプルのサイズ(数)です。 つまり、標準偏差(SD)は国勢調査などで「全員」の数が把握できている場合であり、標準誤差(SE)は、大阪のミナミの繁華街の商店街の「全員」ということで つまり、 ■SEχ(標準偏差の平均値)=σ/ √n          →σ/ √日本の総人口 ■SDχ(標準誤差の平均値)=s/ √n          →s/ √大阪ミナミの商店街の人口 ・・・・ということで分母が小さくなりますから、 1/1000 と 1/10 では、1/10がおおきいですね。 つまり、調査の数が少ないと、誤差も大きくなるとそういうわけで、 誤差の絶対値は標準偏差よりも高くなるというわけです。 ですから一見この選択肢が誤りに見えますが、実は正しいのだと思います。 間違っていればどこがまちがっているか教えてください! 5. 正規分布する標本数の等しい2集団において、標準偏差の絶対値が等しければ平均誤差の絶対値も等しい →(○)正しい。 そのとおり。 本物と同じだから誤差も無い

  • 標準誤差とその性質

    標準誤差(SEM)が標本平均の標準偏差であることは,分かったのですが,母集団から標本集団Aと標本集団Bをとった場合に,AとBの標準誤差の関係が分かりません。 具体的には,例えば貨幣を製造したときに基準をパスする貨幣の重さのSEMが1つの貨幣あたりsだとした場合に,n個の貨幣を無作為抽出したときに得られる総和の標準誤差と貨幣の重さの平均の標準誤差が求められるものでしょうか。

  • 測定したデータの誤差を計算する方法

    集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか? ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。 ちなみに、データは以下の通りです。 データ数:60 最高値:39.00 最低値:11.00 平均値:22.56 標準偏差:5.261 標準誤差:0.679(5.261/√60) 標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。 標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。 回答よろしくお願いします。

  • 統計 

    数個のデータから平均値、標本標準偏差、平均値の標準偏差を出す方法は本によって分かったのですが、標本標準偏差と平均値の標準偏差の使い分けが分かりません。 例えば実験である定数を推定する実験を行ったとして理論値と比べる際には 平均値±平均値の標準偏差 を用いて判断すればいいのでしょうか? もしそうならば標本標準偏差を求める意味はどのようなものになるのでしょうか?

  • 用語の定義や使い分けがしっかりしている統計学の教科書(事典)を教えてく

    用語の定義や使い分けがしっかりしている統計学の教科書(事典)を教えてください。 例えば、   ?標本標準偏差、母標準偏差、標準誤差などの違いが明確に書かれている      ?どこのことについての説明かがわかる    例えば、平均値といった場合          (1)母集団についての平均値なのか          (2)一つの標本内のデータセットについての平均値なのか          (3)複数の標本のそれぞれについての平均値の平均値なのか   ?記号の使い分けがしっかりしている    例えば、μ→母標準偏差、s→標本標準偏差        x→確率変数、 X→そのときにはすでに定まっている確率変数                 (この言い方には語弊があるかもしれません) また、数学的知識があまり無くても読める(理解できる)ものがいいです。 かといって、すべて文章だけというわけだはなく、ある程度の数式や数学的考え方は書いてあるほうがいいです。 このような条件に当てはまる、統計学の教科書や事典を知っている方は、是非教えてください。

  • 信頼区間推定方法

    95%信頼区間の推定方法に付いての質問です。 信頼区間推定の計算式として下記の2通りの式を見掛けます。 1)信頼区間 = 標本平均 ±(t(95%) × 標本標準誤差 ) 2)信頼区間 = 標本平均 ±( 標準偏差 × 1.96 ) 2通りの式で同一標本の信頼区間推定してみるとそれぞれ 異なる区間が算出されます。 どちらの式を用いるべきなのでしょうか? また、なぜ結果の異なる計算式が並存するのでしょうか?

  • 統計の問題、平均、標準偏差、確率

    授業で、 X1, …, Xn ~ N(μ, σ2)を仮定するとき、無作為に抽出されたデータ30個の (1)「標本平均mx」 (2)「標本標準偏差Sx」 (3)「母平均μが標本平均mx±0.4の間にある確率」 を求めよ。(ただし母標準偏差はσ=1.2とわかっているとする) という問題が出たのですが、どうしたら良いのかわかりません。 式など解き方、教えて下さい。 (※エクセルを使っても良いです)

  • データの整理と平均値のまとめ方

    よろしくお願いします。 現在、実験を行っており、データの整理をしているのですが、まとめ方で困っているので質問させていただきました。 9000ほどの母集団から100個取り出し、帯電量測定をします。正規分布であることを確認し、同じ実験を3回繰り返します。 このような実験を数種類行い、どのように変化したか(平均帯電量やバラつき具合など)を報告しようと思っています。 ところが、この実験はばらつきが大きく、サンプリングの計算をすると100個では平均の誤差(平均と標本平均の差)が大きくなっていしまいます。 100個以上の測定では大幅な時間がかかり実験としても成り立たず、効率が悪くなるため、また、他の数種類の実験結果との比較のために同じ100個で統一するために、100個で行いました。(100個でも誤差が大きくなる、というだけの話なので問題はないと思います) ですが、同じ実験を3回行った結果について疑問点が出てきました。 実験から得られた標本平均Xbarと標準偏差σを、 Xbar-k*√(σ^2*(N-n)/n/(N-1)) < μ < Xbar+k*√(σ^2*(N-n)/n/(N-1)) (信頼係数K、母集団N、標本数n) の式に用いて平均の範囲を出せると思います。(誤差が大きいということはこの範囲が大きくなるということですよね) 同じ実験を行って誤差の違い(平均μから近いか遠いか)はあれど、平均μの値はかならずどの実験でも範囲内に入るはずですよね。 ですが、3回行った実験のうち、範囲が重ならない結果(重複する範囲がない)が出てきました。3回すべて重ならなかったり、2個だけ重なって残り1個は重ならなかったりしました。重なれば少なくともその範囲に平均μがあると思っているのですが・・・ 最初はこの3回行った同じ実験でそれぞれ得られた平均の範囲から平均の範囲をある程度決められるかなと思っていました。(誤差が大きくても) 原因として何が考えられるか考えたのですが、 1. 3回の実験のうち、測定中に触ったり何かしてちゃんと測定を行えなかったなど何らかの影響でちゃんとしたデータではない実験があるため。 2. 実は同一条件ではなかった(異なる実験扱いで比較できない) どのようにデータをまとめていいか困っています。すべてのデータを載せるのも要領の関係で難しいので、まとめたいと思うのですが・・・ 自分の統計の勉強不足なのでしょうか。 それか、Xbar±3*σで範囲を決めようかとも迷っています。 何か「ここは間違ってるよ」とか「こういう風にしたら?」などありましたら書き込んでいただけないでしょうか? わかりづらい質問でお手数おかけしますが、ご教授いただけますでしょうか。 よろしくお願いします。