• ベストアンサー

統計学の専門家に質問です。教えてください

最近発売された、東海大学、唐津一先生の本に以下のようなくだりがあります。 「統計を取る際に一体どれだけの数を調べればいいか。結論を言ってしまうとサンプル数は約300で十分である。「えっ、たったの300でいいの」と思われるかもしれない。日本には一億三千万の人がいる。その傾向が、たった300人の統計でわかるのか?わかるのである。300人を調べたときの誤差のバラツキは3%以下である。だからそれで十分である。「ええっ?」と思うかも知れない。しかしこれは厳密な統計学が教える理論である・・・・・・・・」 そこで教えていただきたいのですが、 (1)何故サンプル数が300で良いのか? (2)300人調べた時の誤差のバラツキが何故3%以下なのか? この2点について数学的、統計学的に分かりやすく教えていただけませんでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • popesyu
  • ベストアンサー率36% (1782/4883)
回答No.2

サンプルは300で十分というのは別に不思議なことはなく、統計学の参考書では最初の方に出てくるお話です。 1.について 統計学では最初から100%は目指せませんので、95~97%ぐらいの確率で云々という話を進めます。その際、大本の根拠になるのが中心極限定理などの基本的な統計学の公式でして、これ自体に反証する人は誰もいません。300で十分ではなく、97%の確率で間違いではないと言い切るのに必要なサンプル数はと計算したらそう出たということです。 2.について 中心極限定理とか正規分布とかこの辺りをキーワードに検索すればひょっとしたら理解できるかも。 まぁ直感的に考えて、その300人の平均が母数のそれと比較して極端にどっちかに偏っている可能性がどれぐらいあるかということです。

papigon
質問者

お礼

早速に、専門家のお答えを頂き有難うございました。全くの門外漢の私には取り付くシマがありませんでしたが、参考書を買って勉強したいと思います。有難うございました。

その他の回答 (4)

  • shige_70
  • ベストアンサー率17% (168/946)
回答No.5

#1です。 #2さん、#3さんの回答を見て、数学をやっていたくせにとんでもない勘違いをしていたなんて恥ずかしい、なんて思ってたんですが、、、 なるほど、#4さんの回答で納得できました。正規分布に限った話だったのですね。。。 わたしには、いくら考えても300の標本では何もわからないケースがないとは思えなかったんですが、、、正規分布じゃないので当たり前ですねー。(Poisson分布などがいい例ですね) いい機会なので、大学で使った確率・統計の参考書を引っ張りだしてきましたが、、、あーあーありますね中心極限定理。なんか、驚くべきとか書いてありますね。 しかしこれは数学の専門的知識がないと難しいですね。まず集合の濃度など無限の概念、あとLebesgue積分などの特殊な計算、その他もろもろ、、、と、一般の方に説明するのはとても無理と思われるような内容が多数含まれておりますので、、、わかりやすくというのは無理な注文なのかもしれません。

回答No.4

papigonさんこんにちは。私も専門家ではありませんが 気になる点を確認させてもらいます。 統計を取る場合には、標本がどのような分布に 従っているかを見極める事が重要で、それなしに ばらつきが3%云々などと言っても意味がありません。 唐津先生の本では標準正規分布に従う事を前提としているようですが、そういう前提である事をきちんと明示されていますか。また、その前提が正しい事をきちんと説明しているのでしょうか。

papigon
質問者

お礼

graphaffineさんは専門家では無いと仰いますが、お答えは大変専門的ですので、私のような門外漢には良く分からないのですが、今一度唐津先生の本を読んで前提条件を確認してみたいと思います。有難うございました。

  • keiryu
  • ベストアンサー率31% (46/145)
回答No.3

 統計の専門家ではありませんが、ひょんなことから統計を教えることになり、実験しながら、初歩の本を自学で勉強しました。  殆ど、♯2の方が答えていますが、実際、ある資料(母集団)からサンプルを取り出して実験してみると300ぐらいのサンプルを取るとほとんど(95%~97%)基の資料の特徴を現すことがわかりました。  母集団が120人の身長の平均を無作為に20人抽出して比べたら、96%は実際の平均のところに集まってました。これを中心極限定理というのでしょう。実際に、学生に実験をやってもらいましたが、学生も驚いてました。  

papigon
質問者

お礼

keiryuさんのお答えは私に大変希望を与えてくれるお答えで感謝します。独学で勉強され、実際に教えて、実験されておられると云うことで私も勉強してこの疑問を自分で理解したいと思います。有難うございました。

  • shige_70
  • ベストアンサー率17% (168/946)
回答No.1

数学をやっていましたが統計学の専門ではありません。 でも、これはどう考えても『数学的』あるいは『統計学的』には全く根拠がないように思います。 人類学とか民族学とかそういうんじゃないんですかね? 唐津先生という方について調べると、どうも電気系の人のようですね。統計学に明るい方なのかどうかは不明ですね。。。

papigon
質問者

お礼

有難うございました。唐津先生はQCの分野でも色々な著書があり、かなり統計学の内容もありますので専門家と思っていたのですが・・・・・・

関連するQ&A

  • たぶん統計? 重さを測って個数を割り出す検査

    重さのばらつきが小さいと思われる品が約1000個ある。 1000個あるか知りたいが1000個も数えるのは大変である。 何がしたいかというと、この品々が1000個あることを検査したい、重さを測定する方法で。 1000個の中からサンプルとして20個ランダムに抜き出し、20個の重さを測定し、 1個当たりの平均の重さを計算する(xg) 次に品1000個全部の重さを測定する。(yg) y÷x=1000個 なら、何の問題もないのだが、たとえわずかでもバラツキというものが存在するため・・・ 許容誤差範囲は2%。 だから 1000±20個 980個<y÷x<1020個 なら、ちょうど1000個あると期待でき、検査としては合格である。 さて、ここからが問題である。 210gが400個、230gが600個 混在する 1000個の品がある。 これを 上記の方法で検査しようと思ったのだが 自分の感覚としてはなんとなく この場合は バラツキが小さくないような気がする。重さを測ることで品物の数を知ろうとする上記の方法は、品々の重量のばらつきは小さいということが前提である。そうでなければ計算で割り出せない。 うーんどう考えればいいんだろう? 極端な話だけど ランダムに抜き出したサンプルが20個全部210gの品になる可能性もある。 (この場合 x=210g) また、ランダムに抜き出したサンプルが20個全部230gの品になる可能性もある。(この場合は x=230g) 210g×400個+230g×600個=222000g (y=222000g) 計算すると、 222000÷230>y÷x>222000÷210 965個>y÷x>1058個 これは980個>y÷x>1020個 の許容誤差率2パーセントの範囲に収まっていない。 だから このケースの場合、品々の重量のばらつきが決して小さくないため、 重量から計算したって 数が1000個あるか知ることはできない ん?ともかく こんな風に考えてしまったのだけど、たぶんまずいんだろうなあ。 「210g×400個+230g×600個」の品1000個は 許容誤差率2%に収まらない、ばらつきが小さくない 品々であることを説明するにはどうやるのか? あるいは? もしかして許容誤差率2%に収まる品々だったりするのか? 数学から離れて ん十年だけど教わりたく、ご指導ください。

  • 品質管理(QC)と統計学にまたがる質問です

    品質管理と統計学の両方にまたがる質問ですが、 「時間支給にもとづき部品が投入されるときに、員数の誤差を取り除いてくれ」 の意味がわかりませんでした。工場のロットごとを多分サンプル調査すると思うのですが、専門用語らしきものが多すぎて理解ができません。解説をお願いします。 員数は単に「数字」でいいのでしょうか?「誤差をとりのぞく」とはサンプル数をロットごと一定にして比較する、という意味でしょうか?

  • 統計学上の有効数字の取扱について

    統計学での有効数字について以下のように考えています。これでよろしいでしょうか、教えてください。 1.データが標本抽出からで、誤差を含んだ上での計算をしているので細かく考える必要はない。 2.誤差は他のばらつきと共に、分散に入っているので、細かく考える必要はない。 3.検定表(z分布表など)と比較するので、検定表に記されている5桁程度を用いる。

  • 統計を知っている方、助けてください

    統計を知っている方、助けてください サンプル数:100 平均値:0.12 標準偏差:0.01 のとき 0.1以下となる確率を算出したいです 算出方法教えていただけませんか? よろしくお願いいたします

  • 電子ばかりを使った数量計測と統計

    ある商品の数量計測をするにあたり、手作業での計測から電子ばかりを使った計測に切り替えようと考えています。その商品の重さは1.7840gから1.8550gの間に分布していて、数百個単位でカウントする際、この僅かなばらつきでカウントに誤差が生じる事があります。 そのため、電子ばかりの導入に踏み切れないのですが、重さのばらつきの分布を見る事等で数学的な根拠に従って判断できると考えています(素人の考えですが・・・)。ただ、私は統計を学んだことがないので、どうこの問題にアプローチすればいいか解りません。 この場合、どのようなデータを採取してどのような計算をすれば良いのでしょうか? よろしくお願い致します。

  • 統計的にサンプルサイズを決める方法について疑問

    統計的にサンプルサイズを決める方法について、疑問があるので教えてください。 以下、例として提示します。 各種数字は計算がしやすいような数値でとってあります。 68,000 個の製品を出荷直前に検査するとして、 許容誤差10%で 信頼水準レベル90%の場合、 必要なサンプルサイズは 68個 のようです。 (自分で計算したわけではなく、ツールで計算されたものですが) 出荷は68日間あり、1日に1,000個を出荷していくとします。 許容誤差10%で信頼水準レベル90%の場合、サンプルサイズは68個なので、この場合は、【日割りで計算して】、毎日1,000個の中から、1個のサンプルを取ればよい。 つまり、【日割りで計算すると】、1/1,000 (千分の一)の確率でサンプルを取れば良い、ということになると思います。 ここからが疑問です。 全体数68,000 個を日割りにするのではなく、毎日1,000個出荷する前に個別にサンプルサイズを求めた場合、許容誤差10%で信頼水準レベル90% ならば、統計上は必要なサンプルサイズは 64 個となってしまうようです。 68,000個を68日間の日割りで計算した場合はサンプルは1000個に1個だが、1日1日で個別にサンプルサイズを導きだした場合は1000個に64個となってしまいます。 異なる結果になってしまうのですが、どちらの考え方が正しいのでしょうか?

  • (統計学)n数をいくらにすれば良いでしょうか。

    統計が無知な私に、ぜひご教示願います。 いま、丸い形をしたサンプルが30000個あり、 それぞれのサイズにややばらつきがあります(正規分布とします)。 大きすぎるもの、小さすぎるものは不合格になるとします。 30000個をすべて確認すると、 その中の不合格はだいたい50-100個程度と把握しているのですが、 毎回30000個確認するのは大変なので、 n数を少なくして確認し、 「この日製造したサンプルは不合格率○%だった~」、という話をしたいと思っています。 だいたいいくらくらいのn数にすれば、ある程度信頼性のある話ができるのでしょうか? できれば理由も添えて、お願いします。

  • 統計 ばらつきの大きなデータを平均化して扱う手法

    ご存知の方が居ましたら教えて下さい。 (伝わりにくくて申し訳ありません、エクセルでグラフにする必要があります。お手数をおかけ致しますがよろしくお願いします) 以下のようなばらついたデータがあります。 3.27 2.80 3.30 3.67 3.17 3.10 3.10 3.27 4.00 3.90 3.87 3.60 3.77 3.80 3.67 4.00 4.07 3.90 3.27 3.50 3.60 2.50 2.80 2.40 2.37 3.30 2.60 2.90 2.60 2.10 2.07 左上から1,2,3…とします。 これをグラフにするとひとつひとつがばらついて傾向がわかりにくいです。 ちなみに16番目と26番目の時にとある操作を加えた事の効果を見たいです。 そこで、前後あわせて5つのデータ平均でグラフにするとばらつきが緩和されて傾向が見て取れます。(3.27+2.8+3.3+3.67+3.17)/5=3.24の次を(2.8+3.3+3.67+3.17+3.1)/5=3.21としていきます。 3.24 3.21 3.27 3.26 3.33 3.47 3.63 3.73 3.83 3.79 3.74 3.77 3.86 3.89 3.78 3.75 3.67 3.35 3.13 2.96 2.73 2.67 2.69 2.71 2.75 2.70 2.45 これをグラフにすると16番目と26番目付近でグラフが見た目で大きく変化しているのが分かります。このように一回一回の測定では誤差が大きいが前後数日分を平均し、平均している日をずらして評価する方法に名前はついているのでしょうか?このようなデータの扱い方は統計学等で正式に認められている手法なのでしょうか?教えて下さい。 よろしくお願い致します。

  • 統計学 二つのグループの有意差検定?

    二つのグループのサンプルについて統計的な検定をしなければならないのですが、統計学が全く分からないもので、何検定を使ってどう検定したら良いのか分かりません。下記が検定をするデータで、「A群の方が値が大きく、ABの二群には有意な差がある」と結論付けたいのですが、やり方をご教授願えませんでしょうか?A、Bでサンプル数が異なっていてどういった検定を使うのが正解なのか全く分かりません。よろしくお願い致します。 A群 B群 3  2 4  1 2  1 3  2 3 3

  • 統計学的に信頼できるサンプル数

    統計の勉強をしておりましたらサンプルの抽出方法が下記に書いてありました。 http://www.wound-treatment.jp/next/wound225.htm ここでは、10万人の世論調査をする場合2000人必要とのこと。 実際数式に数字を当てはめてみると10万人を超える集団になると 1500人を調査すれば傾向を把握できるということがわかりました。 ここからが疑問なのですが、 「地域別の男女の傾向を把握」したいという調査があるとします。 (東北、関東、四国・・・・のそれぞれ男女別) 東北の人数も、関東の人数も四国の男女別人口はそれぞれ10万人を超えております。 すると、 東北の男性:1500人 女性:1500人 関東の男性:1500人 女性:1500人 四国の男性:1500人 女性:1500人 ・ ・ ・ という調査数でよいのでしょうか?? 最終的にその選んだサンプル数の全数で、「男女別の傾向」も 出したいと思っております。 普通に考えると、 人口が多い関東は、人口の少ない四国と同じサンプル数でいいのかという疑問があります。 同じ数だと、全国の傾向を出したいのに 人数の少ない四国と関東が同じであれば、四国の意見傾向にひきづられるような気がします。 そうすると調査人口は変えたほうがいいのでしょうか? (四国を500人 500人にして、関東を2500人 2500人にするなど) そうして人数を変えてしまうと そもそもの、10万人の調査は1500人が必要だという統計上の件数に基づかないので 関東の人口をたとえば4000人に増やすのでしょうか? それとも、世論調査は2000人あればいいということで 2000人を人口比率で四国・関東・・・・の男女別に割り振ればいいのでしょうか。 よろしくお願いいたします。