統計学:サンプリング精度の応用についての疑問

このQ&Aのポイント
  • サンプリング精度の応用についての疑問を解決
  • 推測したいグラウンド全体の黒の碁石の総数の95%信頼区間の計算方法について教えてください
  • 統計学でサンプリング精度を適用する際の疑問について解説
回答を見る
  • ベストアンサー

統計学:サンプリング精度の応用についての疑問

サンプリング精度に似た内容で非常に困っていることがあります。 総数をサンプリングから推測する時の精度についての疑問です。 例えば100m四方のグラウンドに数万個の白と黒の碁石が散らばっている場合、その白と黒の割合を推測するには、サンプリング精度の式(最大許容範囲=1.960xルート[p(1-p)/n])から95%信頼区間の精度が求められます。 私の疑問は100m四方のグラウンドに数万個の碁石が散らばっている場合、一定の割合でサンプリングした場合(例えば1m四方)の数から、グランド全体の黒の碁石の総数を推測したいのです。サンプリング面積(例えば1m四方が10マス)と数えた碁石の数から、推定した全体の碁石総数の95%信頼区間はどうやって計算したら良いか教えてください。 (実は、細胞懸濁液中の細胞数を、血球計算盤から計算する時の精度の問題です。体積を面積に置き換えて見ました。)

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.2

> 「碁石総数がN個」「試行回数n」とすると > |(x-Na/A)/√{n(a/A)(1-a/A)}| <= z > でしょうか? いいえ、「碁石総数 = 試行回数」なので、どちらもnです。 > 数式の意味は良く理解できませんでしたが、 数式の意味は、サンプリングエリア内に見つかる碁石の数xはNo.1に書いたように二項分布に従いますが、これが近似的に平均na/A、分散n(a/A)(1-a/A)の正規分布に従うとして考えています。 > z=1.96として、Nで解いても解が得られませんでした。私の計算法が誤っているのかもしれません。 上記の不等式をnについて解くと、 (2x+z^2*(1-p)-√[{2x+z^2*(1-p)}^2-4*x^2])/(2p)≦n≦(2x+z^2*(1-p)+√[{2x+z^2*(1-p)}^2-4*x^2])/(2p) となります。 > 例えば、サンプリング率(a/A)0.01%(=1/10,000)で(x)100個カウントできた場合は、総数は1x10^6個と推定できる思うのですが、その際の95%信頼区間幅はどれくらいになるのでしょうか? これを実際に計算してみると 822277.07≦n≦1216135.08 となります。nは自然数なので、 822278≦n≦1216135 が95%信頼区間となります。

jace2009
質問者

お礼

詳細な回答ありがとうございました。 やっぱり自力では不等式をnについて解くことはできませんでした。 (2x+z^2*(1-p)-√[{2x+z^2*(1-p)}^2-4*x^2])/(2p)≦n≦(2x+z^2*(1-p)+√[{2x+z^2*(1-p)}^2-4*x^2])/(2p) は何とか数値を代入してを確認しました。 「822278≦n≦1216135」は中央値が「1000000」ではないのですね。感覚として不思議です。また、サンプリング率(p)が0.001%でも10%でも、推定値に対する95%信頼区間の割合はあまり変動しないのですね。推定値に対する95%信頼区間の割合を±10%程度に抑えるには(p)に関係なく「400個」程度数えれば良いことが理解できました。数式上、p=100%では正確な区間がでないのは正規分布に近似したためなのでしょうか? 対象数が多い場合に限定して考えたいと思います。 何度も質問にお付き合い頂き誠にありがとうございました。統計学を基礎から勉強したいと思います。

その他の回答 (3)

noname#227064
noname#227064
回答No.4

> 「試行回数」は「総数」と同じと扱う理由はなんでしょうか? 碁石をグラウンド内に一個ずつ入れていくことをイメージしてください。 碁石一個一個について、サンプリング率の確率でサンプリングエリア内に入れるか入れないかという試行を碁石の総数だけ行っているので、試行回数と総数は同じになります。

jace2009
質問者

お礼

実際の試行回数ではないのですね。 いろいろありがとうございました。 長く悩んでいた問題が解決しました。

noname#227064
noname#227064
回答No.3

> やっぱり自力では不等式をnについて解くことはできませんでした。 |(x-na/A)/√{n(a/A)(1-a/A)}| <= z を二乗すると (x-na/A)^2/{n(a/A)(1-a/A)} <= z^2 (x-na/A)^2 <= z^2{n(a/A)(1-a/A)} あとはnについての二次不等式を解くだけです。 No.2でいきなりサンプリング率をpにしていましたね…… 修正しきれてませんでした。 > 「822278≦n≦1216135」は中央値が「1000000」ではないのですね。感覚として不思議です。 これは二項分布がp=0.5以外のとき非対称な分布だからでしょう。 > 数式上、p=100%では正確な区間がでないのは正規分布に近似したため なのでしょうか?  確かに、近似のため正確な信頼区間ではありませんが、p=100%のときはx≦n≦xつまりn=xとなります。 計算間違いされてませんか?

jace2009
質問者

お礼

お礼が遅れまして申し訳ございません。 色々ありがとうございました。 実は「計算間違いされてませんか?」と問われてExcelの式を確認した結果、修正して p=100%でも成立しました。 数日に渡ってありがとうございました。 最後に、ひとつ理解できなかった点があります 「「碁石総数 = 試行回数」なので、どちらもnです」。 「試行回数」は「総数」と同じと扱う理由はなんでしょうか?

noname#227064
noname#227064
回答No.1

面積A m^2のグラウンド中に1個の碁石があるとすると、面積a m^2のサンプリングエリア内に碁石が見つかる確率はa/Aとなるので、碁石がn個ならサンプリングエリア内に見つかる碁石の数xは試行回数n、成功確率a/Aの二項分布に従います。 xが正規分布で近似でき、標準正規分布の97.5%点をzとすると、95の確率で |(x-na/A)/√{n(a/A)(1-a/A)}| <= z となります。 これをnについて解けば、A m^2のグラウンド中に存在する碁石の数の95%信頼区間が得られます。

jace2009
質問者

お礼

早速の回答ありがとうございます。スマートな解説を頂き感謝いたします。 「碁石総数がN個」「試行回数n」とすると |(x-Na/A)/√{n(a/A)(1-a/A)}| <= z でしょうか?数式の意味は良く理解できませんでしたが、z=1.96として、Nで解いても解が得られませんでした。私の計算法が誤っているのかもしれません。 例えば、サンプリング率(a/A)0.01%(=1/10,000)で(x)100個カウントできた場合は、総数は1x10^6個と推定できる思うのですが、その際の95%信頼区間幅はどれくらいになるのでしょうか? サンプリング率(a/A)とサンプリングエリア内のカウント数(x)のみから求める計算式となると思うのですが。

関連するQ&A

  • 統計学の問題がわかりません!

    アンケート調査によると、左利きの割合は11%であった。真の左利きの割合はどの程度と考えられるか、適当な信頼度で信頼区間を構成し、検討しなさい。有効回答数は512とする。

  • 標本調査

    系統的抽出でサンプリングされたものから、(1)測定誤差(○%)を測定しました。この時、推測される真値の信頼区間はどの様に計算するのでしょうか? また(2)抽出誤差とあわせた信頼区間も計算出来る方法があれば教えて下さい。

  • 【統計】区間推定の問題

    はじめまして。 統計で下記のような問題が出されましたが、 解答がわからず、もし詳しい方がいらしたらお答えいただけないでしょうか。 単純な問題だと思いますが、参考書等みてもどのスキームの問題なのか 判別できず、解答が手付かずの状態です... よろしくお願いいたします。 問 A市とB市で標本調査を行ったところ、 禁煙者は、A市では200人中140人、 B市では900人中630人であった。 (1)A市における禁煙者の割合を信頼度95%で区間推定しなさい。 (2)B市における禁煙者の割合を信頼度90%で区間推定しなさい。

  • 投票数と重み付けについて

    研究で非常に困っています。 投票数によって重み付け評価を求める式を探していますが、 なかなか文献が見つかりません(探し方が下手かもしれんが…)。 【例】 ・Aさんが好き:2票、Aさんが嫌い:2票  →投票総数4票、信頼できる割合 50% ・Bさんが好き:98票、Bさんが嫌い:2票  →投票総数100票 98%信頼できる 単なる50%、98%だけで評価するのではなく、 たとえば投票が少なければ、信頼できる割合を増やして、 投票数が多ければ、現実的な結果とするなど、 重み付けが出来ないかと思っています。 このような手法をご存知でしたら、どんな公式や定義、 どの分野や文献を探せばよいかご教示願います。

  • 統計学の基礎?

    前提 日本人の身長の真の平均値を知るためには、日本人全員の身長を測定しなければならないが、それはおそらく不可能である。 そこで、一部の人(標本)の身長を測定し、その結果から推測したい。 標本(n)の身長もばらつき(標本分散:v)を持つし、日本人全体(母集団:N)の身長もばらつき(母分散:σ^2)を持つが、これらと真実の値(母平均:μ)や標本平均(m)との関係はどうなっているだろうか? ただし、各人の測定結果(身長)はX1,X2,X3・・・XNとあらわす。 問 1)日本人の平均身長= 2)日本人の平均身長の標準偏差= 3)標本の平均身長= 4)標本の平均身長= 5)標本の平均身長の分散から推定される日本人の平均身長の標準偏差= 6)標準誤差はσ/√nで与えられるが、これを標本分散を用いて表すと次のようになる。  標準誤差= 7)標準誤差を用いると、真実の平均値(母平均)があるであろう範囲(信頼区間)を特定の有意水準で求めることができる。有意水準5%のときの範囲(95%信頼区間)を表す式を示せ。 8)160、165,170,175,180というデータの平均の95%信頼区間を求めよ また、145,165,170,175,195というデータの平均の95%信頼区間と比較せよ。 以上の問です。 7と8以外は、数値を聞いているわけではなく、求める式を問うていることはなんとなくわかるのですが、ちょっとパソコンを利用して調べて回ったところ、どれが必要な情報かさえわからないレベルで、頭が痛くなってしまいました。 よろしければ問いの回答、その回答に至る考え方の流れなどを、簡単なものでも構わないのでご教授願えないでしょうか?

  • 面積の単位アール(a) ヘクタール(ha)の教え方

    こんばんは。 子供にヘクタールとアールの説明をしたいのですが、私は小学生当時、 この単元を理解せずにほぼ丸暗記していたので、上手に解説出来ません。 私自身改めて小学生になったつもりでお聞きしたいと思います。 1a=10m x 10m= 100m^2, 1ha=100m x 100m =10000m^2 なのはテキスト通りなので分かります。 が、そもそも1da(デカ)m^2や1h(ヘクト)m^2という言い方をしないのはどうしてですか? √10m四方の面積が1dam^2にはならないのですか? また、長さや重さの単位の変化と合わせたテキストにあるメートル法の一覧表を見ると、 1m^2 の10倍は100m^2=1aとありますが、子供は、1m^2 の10倍を 10m^2にしたがります。1m^2 x 10= 10m^2とかけてしまうようですが、実際は100m^2ですよね? ここを解説しようと、図を使って1m^2は1m四方の面積で、100m^2は10m四方の面積だから10倍なんだよ、と(いまいちな)説明をしたら、 子供が、方眼紙で100m^2中の1m^2の数を数え始めてしまい、「1m^2が100個あって100m^2なのに、やっぱり1m^2の10倍が100m^2なの?」と逆に攻められてしまいました。 私はどう教えてやるべきだったのでしょうか?

  • 細胞の数他

    幾つかありますけど、分かる事だけでいいので教えて下さい。よく人の細胞は、60兆個あるといいますがその細胞の範囲はどこからどこまでですか?筋肉や皮膚、骨や内臓等全て? あとどうやって数えたんでしょうか?全ての細胞の大きさが同じなら、小さい面積の細胞数から推定できるでしょうけど。 それと人は細胞があって、中に核があるといいますがミトコンドリアの中にも核があり母親からだけ遺伝すると聞いたような気も。核は一つじゃないんですか? クローンを作る場合は、色々あるみたいですけどどの核を使うんでしょうか?そういうこともあり、いま一つ分からないです。 人の体は複雑ですけど遺伝子の働きは、全てを100としてどの位分かっているんでしょうか?推測でもいいので。

  • レーザーレベル購入について

    お世話になります。 仕事で作業小屋やらビニールハウスを建てています。 前から欲しかったレーザーレベルを買いたいのですが、何処のメーカーのどの機種を買っていいのか分かりません。。。 勾配をつけることは年に何回かしかありませんが、そういう機能が有れば便利だなと思います。 値段にもよりますが。。。 一番大きい圃場でも300メートル四方くらいの面積だと思います。 ちなみに気になっているのはトプコン、ニコン、ライカ、ヒルティです。 使い勝手、耐久性、精度など教えていただけると助かります! よろしくお願いします!!

  • パーセンテージで得られた結果で有意差を調べる方法

    生物系の実験をしていて、有意差検定の壁にぶつかりました・・・。もし分かる方がいらっしゃいましたらご教授お願いします。  題名にもある通り、パーセンテージで得られた結果で有意差を調べる方法で悩んでいます。例をあげてみます。  マウス実験でグループA(n=3)、グループB(n=3)からそれぞれ特定の臓器を採取し、切片を500マイクロンごとに4枚ずつ採取したとします。そして合計、グループA、Bそれぞれ12枚ずつの切片を得、それぞれの切片にどれくらいの割合でポジティブの細胞が存在しているかをソフトウェアで検出したとします。これは(ポジティブ細胞数/全細胞数)ではなく、(発色している面積/全面積)です。切片のサイズ(面積)はバラバラです。そして得られた結果が以下のようだったとします。 A(%): 25,30,20,45, 20,25,20,15, 10,20,30,50 B(%): 10,15,10,25, 45,50,60,20, 20,20,15,25  この得られた数値(%)はそのままt-testに使えるのでしょうか。角変換をしてからでないといけないのでしょうか。それともまったく別の方法があるのでしょうか。よろしくお願いします。

  • 数学(確率統計)の問題なのですが・・・

    数学(確率統計)の問題なのですが・・・ 数学(確率統計)の問題なのですが、わかる方がいらしゃったら教えてください。 全く確率統計はわかりません。 (1) ある政党について、1200世帯を対象として調査したところ、 支持率が10%であった。 このとき、真の支持率を95%の信頼区間で推定しなさい。 (2) ある遺伝性障害は出生数400人に1人の割合で 発生することが知られている。 今、出生前に障害を持っているかどうか分かる検査法が 開発されたとする。 この検査では、もしも胎児が障害を持っていた場合には、 95%の確率で陽性、残りは陰性となり、 もしも胎児が健常であった場合には、1%の確率で陽性 となり、残りは陰性となる。 今、ある妊婦がこの検査法を受けたところ、 陽性の診断が出たとする。 このとき胎児が本当に障害を持っている確率はどれだけか。 よろしくお願い致します。