• ベストアンサー

確率要件を満たすためには・・・

確率要件を満たすためには・・・ 1000x1000の組み合わせのデータが4つあるとします。 ここからランダムにデータを抽出して評価するとして、 かつ抽出段階で”ゆらぎ”が発生するとします。 この時に、抽出したデータを元データと比較して 80%以上が合致していると断言するためには どの程度の試行が必要となるのでしょうか

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.3

ANo.2を見直してみるとイマイチな回答をしていたので、正誤判定の結果が二項分布に従い、帰無仮説を「正しく判定できる確率はp以下」、対立仮説を「正しく判定できる確率はpより大きい」として、有意水準α、検出力1-βでΔ以上の差を検出できるような試行回数を求めてみます。 試行回数nは正規分布近似ができるほど十分に大きいとすると、棄却限界は p+z√{p(1-p)/n} と書くことができます。 ただし、zは標準正規分布の100(1-α)%点です。 真の確率がp+Δのとき1-βの確率で p+Δ-z√{(p+Δ)(1-p-Δ)/n} 以上の値をとるので、必要な試行回数は p+z√{p(1-p)/n} <= p+Δ-z√{(p+Δ)(1-p-Δ)/n} すなわち (z/Δ)^2{√{p(1-p)}+√{(p+Δ)(1-p-Δ)}}^2 <= n を満たすnとなります。 例えば、p=0.8で有意水準α=0.05、Δ=0.05以上の差を1-βの確率で検出したいとすると、必要な試行回数は、 n >= (z/Δ)^2{√{p(1-p)}+√{(p+Δ)(1-p-Δ)}}^2 = (1.96/0.05)^2*{√{0.8*(1-0.8)}+√{(0.8+0.05)*(1-0.8-0.05)}}^2 = 880.7362 つまり881回試行する必要があります。 実際に棄却限界を求めると、帰無仮説が正しい場合724以下の値が得られる確率が0.9530であることから725が棄却限界で、真の確率が0.85以上の場合725以上の値を得られる確率は0.9879以上となります。

optiplex755
質問者

お礼

何度も回答ありがとうございます。 また、お礼が遅れまして、申し訳ありません。 ご教示頂いた内容を全て理解できたわけではありませんが その内容をベースに検討を進めていきたいと思います。

その他の回答 (2)

noname#227064
noname#227064
回答No.2

まとめると、こういうことでしょうか? 1.4つのデータがあり、データの形式は(0, 0)から(999, 999)までの1000x1000の組み合わせである。 2.試行の間、4つのデータの組み合わせは固定。 3.データを抽出すると、4つの組み合わせの一つがランダムに選ばれる。 4.選ばれたデータは、揺らぎにより値が変化する。 5.変化したデータは、(0, 0)から(999, 999)の組み合わせ以外の値も取り得る。 6.抽出されたデータのうち80%以上は(0, 0)から(999, 999)の組み合わせであって欲しい。 この考えて間違いなければ、二項分布又は正規分布で近似できるとして、(0, 0)から(999, 999)の組み合わせが(80+Δ)%のとき95%以上の確率で検出できるような試行回数を求めることでよさそうな気がします。 なので、簡便な方法として > ランダムな入力に対して揺らぎを通過させ > 正誤判定を行い、それを正規分布とした場合にその分布が標準偏差の2倍以内に納まっていれば > その統計データは有意と言える でも良いと考えます。 ただし、標準偏差の2倍以内ではなく+標準偏差の2倍以上の間違いだと思います。

noname#227064
noname#227064
回答No.1

すみませんが、具体例をだして説明していただけないでしょうか? > 1000x1000の組み合わせのデータが4つあるとします。 からしてよくわかりません。 (1, 23), (456, 78), (98, 765), (43, 21) というような形でしょうか? > ここからランダムにデータを抽出して評価するとして、 > かつ抽出段階で”ゆらぎ”が発生するとします。 とは、上の例の場合データを一個抽出した場合、(1, 23)が選ばれたとしても(2, 23)というように変化するということでしょうか? どういう"ゆらぎ"が発生するのでしょうか? > この時に、抽出したデータを元データと比較して > 80%以上が合致していると断言するためには 80%以上とは何に対して何が80%なのでしょうか?

optiplex755
質問者

お礼

ご回答ありがとうございます。 情報不足失礼致しました。 > (1, 23), (456, 78), (98, 765), (43, 21) > というような形でしょうか? はい。イメージとしては、このような形となります。 > どういう"ゆらぎ"が発生するのでしょうか? quaestio様が書かれているように、”揺らぎ”=値が勝手に変化してしまう という状態で間違いありません。 ただ、当初のデータ形式を0-999までの数字の組み合わせとした場合には この範囲内に変化する場合もありますが、範囲外に変化することもあります。 しかし、ここで範囲内に揺らいだと仮定すると、揺らぎによる変化なのか 入力当初からそうであったのかを判定できないために、結果以下の正誤判定では 正しいと判定することになります。 > 80%以上とは何に対して何が80%なのでしょうか? 入力に対して揺らぎを通過した後で、入力値として取り得る範囲内に納まっているかを 検証する場合に、どの程度の試行で80%以上が納まると言えるかということが、 数学的な根拠付けができるなら、みなさまにお知恵を拝借したいと思い質問致しました。 質問後、自分で検討もしていたのですが、ランダムな入力に対して揺らぎを通過させ 正誤判定を行い、それを正規分布とした場合にその分布が標準偏差の2倍以内に納まっていれば その統計データは有意と言えるのかなと今は考えていますが、自信はありません。

関連するQ&A

  • 確率の計算をご教授願います

    数学(算数?)が大の苦手で、ちょっと応用の入る確率の計算が難しくて困っています。 <<条件>> ・平面上に3x3マスあります。 ・11種類の絵柄があります。 ・それぞれのマスに11種類の絵柄がランダムで入ります。 横1列もしくは縦1列に関しては、11x11x11の1331通りの組み合わせあると思います。 全ての組み合わせは・・・1331x1331x1331??? (もうここでアウトです。ごめんなさい) ここで教えて頂きたいのが、  ・すべての組み合わせは何通りか  ・縦3つの絵柄だけが揃う確率 (横ラインに同じ絵柄があってはならない)  ・縦3つの絵柄が揃い、かつ横に同じ絵柄が2つある確率 (隣接か両脇のいずれか) 以上になります。 どうぞ宜しくお願い致します。

  • 確率の問題

    確率の問題の質問です。 問 箱に赤い玉が3個と白い玉が7個入っている。玉を無造作に1個ずつ取り出していくとき、ちょうど5回目に3つ目の赤い玉を取り出す確率はいくらか。(解答:1/20) テキストの解説 段階1 赤、白あわせて10個の玉から、赤い玉を3個取り出す組み合わせは 10C3で、120通り。 段階2 ちょうど5回目に赤い玉を取り出す場合の数は、4個目までに赤い玉2個、白い玉2個を並べ、5個目に赤い玉、6個目からは全て白い玉を並べることになる。よって、4C2=6通り。 求める確率は6/120=1/20 という解説でした。 段階2で引っかかっています。4C2、この式ですと、4個目までの中で赤い玉をだす確率は求められたとしても、その後5個目で、必ず赤が来るなんて断言できませんよね。白が来る可能性だって十分あるのです。 もう勉強しても勉強しても正しい解き方を自力で気付くということができませんし、テキストの解説を読んでも、「なんか違くないか?」「これだけでいいの?」「もっと他にも計算することがあるんじゃないの?」と頭を抱え込んでしまいます。

  • 教科書に確率の問題で

    教科書に確率の問題で Aが出る確率は1/2,Bがでる確率は1/2だとする。6個ランダムに引いた場合 1)全部Aの確率 2)最初の4つがAで残りはB 3)半分がA という問題があって 恐らく1)の答えは単純に(1/2)^6だと思うのですが、2)と3)が幾ら考えても分かりません。。 答えが載っていないので、あってるのかすら分かりません。。 どうやってとけばいいのでしょうか。。 後、ポーカーでフルハウスの組み合わせは何かという質問で 答えが13X12X4C3X4C2だとありました。 13と12はなんとなく分かるのですが、何故4C3と4C2をかけるのでしょうか? そして同じような問題で、5つのサイコロを転がした時にフルハウス(三つ同じ数、二つ違う同じ数)になる組み合わせが 6X5X5C2 とありました。 ポーカーでのフルハウスでは二つ”C”という記号を使っているのに対し、今度は一つしか使われてません。 教科書を何度も読みましたがさっぱり分かりません。。 どなたか分かりやすく説明していただけませんでしょうか?

  • 確率について教えてください。

    基本的に四則演算しかわからない素人です。 理論上の発生確率が50%であるものが、現実の運用に於いて違う率で実現する可能性について教えてください。 上記について、 A.実運用上の対象データ数が20である場合 B.同 50である場合 C.同 100である場合 (1).実運用上で60%として実現する確率 (2).同 70%として実現する確率 (3).同 80%として実現する確率 上記のそれぞれの組み合わせ9パターンについて、確率を求めたいんですが計算方法がわかりません。 計算式と答えを教えて頂けると幸いです。

  • 確率の独立性

    1からnまでの番号カードをランダムに並べる試行にたいする確立空間(W,P)を   W={w=(i1, ...... ,in) : ij∈{1, ...... ,n} (1≦j≦n), ij≠il(j≠l)}    P(w)= 1/n! , ∀w∈W 確率変数 Xj:W→N (1≦j≦n)を  Xj(w)= '数jのカードの右側におかれたjより小さいカードの枚数’と定義する。  この時 (1)P(Xi=k) (k=p, ...... ,j-1) を求める (2) X1, ...... , Xn  が独立かどうか調べる という問題で、 (1)では X1(w)=0であることから P(X1=0)=1 だということは分かるのですが、jもkも変数なのに問題のP(Xi=k)は求められるのでしょうか。 (2)はそれぞれの確率が関係し合っているので、独立でないと思うのですがどうでしょうか? 

  • 確率

    3枚の硬貨を同時に投げ、表の出た枚数を記録せよ。この実験を100回行い、そのとき得られる観測相対度数分布を求めよ(図作成)。 これをエクセルで行いたいのですが、どうすれば良いでしょうか? ・表:1、裏:2にして、確率を1/2にする。 ・「乱数発生」で、変数の数を3で100回試行にする。 ・「ヒストグラム」の入力範囲とデータ区間の取り方が分かりません。教えて下さい。 ・おそらく相対なので、100で割ってそれをグラフ化すると思われます。 上記のやり方で良いでしょうか? 宜しくお願いします。

  • 統計の問題、平均、標準偏差、確率

    授業で、 X1, …, Xn ~ N(μ, σ2)を仮定するとき、無作為に抽出されたデータ30個の (1)「標本平均mx」 (2)「標本標準偏差Sx」 (3)「母平均μが標本平均mx±0.4の間にある確率」 を求めよ。(ただし母標準偏差はσ=1.2とわかっているとする) という問題が出たのですが、どうしたら良いのかわかりません。 式など解き方、教えて下さい。 (※エクセルを使っても良いです)

  • エクセルでのデータ抽出について

    いつもお世話になっております。 以下の操作についてご教示をお願いいたします。 使用しているエクセルは2007です。 Sheet1 A列:2010年~の日付(昇順に記載し、発生日はランダム)が記載され、 B列以降は日付に対応したデータが記載された表が有ります。 Sheet2に同じ表の形式で2013年以降のデータを抽出したいのですが。 どのような方法がありますでしょうか? INDIRECT関数なんかを使って試行錯誤したのですが・・・わかりません。 どなたかご教示をお願いいたします。

  • パワプロ98開幕版「野球超人伝」理解のコツ

    ちょっと古いんですが、最近楽しんでます。 で表題の件ですが、一発で理解するためのコツ(必須評価値)とか あるものなのでしょうか?それともタダのランダムでしょうか? 一年目5月3週目辺り、高確率でイベント発生するのはおさえたのですが。。。 どなたか教えてください。

  • ACCESSのリレーションシップ設定について

    お世話になっております。 添付画像にありますように、3つのテーブルからデータを抽出する クエリーを作成したいのですが、リレーションシップをどのように 設定すればよいか教えてください。 いろいろ試したのですが、以下のような問題が発生し、困っています。 ・クエリーに新規データを入力できない。もしくは、既存データを修正できない。 ・クエリーに誤った組み合わせが抽出され、データ数が3倍くらいなる。 よろしくお願いします。