• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:2山のヒストグラムの間のしきい値は・・・?)

2山のヒストグラムの間のしきい値は?

noname#227064の回答

noname#227064
noname#227064
回答No.2

> 山(1)のデータは252,973件 (98.63%) > 山(2)のデータは  3,419件 ( 1.33%) 1:1の分布ではなかったのですね。 上の割合で再計算してみると、 谷間の最も確率密度が低くなる点は338.5289で、二つの正規分布の確率密度が同じになる点は、谷間のところでは337.4185となるようです。 割合を考えてみてもa'=5.16056…(μ1+a'*σ1=325.5357)と一致しませんでした。 あなたの詳しい計算方法を教えていただければ、一致しない理由がわかるかもしれません。 今回、図を添付してみました。 赤い線が山(1)の正規分布、青い線が山(2)の正規分布、黒い線が山(1)及び(2)の混合分布となります。 確率密度は図でいうと縦軸の高さ(density)を意味します。 確率は横軸の線とグラフで囲まれた面積となります。 二つの正規分布の確率密度が同じになる点、つまり赤い線と青い線が交差する点は、求める式があります。必要であれば記載しますがどうしましょう? 谷間の最も確率密度が低くなる点、つまり黒い線の谷間のところで一番低くなる点は、コンピュータ等で数値計算する必要があります。

donbei666
質問者

お礼

丁寧な回答ありがとうございます。 もう一度計算したら、しきい値337.7999999で確率の総和が最も低そうです。しかし、確率密度が最小になる点:338.5289、確率密度が同じ値になる点:337.4185ともずれているようです。 確率はエクセルのNORMDIST関数で求めました。 山(1)のしきい値以上になる確率は、 =(1-NORMDIST(X,μ1,σ1,TRUE))×0.9863・・・・I 山(2)のしきい値以下になる確率は、 =NORMDIST(X,μ2,σ2,TRUE)×0.0133・・・・II で求めました。Xはしきい値です。 しっかりした計算方法があればよいのですが、 自分はエクセル上でこつこつしきい値を変えて、 IとIIの総和が小さくなる点を探しています。 そこが、不良の発生確率が最も小さいところだと思うので・・・ お手数ですが、"二つの正規分布の確率密度が同じになる点、つまり赤い線と青い線が交差する点を求める式"を教えていただけると助かります。 何卒、よろしくお願いいたします。

関連するQ&A

  • 正規分布とヒストグラムのグラフの書き方

    エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。 しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。 具体的に書いていきたいと思います。 正規分布になるとほぼ確信しているデータがあります。 サンプル数は50、平均7.8、標準偏差2.9のデータです。 データ区間 頻度 0       0 1       1 2       1 3       2 4       2 5       5 6       6 7       6 8       6 9       8 10      5 11      2 12      3 13      1 14      2 15      0 というデータです。 そして、データ区間に対応する正規分布の値を NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE) を使用して、求めます。 そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。 (ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?) 上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが) また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。 以上の作業で、求めていたグラフは書けました。 視覚的に予想通り正規分布のグラフに近いことが分かりました。 さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。 そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。 度数分布表は以下のようになります。 データ区間 頻度 1       1 3       3 5       7 7       12 9       14 11      7 13      4 15      2 17      0 ここから、前回同様の作業でヒストグラムは容易に描けます。 正規分布のグラフはどのように書けば良いのでしょうか? 前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。 正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。 データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。 すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。 しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。 このようにして得られてグラフに問題は無いでしょうか。 また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。 数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。 どのように考えればよいのでしょうか。 質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。 お手数をおかけしますが、よろしくお願いします。

  • 偏差値と順位

     資格試験の模試の結果の平均から、自分が上位何パーセントに知りたいのですが、情報は点数・偏差値・平均点のみです。  ここで偏差値から順位を求める際に必要な標準偏差がないのですが、一般的な公式『偏差値={10(点数-平均点)÷標準偏差}+50』を以下のように変形して、上記情報から標準偏差を求めてみました。  標準偏差=10(点数-平均点)÷(偏差値-50)  これを基に、Excelで正規分布関数(NORMDIST)を使って上位何%の位置にいるのか算定しようとしたのですが、偏差値が53.43なのになぜか上位0.0何%とかいうへんてこりんな数字が出ちゃいました。  数式は『1-NORMDIST(偏差値、平均点、標準偏差、TRUE)』です。  なお、そのデータは、点数20点、偏差値53.43、平均点19.1点です。  点数の分布は一応、それなりに正規分布に近い形になっていると思うのですが、なぜこうなるのでしょうか?  原因が分かる方、教えて下さい。なお、当方は統計学ド素人です。

  • エクセルの統計計算

    下記のようなヒストグラム形式のデータの、平均値と標準偏差をエクセルの関数を使って計算したいのですが、エクセルは簡単なセル演算しかやったことがなく、どの関数をどのように使えば良いのか分かりません。教えていただけませんでしょうか。 データは1列目に値が、2列目にその頻度が並んでいます。 例えば、 <ポイント>、<人数>   0      3   1      1   2      5   3      0   4      2   5      1 のような形式です。  一応、(ポイントx人数)と(ポイント^2x人数)を計算する列を別に作り、平均値と標準偏差を計算することは可能ですが、データ量が増えて類似計算を繰り返すことを考えると、統計関数を使って引数範囲を指定する方が賢明なように思ってます。  よろしくお願いいたします。

  • 正規分布から実値を求める方法

    ある正規分布(横軸:長さ[cm]、縦軸:分布個数[%])において、 平均値A[cm]、標準偏差σが分かっているとき、 例えば、分布の下限から10%、20%、30%…のところの実値[cm]を求める方法を 教えて頂きたく。 (ExcelのNORMDIST関数を使うようなことまでは 分かったのですが、具体的にどう使えばよいかが分かりません。)

  • ヒストグラム

    研究者です。 電気泳動で細胞の末端のDNAの長さを調べております。 この場合、正規分布からは少し外れます。 ヒストグラムで長さの分布をプロットして、A群とB群で差が有るかどうかを検査したいのですが、平均値と中央値、最頻値で比較するのが妥当なのでしょうか? この方法ですと同じ実験を3回以上繰り返して、P値を求めなければなりません。 上司によると別の方法が有るらしいのですが、見つかりません。 ご教授をよろしくお願い致します。

  • ヒストグラム

    課題でわからない問題があります。 ある試験Aを500人に対して行った。試験点数の分布は正規分布。以下の問に答えよ。 ①試験Aにおいて、Xさんは47点、偏差値47、Yさんは72点、偏差値74.3であった。試験Aの平均点と標準偏差を求めよ。なお計算は四捨五入して小数点第一位まで求めよ。 これ連立方程式で解いても、平均点が9.2とゆうあり得ない数字になるんですけれど。 どなたか分かる方いましたらお願いします。 あと、先ほど協力してくださった方にお礼しないで解答終了してしまいました。fshiguさんとooogoooさんだったかと思います、ありがとございました(><)

  • 正規分布のグラフ作成について

    株価の前日からの騰落率の分布をEXCELで計算したいのですが、正規分布の計算やグラフはどのように作成すればよろしいでしょうか? いろんなサイトを見ているのですが解説がながくて理解しずらいものですから単純に操作手順を書いていただけるとありがたいです。ちなみに○○から■■のデータは全体のどれくらいかはNORMDIST(○○,平均値,標準偏差,TRUE)-NORMDIST(■■,平均値,標準偏差,TRUE)と検索したサイトに書いてありましたがこの式や計算結果データは関係ないのでしょうか?山のような形をしたグラフで68%に収まる前日からの騰落率はどの範囲かを把握できる程度の簡単なものを求めています。よろしくお願いいたします。

  • 以下の統計学の問題の解説をお教えください。

    以下の統計学の問題の解説をお教えください。 (1)100人の学生の現在と10年前の身長を記録したデータによれば、現在の身長の平均は170cm、標準偏差は10cmであり、10年前の身長の平均は150cm、標準偏差は6cmである。このデータから、各学生の現在と過去の身長の和を計算すると、その平均と標準偏差はどのようになると考えられるか。以下の選択肢a-fの中から最も正しいと思われるものを二つ選べ。 a.和の平均は320cmである b.和の平均は320cm以上である c.和の平均は320cm以下となる d.和の標準偏差はほぼ12cmとなる e.和の標準偏差はほぼ16cmとなる f.和の標準偏差はほぼ13cm以上16cm以下となる (2)以下の中から正しいものを全て選べ。 1.分布が単峰の場合、中央値は、平均値と最頻値の間にある。 2.ヒストグラムを描いたときに、左裾が長い分布の歪度は負となる。 3.標準正規分布をする確率変数が1.96を超える確率は約0.025である。 4.ひとつの変数群を、他の変数群で説明しようとする統計的手法の典型的なものは、回帰分析と呼ばれている。 5.Tが自由度5のt分布をする確率変数、Zが標準正規分布をする確率変数である場合、Pr(T>1.96)のほうがPr(Z>1.96)よりも小さい。 6.統計的検定を行う場合、直接にコントロールされるのは、第1種の過誤のみで、第2種の過誤は間接的にコントロールされる場合が多い。 7.通常、第2種の過誤を犯す確率は、サンプル数を増やすと大きくなる。 8.カイ二乗分布は、比率の標本分布として用いられることが多い。 9.二つの確率変数が独立の場合、その和の分散は、それぞれの分散の和となる。 10.順序尺度水準で測定されている変数を使った分析の結果は、その変数に単調増加変換を施した別の変数を用いた分析結果と変わらないはずである。 (3)ある世論調査で、内閣支持率が35%でその95%信頼区間の幅が±5%と出ていた。この解釈として最も適当なものを選べ。 a.内閣支持率は、ほぼ30%から40%の間にある b.内閣支持率が35%であるという仮説は5%水準で有意である c.内閣支持率が35%でないという仮説は5%水準で有意である d.内閣支持率が35%である確率は5%である

  • 標準偏差の計算について教えてください。

    確率統計が超苦手なのですが,計算しなければなりません。よくわからないので教えてください。 例えば, 数:10 平均:1.1 標準偏差:0.05 数:5  平均:1.2 標準偏差:0.03 数:20 平均:1.05 標準偏差:0.1 が与えられたとき,どのようにして計算すれば,全体の標準偏差が算出できますか?

  • 原稿に忠実にするためのヒストグラムなどのいじり方、アドバイス宜しくお願いします。

    鉛筆画を出来るだけ現物に忠実に取り込みたいのですが、 忠実ということにこだわってるので、 http://wikiwiki.jp/bookjisui/?%A5%B9%A5%AD%A5%E3%A5%CB%A5%F3%A5%B0#b916c65e こちらのページを参考に IT8キャリブレーションでICCプロファイルを作りました。 グレートーンなのでほとんど関係ないかも知れませんが。 エプソンのスキャナ(GT-S620)でICCプロファイルで色補正なしの状態で取り込み フリーソフトのGIMPで加工しようと思ってるのですが、 取り込んだ画像は極端に薄くなり、 取り込む前のプレビューではヒストグラムに山があるのですが、 取り込んだ後GIMPで見るとほぼ平坦で山がありません。 後から加工するより、取り込む段階でヒストグラムなどをいじって取り込んだほうがいいのでしょうか? 後からいじるとデータが劣化するのでしょうか? ちなみにTIFFで取り込みます。 今まで画像編集ソフトをいじったことがなく、 なかなか現物に忠実にはなりません。 ヒストグラム、トーンカーブ、明度、コントラストなど いじる順番やコツがあれば教えていただけますよう宜しくお願いします。 初心者はトーンカーブはいじらない方がいいのでしょうか? あくまでも忠実に取り込みたいので見栄えがよくても誇張したりする気はありません。 「EPSON SCAN」には取り込む前に ヒストグラムやトーンカーブ、明度、コントラストなどいじれる機能があるのでそれをいじって取り込むことも出来ます。 鉛筆画なので線を見えてるように表現したいので、 取り込む前にアンシャープマスクを「強」の設定でかけて プレビューで現物と色が出来るだけ合うように調整してスキャンしたのですが、 取り込んだ画像はプレビューの画像より線がぼやけてしまいます。 線をなるべくぼやけないようにするコツがあれば教えて下さい。 現物に近づくように補正をかけて取り込んだ画像にGIMPのアンシャープマスクをかけてみたのですが、 量、半径、しきいが調べたのですがあまり理解できてなくて とりあえず半径は1、しきいは0で量だけいじってみたのですがどうしても画像が荒くなります。 鉛筆画に最適な設定があれば教えて下さい。 あと、取り込み前であればアンシャープマスクを使っても画像は劣化しないですよね? 困ってます。 詳しい方アドバイス宜しくお願いします。