統計的手法を用いた色の付いた粒の数の推定方法

このQ&Aのポイント
  • 統計的手法を使って、ある集団の色の付いた粒が規格の30粒以下であることを証明する方法はありますか?データから色の付いた粒の数を推定することはできるでしょうか?
  • 10gの粒を計量し、その中から色の付いた粒を数える作業を69回行った結果のデータがあります。このデータを用いて、色の付いた粒が何粒になるか推定するための統計的手法を求めています。
  • 統計に詳しくない方でもわかりやすい方法で、10gの粒から色の付いた粒の数を推定するための統計的手法を教えてください。
回答を見る
  • ベストアンサー

統計的手法を用いて

再度質問させて頂きます。 抜き取りサンプリングして サンプル10グラムの粒を計量してその中から色の付いた粒を数えた結果が下記にあります。 10g計量して(2000粒) 色の付いた粒を数える作業を69回繰り返したデータです。 n-69  平均 4.0  σ 3.7  max 14  min 0  が結果です。 規格として色の付いた粒が30以下とします。(データからの結果は全て合格ですが) 統計的手法を使ってこの集団の色のついた粒が規格の30粒以下であるということを証明 するようなことは出来るでしょうか? データから色の付いた粒が何粒になるか推定が 出来るでしょうか? どんな方法がいいでしょうか?あまり統計に詳しくないので簡単にわかりやすい説明を して頂けるとありがたいのですが。 どうか宜しくお願いします。 10gを計量してその中から色の付いた粒を数える 10gは2000粒(1gが200粒) 重量 1粒が0.005g(5mg) 色の付いた粒(個) 10gの粒を計量してその中から色の付いた粒を数える。 これを69回行った。 個数 0       16(色の付いた粒 0個が16個あったという意味) 1       11 2       5 3       3 4       6 5       2 6       7 7       4 8       6 9       3 10       3     11          1  13       1 14       1 合計69

質問者が選んだベストアンサー

  • ベストアンサー
  • drmuraberg
  • ベストアンサー率71% (847/1183)
回答No.4

ワイブル分布の密度関数f(k)は次式で表されます f(k) = m(k-γ)^(m-1)/α*exp{-(k-γ)^m/α} ここに、m形状パラメータ、α尺度パラメータ、γ位置パラメータ http://www3.panasonic.biz/ac/j/control/relay/common/reliability.jsp 今k-γ=xと置くと f(x+γ)= mx^(m-1)/α*exp(-x^m/α) データとのエクセルによる適合(試行錯誤) セルA1にテキスト「定数γ」を入力。 セルB1にテキスト「定数m」を入力。 セルC1にテキスト「定数α」を入力。 セルD1にテキスト「サンプリング回数N」を入力。 セルA2に定数γを入力。 セルB2に定数mを入力。 セルC2に定数αを入力。 セルD2にサンプリング回数Nを入力。 セルA3にテキスト「着色粒数k」を入力。 セルB3にテキスト「k + γ」を入力。 セルC3にテキスト「WEIBULL」を入力。 セルD3にテキスト「規格化WEIBULL」を入力。 セルE3にテキスト「着色粒数頻度」を入力。 セルF3にテキスト「測定値」を入力。 A列のA5から以下に k=0~50(例)を入力。 B列のB5にk+γの式、=A5+A$2、を入力し、ドロップダウンでB55までコピー。 C列のC5にEXCELL関数、=WEIBULL(B5,B$2,C$2,FALSE)、を入力し、   ドロップダウンでC55までコピー。 セルC56にC列の総和、=SUM(C5:C55)、を入力。 セルD5に式、=C5/D$56を入力し、ドロップダウンでD56までコピー。 セルE5に式、=D5/C$2、を入力し、ドロップダウンでE56までコピー。 F列のF5からF55までオリジナルデータを入力。 C56を列に沿いプルしF56までコピー。 各セルの数字桁数は適宜調整のこと。 D列とE列の結果を使い、表示したい範囲でD列とE列を選び エクセルでグラフを描く。 パラメータの傾向に付いては下記URLを参考にする。 http://avalonbreeze.web.fc2.com/38_01_02_04_weibull.html γ=2.4、α=4、m=1.0の例 0 15.3 16 1 11.9 11 2 9.3 5 3 7.2 3 4 5.6 6 5 4.4 2 6 3.4 7 7 2.7 4 8 2.1 6 9 1.6 3 10 1.3 3 11 1.0 1 12 0.8 0 13 0.6 1 14 0.5 1 15 0.4 0 ・ ・・・・・・・ 3σとなるk=11以下にある確率(k=50まで計算) P(<11)= 0.95022 (95.0%) K=30以下にある確率 P(<30)=0.99957 (99.96%) したがって、3σはかなり高リスクな許容限度(20回に1回は外れる)、 他方k=30はかなり安全な許容限界と言えます(2500回に1回外れる)。 オリジナルデータは2つのポアソン分布が重なっている様な感じもします。 工程上の心当たり有りませんか。 サンプリング回数が増え、データ数が大きくなれば消えるとは思いますが。 パラメータの決定は確率紙を使う方法も有ります。試行錯誤よりは良い と思います。検討してください。 議論の筋は、 1)サンプリング検査。検査手法と結果。 2)データの検討、正規分布にもポアソン分布にも従わない。他の方の回答参照。 3)ワイブル分布のパラメータを選べばそれらしい分布曲線となる (理由は不明)。 4)この推定分布を基に、あるサンプリング検査で着色粒数>3σ=11(整数)となる   確率を計算すると5% 。3σ許容限界を越すケースは20回に1回で(実測は   69回に2回)かなり高リスク。   他方、サンプリング検査で着色粒数>30となる確率を計算すると0.04% 。   30個の許容限界を越すケースは2500回に1回で殆ど起こり得ない。 以上より、3σを許容値に設定することは再検討した方が良い。 参考になれば幸いです。がんばって下さい。 余談ですが、昔着色米粒の選別機を他用途に試験したことが有ります。 結果は良かったのですが購入予算取れませんでした。当時試験に協力して くれた部下に、不甲斐ない上司だったことへの謝罪を込めての回答でした。 ちなみに、その機械は同業他社には広く売れたそうで用途発案者の部下には メーカーが感謝していました。貧乏上司の悲哀を感じました。 グラフ添付できませんでした。

bodybody1098
質問者

お礼

drmurabergさん何度もご丁寧に回答をして頂き、ただただ感謝です。これたけの時間をさいて 頂いて恐縮しています。 部下の方は不甲斐ない上司だとは思っていませんよきっと。しかし上司になるといろいろ苦労 されて大変です。でも周りの方々からみんなに親しまれる方だというのがよくわかります。 ここまで詳しい説明をして頂き申し訳ない気持ちでいっぱいです。 また印刷して参考にさせて頂きこれからの仕事に役立てたらいいなと思っています。 安易に3σと考えるのはよくないことがわかりました。 またわからない事がありましたらここでお聞きします。本当にありがとうございました。 せっかくの休みを自分の為に使って頂いて。明日から仕事またがんばります。 気持ちもとても嬉しくて自分にとってとてもいい休日でした。

その他の回答 (3)

  • drmuraberg
  • ベストアンサー率71% (847/1183)
回答No.3

前回の質問の回答に数表の読取り間違いに気付き、訂正を書いたのですが締め切られた後でした。 参考までに、それを下に書いておきます。結論は今回の回答No.1と同じです。 ワイブル分布の適用は、背景がまだ解らないのですが、明日整理して回答します。 データは試料10g(平均2000粒が含まれる)を1サンプルとし, 69サンプルを作り、それに付いて着色粒の数を数えた。 その結果、着色粒の数Kと個数nとの間に次の関係を見出した。 K= 1, n= AB K= 2, n= BC ・ ・・・・・・・          (ヒストグラムを加える) K=13, n=XY K=14, n=YZ その平均と分散は <n=69  σ=3.7  平均=4.0  max=14  min=0> であった。 <この結果より、あるサンプル中の着色粒上限規格(3σ)を越える物の個数は 30を遙かに下回る事を統計的手法を用いて証明しなさい>。 ヒストグラムと平均と分散の値より、着色粒の数の分布はポアソン分布 Pk = λ^k*exp(-λ)/k! に従うとし(要検討)、平均と分散の値より、λ=4とみなすと(要検討)、Pkは k= 0, P0=0.01832 k= 1, P1=0.07326 k= 2, P2=0.14653 ・・・・・・・・・・ k=10, P10=0.00529 k=11, P11=0.00192 k=12 P12=0.00064 k=13, P13=0.00020 k=14, P14=0.00006 k=15, P15=0.00002 (数表より、関数電卓で計算しても良い。) P‘ = ΣPk k=0~15   = 0.9991 (これを1.0 とする) 分散σ=3.7であるから 3σ=11.1。 着色粒の数が3σ以下の整数11以下である確率P(3σ)は P‘(3σ)= ΣPk k=0~11 = 0.99899  これを規格化し、 P(3σ) = 0.99899/0.99991=0.99908 よって着色粒の数が3σで定められる許容値11個以下である確率は99.908% である。 言い換えれば、許容値3σを超す確率は約1/1000(1000サンプリングに対し1回)である。 サンプリング毎に見出される着色粒の平均個数は4.0個である。 しかしデータではk=11~14でも着色粒が見出されている。これはポアソン分布を 前提とする限りあり得ない。 従って他の適正な分布を探す必要がある。 裾に長い尾を引く分布として知られて居るのは、ワイブル分布である。この様な分布を 検討する必要がある。 以上

bodybody1098
質問者

お礼

drmurabergさん昨日に引き続いて貴重な長い時間を自分の為にさいて頂いて大変感謝して います。感激感激です。世の中まだまだ捨てたものではないと心の中で感動しています。嫁さんにも 話したらこの回答みて感動していました。時間がかかったでしょうと。親切な方が沢山おられる だと。 こんな回答とか考え方が自分の頭の中で出来るといいのですがもうお手上げ状態でしたので 本当に助かりました。3σを越す確立が1/1000でやはり皆さんが言っておられるように30粒の色の 付いた粒が出るのは限りなく少ないようですね。 今回の集団だけではなくて次の集団のものも分析があるのでよく分布を観察して今回のものと比較 して検討したいと思います。回答をプリントアウトして勉強させて頂きます。 ワイブル分布もはじめて耳にしました。さっそく調べてみます。 大変参考になりました。ありがとうございました。

  • okormazd
  • ベストアンサー率50% (1224/2412)
回答No.2

前回の#1です。 データが出ましたので少し検討しましたが、ポアソン分布を仮定するのには、無理があるようです。前回も平均=4、σ=3.7ということだったので、これではポアソン分布ではないと思ったのです。ポアソン分布は、平均=分散になります。 統計量を(n-1)*v/rとして有意差5%でχ^2検定をしてもポアソン分布モデルは棄却されるようです。 χ^2分布   有意水準5%散布度検定  χ^2 自由度(n-1)      上2.5%  0.025  47.1  Excel2010ではこうなる      =68      下2.5%  0.975  92.7 統計量 (n-1)・v/r=237.4  いずれにしろ範囲を外れる 二項分布モデルでそれらしく考えます。 1回10g、2000粒で69回やったら、平均4、最大14だったということです。 この1回を分割して、1回0.7g、14回に分けてやったとしたら、理想的には、平均4回1個の色つきが出て、最大14回1個の色つきが出るということになる。 極端な場合、1回を1粒ずつにして、2000回やったとすれば、平均して色つきが4回でるが、色つきが30回以上出る確率はどれほどなのかという問題に帰着される。二項分布モデルです。ポアソン分布はこの分割を無限にした場合の極限です。 これで計算すると、30 回出る確率は、6.77*10^(-17)になって、30回以上でる確率を加えてもとても現実的な確率にはならない。30回以上出ることは統計的にはまずないといえる。当然ですがポアソン分布モデルで計算した値と大差はない(前回計算されてますね)。それでも説明はしやすいのではないですか。 計算ではこうなるが、元のデータのばらつきを見るとちょっと心配です。元の分布に偏りがあるか、サンプリングが悪いのか、色つき混入率が小さすぎるのか。それはわかりません。 なお、二項分布の確率計算は、下式です。 P(X=x)=nCx・p^x(1-p)^(n-x) 何か勘違いしていたら勘弁を。

bodybody1098
質問者

お礼

okormazdさん前回に引き続き大切な時間をさいて頂きご回答ありがとうございます。 申し訳ないです。 ポアソン分布は皆さん同じ意見みたいですね。しかしいろんな考えがあって驚いています。 皆さんは学者さんなんでしょうか。尊敬します。 30個以上色つきの粒が出る確率が統計的にまずないということで少し安心出来ました。今後 もうしばらくこの分析が続くので分布がどうなっているか確認したいと思います。 ご親切にありがとうございました。プリントアウトして勉強させて頂きます。

noname#227064
noname#227064
回答No.1

前と同じような回答だけしか得られない可能性もありますので、前の質問のリンクを貼っておくなり質問番号を記載しておくことをお勧めします。 前の質問の#4さんの回答にあるチェビシェフの不等式を使って、ある10gの粒の中に色の付いた粒の個数が30個を超える確率を計算してみます。 10g中の色の付いた粒の個数をxとすると Pr(x > 30) = Pr(x ≧ 31) = Pr(x-4 ≧ 27) = Pr(|x-4| ≧ 27) ≦ 3.7^2/27^2 ≒ 0.0188 つまり、1.88%は超えないだろうという計算になります。 (チェビシェフの不等式は任意の分布に使えるというのは言い過ぎですが、このケースでは問題ないでしょう。) チェビシェフの不等式は様々な分布に適用できますが、得られる値は悪くてもこの値は超えないというもので、ひょっとすると実際にはもっと低い値かもしれません。 粒で色の付いたものの割合が少なければポアソン分布に従いそうですがそうはなっていようです。 (色の付いた粒が均一に混ざっていないのかサンプリングが拙いのか分かりませんが) 他に考えられる方法は、前の質問#6さんも書かれてましたが、何らかの分布を仮定してそれから計算する位ですかね。

bodybody1098
質問者

お礼

quaestioさん、わかりやすい回答ありがとうございます。勉強不足を痛感しています。 毎度思う事なのですが自分みたいな無知な者に貴重な時間をさいて説明して頂いて 大変感謝しています。みなさん専門の方なのでしょうか、統計のことをよく知っているので 驚きです。親切丁寧にありがとうございました。

関連するQ&A

  • 統計的手法  3σ管理

    このカテゴリーでいいのかわかりませんが職場である分析をしてその結果に対して どう考えていいか統計的手法を用いて証明したいのですがよくわかりません。 初心者でもわかるように詳しい説明をしていただけないでしょうか。宜しくお願いします 分析結果より、上限規格の30個以上には まずならないというのを統計的手法を用いて証明して 欲しいと上司から言われています。結果だけを見ても超える事はないと一目でわかりますが。 分析結果から得られた情報として n=69 σ=3.7  平均=4.0  max=14  min=0 上記の結果が得られて上限の規格を30以下とした場合、自分なりに考えてみました。(下限は考えなくてもいいです。より0に近いほうがいいので無視して下さい) (1)3σの幅で 3×3.7=11.1  平均が4.0なので4.0+11.1=15.1になります。  よって。3σは99.7%が3σにおさまるので(1000個だと997個がok、残り3つが不良)と考えられる ので上限規格の30以下を考えると30を超えるのは極めて少ないという結論でよろしいでしょうか? 6σでみても6×3.7=22.2  4+22.2=26.2になるので26.2個が100%に限りなく近くおさまっている と考えていいのでしょうか? (2)工程能力指数で片側 (30-4.0)/3√3.7=Cp= 4.48となり工程能力指数も十分満足しており  30個は超える事がないと考えていいのでしょうか?そもそもここで工程能力指数をだしても 無意味でしょうか? (3)その他何か推定とか検定して30個は超えないということが証明できるか又は  上記の統計結果から上限はいくらぐらいになるか(1)の他に推定とかは出来るでしょうか? 自分の考えとしては(1)と(2)で30個を超えることはないとこれで証明できると思うのですが そのあたりがよくわかりません。 どなたか詳しい方、指導の程、宜しくお願いします。   

  • 助けてください・・・統計学を教えてください

    誰かわかる方解答をお願いします。 1.偏りのない 6面サイコロを 50 回振ったときに 1 の目が出る回数を x とする。 x の平均値と標準偏差を求めよ(これは二項分布の復習である)。 2. この試行で,x が7以上 9以下 になる確率を,正規分布に対して 半整数補正を使うことで求めよ。 3.とうもろこしの品種の中には,黄色と白の粒が混在しているものがある。 これは2種類の親を交配して作られるF1作物で,メンデルの法則に従って 黄色と白の種子が 3 : 1 の確率で作られるものである。 今,粒の数が 410 個のF1とうもろこしがあったとすると, そのうち 黄色の種が 289 から 313 の間になる確率を正規分布表を用いて 求めよ。この場合,数が大きいので半整数補正を使う必要はない。

  • 統計的な処理がしたい

    以下のようなアンケートをとったとします。 --------------------------------------------------- 以下の選択肢のうち、あなたの好きな色を選んでください。 (複数回答可) (1)赤 (2)青 (3)黄 (4)緑 (5)白 (6)黒 --------------------------------------------------- 結果が出たとき、どの色が人気があってどの色が人気がない ということを統計学的に説明するとき、 どのような統計的な処理を行えばよいのでしょうか?

  • 統計学的に必要なサンプリング数について

    「正規分布している母集団の中から、何個のサンプルを取り出せばその母集団の振る舞いを再現できるか」 という質問をさせて頂きます。統計学の知識・知見がある方ご回答どうかお願いします。 私は化学研究に携わる学生です。 ある時間範囲における、箱の中の分子の運動をコンピュータシミュレーションで描画しました。 その結果ある瞬間に分子が箱のどこに居るかという位置情報を1000万個得ました。(パラパラマンガの要領で、この多数の構造から分子の運動が描けます) 現在分子が統計的にどの位置に存在しているのかを求めています。 (例)箱を三等分し、A,B,Cのエリアに分けた時に、それぞれ何%の時間ずつ分子が存在しているか 計算時間短縮のため、1000万個からいくつかサンプリングしようと考えています。 しかし例えば、サンプリング数が10個だけだと、再現性は非常に低いと予想できます。 では何個サンプリングすれば、1000万個位置情報を処理したものと等しい結果を得られるのでしょうか。 分母が1000万個もあるので、簡単にするために母集団が正規分布すると考えることにしました。 調べてみましたが、二項母集団に関するものしか理解できませんでした。 100%の再現性が得られることは無いだろうと思いますが、「大体正しい」(統計的に何%、というのでしょうか)結果を得るためには何個サンプリングすればいいのでしょうか? 宜しくお願い致します。

  • 統計ソフトでのデータの比較方法を教えてください

    SPSS15.0Jを使っています。 比較するデータが2つしかない時(1人分の結果)、どのように統計処理をしたら良いのでしょうか? 例えば、 ___________X投与前__X投与後     A細胞(個)_____38______35 B細胞(個)_____24______26 C細胞(個)_____20______12 D細胞(個)_____60______78 合計(個)______142_____151 という実験結果の場合、ソフト上で合計に対する各細胞の割合や、投与前後での有意差はどういう方法で求められますか? どなたか、よろしくお願いします。

  • 〔統計〕相関性について

    以下の問題を統計学的に考察するには、どのような手法を用いればいいのでしょうか? 【問題】ダニアレルギーの症状をもつ100人をランダムサンプリングして、スクラッチテスト(アレルギーをもつか調べる簡単なテスト)を行ったところ、陽性80人・陰性20人であった。次にダニアレルギーの症状をもたない100人にテストを行ったら陽性10人・陰性90人であった。アレルギー症状とスクラッチテストの結果には相関性があるか。

  • 血液検査の正常範囲って統計的に求めたものですか?

    人間ドックや定期検診でおなじみの血液検査。毎回結果に一喜一憂していますが、この正常範囲値ってものは、どのようにして決まっているのでしょうか。 例えば、肝臓のGPTは5~39。中性脂肪は35~149。尿酸値は3.6~7、という基準です。 (1)健常者を無作為サンプリングして、平均値±k×標準偏差? ??健常者の定義は??「鶏が先か卵が先か?」。k値は1,2,3 ??。 (2)健常者のサンプルのMAX値~MIN値?==これは荒っぽい! (3)その他の手法? 工業製品であれば、商品企画部門が決める規格値であろうし、 工程の日常管理であれば、工程異常を除く日々のデータの平均値±k×標準偏差((1)の方式)で統計的に決めています。 しかし、こと人間の体、ましてや自分のからだが正常か異常かの決め方を知らずに、お医者さんの一言二言で済まされるのは、高い検査料がもったいないというものです。 どなたか、教えてください。  それと、本人は健常であるのに正常範囲値外に数値が出てしまう「統計的危険率」は何%くらいあるのでしょうか?

  • 統計的処理についての質問です!

    統計的処理についての質問です! 治具の押し力量の規格値の妥当性(上限値と下限値)を確認するために、押し力量に関係する1寸法の図面上の公差の上限治具(力量が上限)と下限治具(力量が下限)にて押し力量を複数回測定することで、押し力量の規格値の妥当性を検証しようと考えました。 公差の上限と下限なので寸法上は不良率0.3%(3σから、はずれている)の不良品を用いた測定ですが、押し力量の測定結果をさらに3σをとって、規格値の妥当性を確認すると規格値から外れますが、これは、やりすぎと思いました・・・。 今回得られた測定結果から、押し力量の不良率が0.3%以下となる力量の規格値を新しく設定しようと考えますが、どのように導けばいいのでしょうか。 どなたか、ご回答頂けたら幸いです! よろしくお願いします!

  • 統計 ばらつきの大きなデータを平均化して扱う手法

    ご存知の方が居ましたら教えて下さい。 (伝わりにくくて申し訳ありません、エクセルでグラフにする必要があります。お手数をおかけ致しますがよろしくお願いします) 以下のようなばらついたデータがあります。 3.27 2.80 3.30 3.67 3.17 3.10 3.10 3.27 4.00 3.90 3.87 3.60 3.77 3.80 3.67 4.00 4.07 3.90 3.27 3.50 3.60 2.50 2.80 2.40 2.37 3.30 2.60 2.90 2.60 2.10 2.07 左上から1,2,3…とします。 これをグラフにするとひとつひとつがばらついて傾向がわかりにくいです。 ちなみに16番目と26番目の時にとある操作を加えた事の効果を見たいです。 そこで、前後あわせて5つのデータ平均でグラフにするとばらつきが緩和されて傾向が見て取れます。(3.27+2.8+3.3+3.67+3.17)/5=3.24の次を(2.8+3.3+3.67+3.17+3.1)/5=3.21としていきます。 3.24 3.21 3.27 3.26 3.33 3.47 3.63 3.73 3.83 3.79 3.74 3.77 3.86 3.89 3.78 3.75 3.67 3.35 3.13 2.96 2.73 2.67 2.69 2.71 2.75 2.70 2.45 これをグラフにすると16番目と26番目付近でグラフが見た目で大きく変化しているのが分かります。このように一回一回の測定では誤差が大きいが前後数日分を平均し、平均している日をずらして評価する方法に名前はついているのでしょうか?このようなデータの扱い方は統計学等で正式に認められている手法なのでしょうか?教えて下さい。 よろしくお願い致します。

  • 統計学初心者です!

    統計学初心者です! わかりにく説明かもしれませんが、ぜひ、回答お願いいたします! 私は仕事で毎日あるサンプルAを分析しているのですが、会社の取り組みで 分析の頻度を減らそうと考えています。 そこで、統計学的な方法で根拠を確立し、上司に説明したいと考えています。 回帰式などいろいろ調べたのですが、最適な方法が分かりませんでした。 サンプルAについてですが、 ・ある成分が90%以上になるように管理しています。 ・分析は毎日行っています。 ・管理値以下の観測結果は月に一回ほど出ます。 ・分析値はすべてデータとしてまとめて保管してあります。 ・頻度を二回に一回くらいにしたいです。 どうかよろしくお願いします! .