• ベストアンサー

データの検討方法についての質問

ある設備の稼動判断を、1ロット50個の製品から3個抜き取って欠陥数を調査して行っていましたが、これをモニター1枚の検査に切りかえることになりました。 モニターに切りかえるに際し、製品検査の代替可能であるかどうかの検討を行おうとしています。 製品とモニターの欠陥数で、相関関係を見てみたのですが、相関関係は見られませんでした。 (相関関係は、EXCELで散布図を描いて、見てみました) 製品の欠陥数は、ばらつきがあるため、ばらつきを考慮して検討しなくてはいけないと思うのですが、どのような検討方法があるのかがわかりません。 そこで質問ですが、母集団から抜き取った値3個と、別に採取した値1個の関連性を調べたい場合は、どのような方法をとればよいのでしょうか? また、母集団から抜き取った値(製品)3個の”平均値±3σ”の範囲に、別に採取した値(モニター)がはいることでモニターの有用性を認めるという考え方は間違っていますか? 以上、わかりづらい文章で申し訳ありませんが、回答をよろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.10

●まず調べるべきは、ある同一ロットを全数検査した場合に関する、製品1個あたりの欠陥の個数の分布、そして平均値と標準偏差です。 ロット1 : 平均、標準偏差 ロット2 : 平均、標準偏差 : という具合に調べてみて、どれかのロットで標準偏差がとても大きい、あるいは分布がひどく歪んでいる、というのなら、少なくともそのロットの加工条件では、「モニター」は製品の代用にならないばかりか、製品3個抜き取って検査しても多分ダメでしょう。 ●次に、各ロットのモニターの欠陥の数が、そのロットの「製品1個あたりの欠陥の個数の平均値」の指標になりそうかどうかを検定します。(これについては既にご説明しました。) ロット1 : 帰無仮説を棄却できない ロット2 : 帰無仮説を棄却できない : という具合に行けば上等です。(なお、No.5で「そんな誤差が偶然に生じる可能性」と表現したのは、「危険率」と呼ばれる概念です。) ●散布図については、縦軸:製品の欠陥の個数 横軸:モニターの欠陥の個数 として、同じロットについて(モニターの欠陥の個数,製品の欠陥の個数)の点をプロットすれば良いです。 既にそうなさっていると仮定します。 散布図は漠然と眺めちゃいけないです。そうではなく「モニターの欠陥の個数が○○という値のとき、その値から製品の個数を予測できるだろうか」という観点で見ます。つまり横軸上のある一点を決めて、「タテにどのぐらいのバラツキが出ているか」に着目するのがポイントです。 あくまでも、モニターの欠陥の個数(横軸)から製品の欠陥の個数(縦軸)を推定したいのですから、縦横逆にしてはダメ。 さて、 > 直線の下のほうに集中しています。 > 二等辺三角形の斜辺を、散布図の直線としたとき、三角形の > 面積に相当するエリアにデータが集まります。しかも、一点 > に集中しているのではなく、散らばった形で存在しています。 とおっしゃってますから、 (1) ロットごとに「モニターの欠陥の個数」は結構ばらついている。(だからモニターを使う意味がありそうだ。) (2) 同じロットの中でも、「製品の欠陥の個数」は結構ばらついている。(モニターで製品の欠陥の個数を予測するのは難しそうだ。) (3) 「製品の欠陥の個数は、モニターの欠陥の個数(あるいはモニターの欠陥の個数のある定数倍)よりも少ない」という傾向が認められる。(幸いなことに、ロット中で最悪である製品の欠陥の個数を予想する手段として、モニターがまさにうってつけである。) だとすると、これ以上理想的な状況はないんじゃないでしょうか。 そうしますと、帰無仮説 「同じひとつのロットの中で欠陥の個数が一番多い製品の欠陥の個数は、そのロットのモニターの欠陥の個数のA倍である」(Aは定数) を考える価値があります。 しかし、縦軸と横軸が入れ替わっている、ということですと(多分こっちでしょう。)上記の(1)(2)は同じことで、さらに (3') 「モニターの欠陥の個数は、最悪の製品の欠陥の個数(あるいは最悪の製品の個数のある定数倍)よりも少ない」という傾向が認められる。 ということになり、当たり前といえば当たり前のこと。これではモニターひとつだけ見ても製品の欠陥の個数を減らす目安には使えそうにありません。そこで、ロットにもっと沢山モニターを入れて、「モニターの欠陥の個数の平均値」を計算すれば、「モニターの欠陥の個数の平均値」から予測される「製品の欠陥の個数の平均値」の精度はずっと良くなると考えられます。  これを確かめるためには、全数検査したロットのデータを利用して、たとえば「製品の中からランダムに選んだ製品1,2,3,4はモニターだと思うことにする」のです。これらの「モニター」の欠陥の個数の平均値を横軸、ロット全体についての欠陥の個数の平均値を縦軸にしてプロットしてみれば、バラツキが小さくなっているのが分かると思います。 ところで、相関係数の話ですが、散布図の点がどこかにかたまっている、という訳でもない上に、補足されたような傾向が明らかにあるのだとすれば、そもそも計算してもあんまり意味がないでしょう。 細かい状況がよくわからないから、「自信なし」ですが。

jirojiro-nya
質問者

お礼

丁寧な解説をありがとうございます。 ちなみに、散布図はモニターを横軸、製品を縦軸にプロットしています。 なので、(3)の場合があてはまる可能性がありますね。 今までの書きこみで教えていただいたことを参考にして、データを検討していこうと思います。 わかりにくい質問に丁寧に答えていただき、本当に有難うございました。

その他の回答 (10)

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.11

この場合、相関係数を計算することはNo7に書き込みましたように、お勧めではないのですが、何事にもチャレンジということで、  散布図がかけたなら、 1 グラフをクリック  → 四隅(+4ヶ所)に小さい柱が立ち、アクティブウィンドウになる 2 メニューバーをクリックして、近似曲線の追加(R)をクリック(近似曲線の追加が見えないときは、下向きの二重矢印をクリックして、見えるようにする) → 近似曲線の追加のウィザードが見える 3 種類を選んでクリック(線形からはじめる場合が多い) 4 オプションのタブをクリック 5 下にある「グラフに数式を表示する(E)」にチェック   同じく、「グラフにR-2乗値を表示する(R)」にチェックをいれる 6 下のOKボタンをクリック  やってみて下さい。R-2乗値は、決定係数といい、相関係 数の2乗です。  普通は、相関係数が0.7もあれば「強い相関」と表現します。この場合は、0.7程度では、モニター法が抜き取り検査の代替になるとは考えられないのですが。

jirojiro-nya
質問者

お礼

R-2乗値は、相関係数の2乗なのですね。 2乗なのに、この係数にマイナスがついてしまう場合があるのは何故なのでしょうか??? わかりにくい質問に、丁寧に回答してくださって、本当にありがとうございました。 教えていただいたことを参考に、データの検討をしたいと思います。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.9

 検定の本来の目的である、「モニター法は、抜き取りの代替にならない」ことを検定することは可能です。 50個のロットで、抜き取りとモニター法で検査し、製品とするのか捨てるのかを判定します。例えば、これを100回繰り返せば次のような表が得られます。  次のような表をつくります。        50個のロット       製品とする  捨てる 抜き取り法  99      1 モニター法  50      50  このような表から、カイ2乗検定をし、有意差があれば両者は別ものなので、「代替にはできない」と結論できます。  これにも難点があって、検査を100ロットでなく、1000ロットのように、増やせば、有意差は格段にでやすくなります。  難点は、有意差が無い場合にどうするか、です。有意差が無いからといって、「差が無い」だから「代替として使える」とは統計学上は結論するのは誤りなのです。  私の提案は、抜き取り検査で、「製品と出来る」としたロットについて、モニター法では何回違った結論になるのでしょうか。回数が同じなら、「製品とする」ロットについては、モニター法OKでしょう。あまりに回数が違うのなら、モニター法は諦めねばなりません。  同様に、「製品としない」としたロットについて、モニター法との一致度を調べます。「製品」としないロットは少ないでしょうから、その件数を集めるのが大変ですが。  この結論は、あくまでもモニター法が劣っているとの前提に立っています。モニター法が、正確である、という可能性も少しはありそうですが。  ロットを捨てる(?、作り直す?)か否かが目的でしょうから、各ロットについて、抜き取り法とモニター法で、どれくらい結論が違うのか、モニター法の信頼性を明らかにして判断されてはどうでしょうか。 >母集団から抜き取った値(製品)3個の”平均値±3σ”の範囲に、別に採取した値(モニター)がはいることでモニターの有用性を認めるという考え方は間違っていますか? 平均値±3σには、抜き取りの99.5%が入る、すなわち、幅が広いので間違っているような気がします。 私の提案に無理があるのなら、これはもう一度考えてみますが。  以上、自信がありませんがご参考になれば幸いです。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.8

横槍になりますけれど、No.7に関連して、ちょっとコメントを追加したく思います。 > 例えば、散布図が0から100までに散らばっているのなら > 相関は見られても、10.1から10.2くらいの幅が狭いと、 > 見られない場合があります。 とありますが、実に鋭い指摘です。ただ、相関が見られない理由は「データの数が足りないから」とは限らない。そのほかに、データの扱いを誤った可能性があるのです。 「教科書に書いてあるとおり相関係数を計算したら、ほとんど0になっちゃった。でも納得がいかない」という事例をときどき耳にします。誤ったデータ処理をしたためです。 一般に、たとえば「背の高さhと歩く速さvには相関があるか」というような問題を考えたときには、 v = A×h + B (「背の高さをある定数倍して、さらにある定数を足したら歩く速さが計算できる」) という帰無仮説を考えていることになります。このため、vの平均値Vと標準偏差σ、hの平均値Hと標準偏差τを使って (v-V)/σ = (h-H)/τ と帰無仮説を書き換えて(これを規格化と言います)検討します。 しかし、ご質問の場合のように「製品の欠陥の数mとモニターの欠陥の数xには相関があるか」となると x = m という帰無仮説が適切です。  これを(誤って)一般の場合と同様平均値と標準偏差を使って規格化してしまうと、「製品の欠陥の数とモニターの欠陥の数について、両者が良く相関していて、しかもデータのバラツキが小さい」という場合、「相関がない」という誤った結論が出てしまいます。  誤らないためにはどうするか。 (1) 散布図の原点は必ず(0,0)にします。グラフの一部を拡大して眺めてはいけない。 (2) もし帰無仮説が正しいのなら、回帰直線は(0,0)を通る斜めの直線になる筈です。その直線に乗りそうかどうかを見ます。たとえば(10,10)のあたりにだけデータが集まっている、というのなら、それは「非常に良い相関がある」ということを意味しています。 (3)相関係数を計算するときは、ソフトについてる出来合いの機能を利用せず、自分でやる。(やりかたが必要なら再度ご質問ください)

jirojiro-nya
質問者

お礼

散布図の原点は、(0,0)でプロットしましたが、データは直線に乗るのではなく、直線の下のほうに集中しています。 二等辺三角形の斜辺を、散布図の直線としたとき、三角形の面積に相当するエリアにデータが集まります。しかも、一点に集中しているのではなく、散らばった形で存在しています。 相関係数の計算、一度やってみようと思います。 やりかたを是非、教えてください。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.7

かなり全体が理解できた(ような気がする)ので、相関について書き込みます。これは、自信あります。  散布図を描いて、相関係数が高ければ、モニターは有用かもしれません。というのは、抜き取り品の平均値とモニターの相関係数が1.000ならともかく、0.95でも、一致しないものが数%はあるはずなので、相関係数がどれまでなら許容範囲かを決めておく必要があります。  統計学的には、「有意であるか否か」で判断しますが、散布図上では相関係数0.7なら、かなりバラツイテいます。それに、100くらいをプロットすれば、散布図上でバラバラも、有意差はでてきます。  この場合は、理論上は、相関があるべきです。それが見られないのは、サンプルやモニターの幅が小さいのではないでしょうか。例えば、散布図が0から100までに散らばっているのなら相関は見られても、10.1から10.2くらいの幅が狭いと、見られない場合があります。  0から100までの全体なら正の相関が認められる散布図で、99から100に限ると逆である負の相関が成立することさえ珍しくありません。  大学の入学の成績と卒業の成績は、相関が無い、といわれます。これは、合格者という上位の者限定だからです。不合格者も一緒に教育して、卒業時に同じ試験をすれば、不合格者は下位に固まるでしょうから、相関は成立するであろう、ということです。

jirojiro-nya
質問者

補足

相関について書いていただき、ありがとうございます。 いくつか質問させてください。 >統計学的には、「有意であるか否か」で判断しますが、散布図上では相関係数0.7なら、かなりバラツイテいます。それに、100くらいをプロットすれば、散布図上でバラバラも、有意差はでてきます。 まず、こんなことを聞くのはかなりハズカシイのですが、「相関係数=R2乗値」ととってもいいのですか? また、相関係数0.7でばらついているとすると、一般的にそのくらいの値で、相関ありと見なすのでしょうか? また、「散布図上でバラバラでも有意差がでてくる」の意味がよくわかりませんでした。データ数が多いと、バラバラのものでも何か法則性が見出せるようになるということですか? >この場合は、理論上は、相関があるべきです。それが見られないのは、サンプルやモニターの幅が小さいのではないでしょうか。 確かに、同じ処理をしているので、相関があるだろうという仮定に基づいて調査をしたのですが、実際には見られません。また、データの幅は0~50ですが、製品の欠陥数はほとんどが20以下です。幅が狭いのでしょうか?

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.6

申し訳ありません。No2の書き込みで、全く正反対の書き込みをしてしまいました。 > 検定の基本は、帰無仮説を立てることから始まります。3個を抜き取り、「これは合格品と考える母集団から抜き取ったものではない」という仮説を検定することになると考えられます。 これは誤りで、帰無仮説は「これは合格品と考える母集団から抜き取ったものである」という仮説を立てます。  この場合の検定の目的は、「抜き取ったものである」との仮説は、計算すると矛盾があるので、「母集団から抜き取ったものではない」すなわち、「別の集団に属する(平均値なら、両群に差がある)」との結論を得ることにあります。危険率は、別の集団に属するとの結論が嘘であることの最大確率です。  検定の目的は、「両群に差がある」ことを示すことにあります。したがって、3個の抜き取り品とモニターが異なる集団である、ことを証明するのが検定の本来の目的です。ご質問者のように、差が無い、ということは証明できないのが統計学的な検定の基本です。  統計学では、「差がある」というのは、危険率5%とか1%とかの有意差という概念で共通認識があります。  繰り返しになりますが、検定では「差が無い」というのは証明できません(検定法を変えれば、有意差が出る可能性もあるからです)。  通常の検定とは正反対ですから、私自身混乱しています。  釈迦に説法の点は、ご容赦を。(以上は、自信あります)

jirojiro-nya
質問者

お礼

検定は、「差がある」ことを示すのが目的なのですね。 知りませんでした…。 ところで、No.5のstomachmanさんの回答の最後の方にも帰無仮説に触れられていましたが、kgu-2さんが書かれている「危険率」というのが、今回の場合「誤差が偶然に生じる可能性」ということになるのですか?

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

 ご質問は、「製品に影響が及ぶような製造設備の不具合を検出したい」ということでしょう。もちろん、製品を検査するのが一番確実です。(というのも、製造設備の不具合は、製品に影響を与えるからこそ不具合なんですから。)  なのに試験片を使って設備をテストするのは、むしろ、「製品の前工程までの工数や素材が非常に高価であって、失敗したら大変なロスになる」という場合のやり方でしょう。この場合、多数の試験片を使ってできるだけ確実にテストすべきです。 しかしご質問はそのどちらでもない。となると、「製品ロットから製品3個を抜き取って非破壊検査する(そして多分ロットに戻すんでしょう)よりも、製品でない試験片を1個余計に作る方がコストが安い」ということであろう、それはおそらく検査に結構時間が掛かるために、製品を抜き取って検査してまた戻す、ということをしていたのでは後工程に渡すリードタイムが長くなってしまうからだろう、と推測しました。さらに、試験片(モニター)が製品と同一であれば話はまだしも簡単なのですが、これも「製品の前工程までの工数や素材が非常に高価であるから、わざわざ製品そっくりでありながら売れないものを作る訳にはいかない」ということなんでしょう。(それをどうして次のロットに混ぜ込んじゃいけないのかというと、きっと小ロットで加工内容を切り替えてしまうのでしょう。) また、もちろん、ロットごとに欠陥の出来やすさがかなりばらつくからこそ「モニター」を使うのでしょう。 というような事情があって、製品の場合よりずっと簡単に準備できる材料を使って類似の加工をしてみる「モニター」という概念が出てきたのだろうと思います。さらに、「モニター」1個に対して製品数個分の加工をすることによって、欠陥が沢山生じるようにでき、数個の製品を抜き取り検査するのに相当する情報が得られるかも知れません。このような意味で「モニター」を使うのはなかなかナイスなチョイスかも。 と、ここまでは前置き。 さて、本題に迫ってみましょう: (1) 製品を抜き取って調べた場合と、モニターを調べた場合とを比べた相関図を観察した、と仰っていますが、具体的に何を測って何と何をどうプロットなさったのでしょうか。そこんところが間違っていますと、本当に相関がないのかどうか判断できないです。 (2) 正鵠を射た比較をやっているにもかかわらず相関がないとしたら、それはもう、「モニター」の加工が、あまりにも製品の場合と似ていないのだ、と考えられます。 そこで、仮に(1)のほうは間違っていないとすると、(2)が本当かどうかを調べたい。そのためには 帰無仮説「製品に生じる欠陥の数と、モニターに生じる欠陥の数は同じだ。」 を検定してみればよい。(あるいは、たとえばモニターを製品5個分加工するというやり方なら、「製品に生じる欠陥の数は、モニターに生じる欠陥の数の1/5だ。」となります。) この仮説が棄却されたら、つまり(2)に該当していて、その「モニター」(あるいは「モニター」の加工方法)ではダメだ(あるいはもっと沢山の「モニター」を使うべきかもしれない)と結論づけられます。  検定のために、まず基礎的なデータを取る。ロットに含まれる製品の全数検査、あるいは半数でも良いですが、とにかく一つのロットから沢山サンプルを取って検査することを、沢山のロットについて繰り返す必要があると思います。というのも、ロットごとに欠陥の出来やすさがばらついていて、なおかつ製品ごとにもバラツキが大きいのであれば、ロットから僅か3個を取って検査してもそのロットの性格が分かるはずがありません。(なお、ロットごとにばらつきがあるのなら、幾つものロットに渡って取ったデータの平均を計算しても無意味です。)  ともあれ、このような「ほぼ全数検査」によって、あるロットひとつについて 「そのロットに含まれる製品1個にある欠陥の個数の平均値はいくらか」 「そのロットに含まれる製品1個にある欠陥の個数の標準偏差はいくらか」 が分かりますと、「そのロットに含まれる製品1個にある欠陥の個数がnである確率」を正規分布(正確にはポアソン分布を使うべきですが、実用には正規分布で十分でしょう)で近似することができます。  で、平均値がm個、標準偏差がσ個、「モニター」の欠陥がx個だったとしましょう。 我々の帰無仮説は  x=m というものです。実際には誤差eがあって e=x-m である。で、このような誤差eが偶然生じるようなものであるのかどうかは、 (|e|/σ) を見れば推測できます。(ここに|e|はeの絶対値。つまり符号を無視したもの) (|e|/σ)が2を越えたら、そんな誤差が偶然に生じる可能性は5%以下。 (|e|/σ)が2.5を越えたら、そんな誤差が偶然に生じる可能性は1%以下。 大抵は、(|e|/σ)が2を越えたら「これは偶然じゃない」と判定します。偶然じゃないということは、帰無仮説「製品に生じる欠陥の数と、モニターに生じる欠陥の数は同じだ。(x=m)」は間違いである、ということで、つまり、その「モニター」を使った検査では検査になってない、という結論になります。  では、もし(|e|/σ)が2を越えなかったら、帰無仮説「製品に生じる欠陥の数と、モニターに生じる欠陥の数は同じだ。(x=m)」は正しいのでしょうか。いや、そうではないのです。その場合には「ナントモイエナイ」としか答えられません。(これが確率というものの原理的な限界なのです。) でも、(|e|/σ)が0に近いほど、「ナントモイエナイけど、モニターの欠陥の個数は製品の場合によく似てるんじゃないの?」という気がしますから、それでイク、ということになるでしょう。  そしたら、以後は「ほぼ全数検査」は不要になります。ですが、時々は「ほぼ全数検査」をやって、知らぬ間に状況が変化していないか確認すべきではあります。  ところで、「同じロットのなかでもはじめの方と後のほうでは明らかに欠陥の数が違う」だとか(もしそうなら、いつ「モニター」を加工するかが決定的に重要ですね。)、「朝は傷が多いが午後は少ない」「休み明けは傷が多い」「気温が高いと傷が多い」など、単なる偶然のバラツキではない傾向が認められることもしばしばあります。地道にいろんなデータを取って、それをまたいろんな見方・組み合わせ方で謙虚に(先に答を決めつけずに)観察することが重要なのは言うまでもないことです。

jirojiro-nya
質問者

お礼

たくさんの書きこみをありがとうございます。 stomachmanさんの前置き、ほとんどその通りです。 私がうまく表現できなかったことを、キレイにまとめてくださって、ありがとうございます。 ただし、 >「モニター」1個に対して製品数個分の加工をすることによって、欠陥が沢山生じるようにでき、数個の製品を抜き取り検査するのに相当する情報が得られるかも知れません。 については、加工時間を長くすることでどのように欠陥変動が変わるのかがわからないため、「モニター」と「製品」の加工時間・加工条件は同一としてデータ取りを行いました。 >(1) 製品を抜き取って調べた場合と、モニターを調べた場合とを比べた相関図を観察した、と仰っていますが、具体的に何を測って何と何をどうプロットなさったのでしょうか。 という問いについてですが、測定したものは対象設備で加工済の「製品」3個と連続処理で加工した「モニター」1個の表面上に検出される欠陥数です。これを1セットとして15回程度同様の検査を行いました。なので、プロットしたのは1セットあたり3個分のデータとなります。     モニター ------- 製品(1)          |---- 製品(2)          |---- 製品(3) という組み合わせで、どんどんプロットしていきました。 ロットの全数検査については数ロットで行いましたが、まだ足りないみたいですね。n増しをしたいと考えていますが、リードタイムの関係でなかなかさせてもらえないのが現状です。 検定に当たって、具体的に最低何ロットのデータ取りが必要という定義みたいなものはありますか? もし、n増ししなくても、現在のデータで帰無仮説の検定(という表現はあっていますか?)ができるのであれば、是非やってみたいと思います。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.4

一般的な製品検査だと勝手に想像していました。 私の能力を遥かに超えています。  製品の管理に統計学を利用するのは一般的でしょうが、設備の管理に応用するというのは、ユニークな発想法という印象があります。ユニークなるがゆえに、似たような例を探すのが困難ではないでしょうか。  素人の疑問は、モニターなるものの数値が異常と出た場合、それは設備が正常だったがバラツキなどから偶然異常になったのか、あるいは設備が正常でなくなったのか、あるいはこの両方なのかの判断ができないように思います。  全くの素人考えですが、設備が異常になる条件は把握されていると想います。新幹線なら、何万kmか走ると、車輪を削り、それでも駄目になると車輪自体を交換するようです。ですから、製品を何個かつくれば、欠陥品が続出する前に、設備を休ませるか、部品を交換する、というのが一つでしょう。  QCのプロでないと、無理ではないでしょうか。

jirojiro-nya
質問者

お礼

書きこみをありがとうございます。 >製品の管理に統計学を利用するのは一般的でしょうが、設備の管理に応用するというのは、ユニークな発想法という印象があります。ユニークなるがゆえに、似たような例を探すのが困難ではないでしょうか。 そうなのですか。 そう言われますと、困ってしまいますね…。 >素人の疑問は、モニターなるものの数値が異常と出た場合、それは設備が正常だったがバラツキなどから偶然異常になったのか、あるいは設備が正常でなくなったのか、あるいはこの両方なのかの判断ができないように思います。 モニターに変更することで、採取したデータの信頼度がわからなくなるので、「モニターは製品代替に値する」という根拠が必要となります。これを検討するために、「製品」と「モニター」のデータの比較方法について質問しています。 >全くの素人考えですが、設備が異常になる条件は把握されていると想います。新幹線なら、何万kmか走ると、車輪を削り、それでも駄目になると車輪自体を交換するようです。ですから、製品を何個かつくれば、欠陥品が続出する前に、設備を休ませるか、部品を交換する、というのが一つでしょう。 設備のメンテナンス(クリーニング)は定期的に行っていますが、実際に処理を行っている期間も何かしらのモニタリングが必要であると考え、今までは「製品」検査でモニタリングをしていました。 メンテナンスの期間を短くする(1ヶ月を2週間に短縮)というのも一つの手段なのですが、簡単にそうすることもできないのが現状です。 「製品」「モニター」ということではなく、「母集団から抜き取った標本3個」と「1個の標本」ということだとしたら、この2つを検定する方法はあるのでしょうか?

  • selfer
  • ベストアンサー率76% (104/136)
回答No.3

品質管理系の統計法はまったく馴染みがないのですが,ひとまず知識整理のために参加させていただきます. 質問者さんの目的は「製品」や「モニター」を作り出す「設備」,この設備の精度を統計的に調べたいわけですよね? それまでは「製品3個を抜き取り→設備の精度の調査」を行っていたようですが,これを「製品」の代わりに,「モニター」と呼ばれるモノ(これも同じ「設備」によって作られる)を何個か抜き出し,その抜き出しデータから「設備の精度の調査」をするようにしたい…… ということでしょうか? 質問者さんと,No1&No2の回答者さんのやりとりを読み,このように解釈しました. 製品とモニターはある程度同じ性質であるため,両者は関連があるからこそ「相関係数」を求めてみたのでしょうか?

jirojiro-nya
質問者

補足

書きこみ、ありがとうございます。 以下、回答していきます。 >質問者さんの目的は「製品」や「モニター」を作り出す「設備」,この設備の精度を統計的に調べたいわけですよね? そうです。 作りだすというわけではなく、表面を加工する設備なのですが、その「設備」の汚れ具合を、モニタリングしていきたいのです。 >それまでは「製品3個を抜き取り→設備の精度の調査」を行っていたようですが,これを「製品」の代わりに,「モニター」と呼ばれるモノ(これも同じ「設備」によって作られる)を何個か抜き出し,その抜き出しデータから「設備の精度の調査」をするようにしたい…… ということでしょうか?  はい。ただし、「製品」は50個中3個抜き取り検査していましたが、「モニター」に変更するにあたり、1個のみの検査にしたいと考えています。 >製品とモニターはある程度同じ性質であるため,両者は関連があるからこそ「相関係数」を求めてみたのでしょうか? そうです。 「製品」と「モニター」は、同じ加工を施していますので、加工の際に発塵するのであれば、それに起因して発生する欠陥も同等という仮定で検討をしています。 それなので、「製品」と「モニター」の相関係数を求めたのですが、単なる数字同士の比較では相関がみられなかったため、相関を見る以外にどのような検討方法があるのかを質問しました。 以上、回答しましたが、不足な点がありましたら、補足要求をお願いします。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

正直いって、補足でますます分からなくなりました。 >ただし、50個の製品から抜き取る数を3個から1個に減らすのではありません。最初の投稿で「モニター」と表記していたものに変更したいのです。ちなみに、「モニター」というのは製品を模して作成したダミーのことです。 これまでの3個の抜き取り検査の代わりに、モニターで済ませられないか、というように読めるのですが。  検定の基本は、帰無仮説を立てることから始まります。3個を抜き取り、「これは合格品と考える母集団から抜き取ったものではない」という仮説を検定することになると考えられます。    >製品を模して作製したダミー(モニター) と書き込んでおられます。  これでは、モニターは、合格品とは違った方法でつくられるわけですから、検定するまでもなく、合格品の集団に属するハズがありません。  統計学の専門家ではないのですが、モニターという考え方は、これまでの統計学にはないように思います。  3個の検査がロスとして大きいなら、ロット当たりの数を150個にする、というのは危険すぎますか。  ロット当たりの数を増やせばロスは少なくなりそうですが、そのロットが不合格の場合損失が甚大になりそうなので・・・。  不合格率がどれくらいなのか、それから検査数と不合格の損失を比較にするくらいしか思い付きませんが。  それから、検査をすると製品としては使えない、と推定して書き込んでいますが。  これは製品管理の方法ですから、教科書的になにかあるような気がします。明日といっても今日ですが、調べてみます。

jirojiro-nya
質問者

補足

たくさんの書きこみをありがとうございます。 もう少し、補足します。 >それから、検査をすると製品としては使えない、と推定して書き込んでいますが。 とありますが、非接触系の欠陥検査をしているので、検査をしても製品は使えます。 また、製品の抜き取り検査は、製品を作っている途中で行っています。 製品が完成するまでには、さまざまな工程を通りますが、その途中の1つの工程が終わった後に、検査を行っています。 製品が完成していないため、この検査により、製品が不合格になることはないです。 製品そのものの合格/不合格を判断するのではなく、むしろ、製品から検出される欠陥から、設備の異常を検知するために、検査をしています。 (今回、対象としている設備は、製品を加工する設備なのですが、加工の際に発塵する可能性が高いため、この設備で処理した製品を定期的に検査しています。) 設備の発塵量を管理するのに今までは製品を用いていましたが、現在、モニター(つまり、製品ダミー)で設備管理ができないかを検討しているのです。 >これまでの3個の抜き取り検査の代わりに、モニターで済ませられないか、というように読めるのですが。 と書かれていますが、まさに、その通りです。 >検定の基本は、帰無仮説を立てることから始まります。3個を抜き取り、「これは合格品と考える母集団から抜き取ったものではない」という仮説を検定することになると考えられます。 何だか、難しいですね。帰無仮説ですか…。はじめて聞く言葉です。どういう意味か調べてみます。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.1

 50個の中から、3個選んで検査をしていた。それを1個でできるか、という問いなのでしょうか。  母集団と書かれているのは、50個と解釈して良いのですか。 >また、母集団から抜き取った値(製品)3個の”平均値±3σ”の範囲に、別に採取した値(モニター)がはいることでモニターの有用性を認めるという考え方は間違っていますか? これだと、結局4個を検査に使用することになりませんか。仮にOKだとすると、現実には50個から1個のみがサンプル(標本)になります。  3個あれば平均と標準偏差が計算できるので、母集団を推定することが可能です。しかし、1個では、どんなに頑張って母集団を推定するのは不可能ですが。  それから、モニターというのは、聞いたことがありません。これは、50個の中から1個を取り出すのですから、サンプル(標本)だと判断するのですが。

jirojiro-nya
質問者

補足

私の表現が拙く、混乱させてしまい申し訳ありません。 以下に回答していきます。 >50個の中から、3個選んで検査をしていた。それを1個でできるか、という問いなのでしょうか。 そうです。 ただし、50個の製品から抜き取る数を3個から1個に減らすのではありません。最初の投稿で「モニター」と表記していたものに変更したいのです。ちなみに、「モニター」というのは製品を模して作成したダミーのことです。 >母集団と書かれているのは、50個と解釈して良いのですか。 はい。製品1ロットあたり50個なので、母集団は50個と捉えています。 >>また、母集団から抜き取った値(製品)3個の”平均値±3σ”の範囲に、別に採取した値(モニター)がはいることでモニターの有用性を認めるという考え方は間違っていますか? >これだと、結局4個を検査に使用することになりませんか。仮にOKだとすると、現実には50個から1個のみがサンプル(標本)になります。 現在は、モニターを製品代替に使用できるかを調べるために同時処理をしていますが、あくまでも暫定的なものです。また、モニターと製品は別のものですので、50個から1個サンプリングしているわけではありません。 今回対象としている設備が、1個ずつの処理しかできない設備なので製品50個連続処理したあとに、モニターは1個のみ処理しました。 >3個あれば平均と標準偏差が計算できるので、母集団を推定することが可能です。しかし、1個では、どんなに頑張って母集団を推定するのは不可能ですが。 まさにその通りですね。 それなので、母集団から抜き取った3つの値と、別に採取した1つの値を検討する方法をしりたいのです。 具体的に言うと、製品1ロット(50個)の中から抜き取った3個の製品から検出される欠陥数と、製品を模して作製したダミー(モニター)から検出される欠陥数を検討するには、どのような方法がありますかということです。 統計学の手法を用いて検討をしたい場合は、母集団と母集団の比較でないといけないのでしょうか?そのあたりがよくわかっていないので、是非教えてください。 以上、長くなりましたが、よろしくお願いします。

関連するQ&A

  • 相関を求める時の、はずれ値のはずし方

    こんにちは 現在、ある2つのデータの相関関係を調べています。 そのデータを散布図にしたところ、数個はずれ値が確認できました。 これのはずし方をご質問させてください。 はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか? 私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。 しかし、統計的におかしはことはしたくありません。 そこで、話の流れとして、 『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』  ↓ 『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』  ↓ 『いずれにせよ、相関はある』 はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。 けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

  • 標準偏差の評価において妥当なデータ数は幾つか?

     標準偏差や分散などのデータのばらつきを調べる場合、評価の対象にするデータ数が多い程、その母集団の性質に近くなります。しかし、評価するデータ数が2個では、それから標準偏差を求めても、それが母集団の性質を表す数値とは言い難いです。評価するデータ数が幾つ以上であれば、その標準偏差や分散が意味のある値となるのでしょうか?一般的に。

  • 数の集団の変換方法について

    ある数の集団を変換して別の数の集団を作るときに、元の集団での大小関係を維持しつつ、 結果の集団のばらつきを小さくするにはどのような式を当てはめて計算したらよいのでしょうか? 例えば、3人がテストを受けて、1回目の結果がそれぞれ「50点、80点、90点」だった時、 2回目の目標点を、それぞれ「80点、95点、100点」とする・・・といった感じで、 大きな波を描いていたグラフを小さな波に変換するイメージです。 数学が苦手な私でもわかるようなご回答をよろしくお願いします。

  • 相関図作成

    年間の店舗利用者数について、イベント開催と利用者数の相関関係を散布図で表したいのですが、散布図の作成方法がわかりません。 土日は利用者数が増えますし、イベント時には利用者数が増えます。 どの項目を使い、どの様な表を作れば相関図が作成できますでしょうか。 ちょっと解りずらい説明ですが、宜しくお願いいたします。

  • 【心理学統計】 2変量の関係の表し方-「相関」についての質問です。

    みなさま。お世話になっております。 心理学研究で、SPSSを使ってデータの統計解析をしておりますが、2変量の関係の表し方について、おそらく簡単と思われることを教えていただきたく思います。 2変量の関係を1つの数値で表すのは相関係数ですよね。 <質問1> 相関係数の元になっているのは、2変量をX-Y軸にドットした散布図だと思いますが、この散布図の中に、相関の直線(?という言い方でよいでしょうか? 相関が1に近ければ右上がり、-1に近ければ右下がりに表現される、あの直線のことを言っているのですが、「相関直線」とはあんまり言いませんよね。「回帰直線」というのはありますけれども。相関の直線は散布図の視覚的傾向をだいたいの線にして表現したものであって、回帰直線のようにきちんと算出して描ける直線ではないとか?そんなことないですよね??)を書くには、SPSSでどう操作したらよいのですか? <質問2> 変数Xは、1⇒5にスケールが上がっていくと度数(そのスケールを選ぶ人の数)も上がっていく変数、 変数Yは、1⇒5にスケールが上がっていくと度数は下がる変数だとします。 この2つの変数の関係を、視覚的な図で表現するには、どんな図を作ればよいのですか? つまり、変数Xは大きい数字が選ばれやすく、変数Yは小さい数字が選ばれやすい、ということを1つの図で表現できないのでしょか? これがまさに相関(の直線)である気もするので、おかしなことを質問しているかもしれません。 <質問3> 2変数に曲線的な関係があるかどうか見たかったら、どうするのですか? わかる方は、SPSSの操作も教えてください。 「相関」。 いままで、わかっているつもりでおりました。 が、少し頭が混乱していることに気づきました…(^^;) みなさま、教えていただけたら大変ありがたく思います。 よろしくお願いいたします。

  • 抜き取り検査の判定方法

    弊社製品で生産直後の全数検査データが、サンプル数 600、最小値 160、最大値 780、平均値 543、標準偏差 85.5、ひずみ -0.634、とがり 1.96。 製品使用時の全数検査データが、サンプル数 547、最小値 620、最大値 1050、平均値 867、標準偏差 65.7、ひずみ 0.019、とがり -0.187 という検査結果が判明しています。バラツキが大きい中で、それぞれの生産直後と製品使用時の抜き取り検査において、試料点数をどれくらい採取して測定すれば、どの程度の確立で、差があると判定できるかが知りたいのですが、計算方法などを教えてください。当方は 上記の計算が理解する程度のスキルしかありません。とりあえずは、99%の信頼限界程度で良いのですが、よろしくお願いします。

  • 標準偏差について

    標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 -----  計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 -----  計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。

  • AMOS 相関係数が1を超えます

    今ひとつ統計の知識が疎かなまま,AMOSを使わなければならず,ご教示いただきたくお願いします。 ある仮説による尺度を用いて,あるグループにおこなったデータを検証的因子分析で検討しようとしています。 その結果,標準化推定値を求めたところ,ある2つの因子(潜在変数)間の相関係数が1.05となり,1を超えました。 相関係数はー1≦ α ≦ 1の値を取ると思うのですが,この原因や対処法などありましたら教えていただけませんでしょうか。 データを取った集団は,35名と小規模で,無作為に抽出した集団ではなく,比較的似通った回答をしているかもしれませんが,こういったことが一因なのでしょうか。

  • Excel 1変数データを数直線で表したい

    1変数データにおいて、バラつきや分布を図式化したいので数直線上にプロットしたい考えています。2変数(例:変数 x と y の相関関係)なら散布図で分布を図式化できるのですが、1変数の場合、数直線上での表し方が分かりません。グラフウィザードやヘルプを見ても数直線での表し方については言及されておらず、困っています。スマートな処理方法を教えて下さい。 - 参考までに - OS:Mac OS X (10.2.6) Excel Ver:Excel Ver.X

  • 数学に関する質問です

    次の記述で、正しいと思うものには〇を、誤っていると思うものには×を記入し、誤っている場合にはそう考えた理由を述べてください。 (1)標本の数が同じ2つのデータで、両者の平均が同じであるとき、2つのデータの相関係数は1になる。 (2) 標本の数が同じ2つのデータで、両者の平均と標準偏差が同じであるとき、2つのデータの相関係数は1になる。 (3)A商品は、販売開始から5年間にわたって毎年販売量が前年の2倍に増加している。したがってA商品の販売開始後5年間の経過年数と販売量の相関係数は1である。 (4)都道府県別の宿泊施設数と観光客入込数の間には正の相関関係がみられる。したがって観光客数を増やすには宿泊施設を建設することが最も効果的な方法である。 (5)わが国の乗用車保有台数と第1次産業の産出額には負の相関関係がみられ、このことからモータリゼーションの進展が第1次産業の衰退につながったと言うことができる。 (6)店の近くにある小学校の児童数が増えたら酒類の売上が伸びた。今後出生率が高まって児童数が増えれば売上げがさらに伸びそうだ。 すべての質問に答えた方の中からベストアンサーを決めたいと思います。よろしくお願いします。