• 締切済み

分析方法についての相談

食品メーカーに勤める研究員(品質部門)です。 先日、解析方法についてで投稿させていただきました。 (質問内容を読み直し、自分で見てもおかしかったので削除させていただきました、 回答を考えてくださってる方いましたら申し訳ありませんでした。) 改めて質問させていただきます。 2工場で別々に作られた製品群の傾向に有意差があるかを検定したいです。 考え方としては、以下のように想定しています。 (1)A工場のA群から判別式を求めました(説明変数3)。 (2)B工場のB群に、このA群からの判別式を当てはめ、誤判定率を計算します。 (3)その判定率の結果から、有意な差が見られなければ、 A群、B群の傾向に差はないと説明をつけたいです。 A群、B群ともに標本数は約250あります。 この(2)、(3)の部分を検定する方法はどうやればいいでしょうか。 それとも、そもそもこの考え方自体が間違っているでしょうか。 統計に詳しい方、アドバイスをいただければと思います。

みんなの回答

noname#227064
noname#227064
回答No.5

回答No.3お礼にある「他の特性値」というのが良くわからないので、この方法で良いのかわかりませんが、一応書いておきます。 回答No.2お礼 > 説明変数が3つある場合にその分布のずれ(重心からのずれ?)を見る場合にはどのような方法がるでしょうか? ひとつのものから3つの分析機器を使って3つの数値が得られるということですね。 方法としては多変量解析となります。 データが多変量正規分布に従うとして良いなら、A群とB群の分散共分散行列と平均ベクトルが同じかどうかを検定します。 やり方は http://aoki2.si.gunma-u.ac.jp/lecture/Wilks/wilks3.html http://aoki2.si.gunma-u.ac.jp/lecture/Wilks/wilks2.html をご覧ください。 難しそうであれば、貴方が実施したと思われる、それぞれの変数について平均の差の検定を繰り返す方法でも良いでしょうが、それだけではなく分散の比較も必要となります。 (平均が同じでも分散が違っていたら同じ分布とは言えませんよね?) また、Bonferroni法により有意水準の調整をしておいた方が良いです。 それと、A群とB群の測定誤差は同程度と考えて良いんでしょうかね。 あまり違うようですと、差が製品によるものなのか測定によるものなのか分からなくなります。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

ANo.3へのコメントについてです。 > (3)A工場、B工場で特性値の出し方に若干差あり > (5)A、B工場の測定値、i,ii,iiiと値とその特性値の結果の出方に有意な差がないかということを確認したい  測定は一箇所でまとめて行うが、「特性値の結果」はそれぞれの工場で出す、ってことでしょうか。  ならば、まず「2工場で別々に出している『特性値の結果』は同等なのか」が問題なのです。だから、製品を集めたサンプルのセットを作る。このセットについて、それぞれの工場による「特性値の結果」を出して、比較すりゃいいんです。  慎重に調べても両者に差が見つからない場合、または「特性値の結果」も一箇所でまとめて出すことにした場合、あるいは両工場における「特性値の結果」の出し方が同じになるような設備を導入した場合、ようやく「2工場で別々に作られた製品群の傾向に有意差があるか」を検討できる状態になります。それから(「製品群の傾向」なんて意味不明のことを言ってないで)「両工場で、生産量に占める各グレードの製品量の比率に違いがあるか」を検討すれば良いんでしょ?

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.3

 統計についてはお詳しい方が回答なさってるようなんで、ちょっと別の角度からコメントします。  というのは、「誤判定率」だなんておおざっぱな考え方でホントに良いの?というところが引っ掛かる。(ご質問だけでは問題の状況がよく分からないんで、多分に推測が入っていますが。)  まずは、工場がふたつあるという話はおいといて:  「判別式」って仰るのは判別関数のことでしょう。個々の製品kについて様々な計測を行った結果のベクトルv[k] = (v[k,1], v[k,2],…,v[k,N])があって、それを使ってある指標fを計算する。そして「f(v[k]) ≧ c なら合格、さもなくば不合格」という判別を行う。その結果と、ベテラン検査員さんが判定した正解とを比較してみる。(ちなみに、正解データが沢山あるときには、fはsupport vector machineというアルゴリズムを使って作るのがお薦めですが、それはさておき。)  すると、   正解は合格なのに、fによる判定では不合格になったもの(False Positive)   正解は不合格なのに、fによる判定では合格になったもの(False Negative) の両方が生じるんじゃありませんかね。で、閾値cを大きくすると、False Positiveが減る代わりにFalse Negativeが増える。閾値cを小さくすると、False Positiveが増える代わりにFalse Negativeが減る。    ここで、fそのものはいじらないことにして、適切な閾値cはいくらか、という問題を考えますと:  横軸にFalse Negativeの発生率x、縦軸にFalse Positiveの発生率yをとって、同じデータの組に対して様々なcで判定した結果をプロットしてみると、単調な曲線が描けます。これはROC曲線と言って、判別関数fの性能特性を表す曲線です。一方、   Ln : False Negativeが1つ生じることによるロスのコスト   Lp : False Positiveが1つ生じることによるロスのコスト であるとします。すると、コストの期待値   E = Ln x + Lp y が最小になるようなcを決めれば、それが最適な閾値である。(この式を直線の方程式だと思えば、Eが最小のとき、この直線はROC曲線の接線になります。)つまりEは、判別関数fが出せる最高性能を、コストという最もリアルな尺度で測ったものです。  こういう分析をやってみる狙いは、判別関数fを改良する工夫(大抵の場合にさらに重要なのは、不合格となる原因そのものを突き止めて解消すること)を「Eがもっと小さくなるように」という明確な尺度で評価できるようにすること。もうひとつのポイントは、「Lp, Lnのコストダウンに投資したり、LpとLnへのコスト配分を変えたとき、Eにどれだけ効くか」を検討する、という事です。  さて、二つの工場について検討してみる。  とは言っても、検定を持ち出す以前の話です。有意差があるかどうか、なんてことは、実務上、ま、どうでもいいでしょう。  どっちの工場も、ベテラン検査員さんによる判定で不合格が出る確率はほぼ同じだとしましょう。(これが違うんだったら、原因追及こそが優先でしょうし。)  工場Aのデータについて、最小のEを計算する。工場Bでも同じことをやる。つまり、閾値cをそれぞれの工場に合わせて調節して、ベストの判別ができるようにした上で、fの性能Eを比較します。  たとえば工場BではEが大きいのだとしたら、「工場Aでは問題になっていない何らかの不良要因が工場Bにはあって、判別関数fはその影響を捉え損ねているんじゃないか?」ということが考えられる。  また、もし両者のEが同程度であれば「この判別関数は、工場Aに特に適しているとか、工場Bに特に適しているということはなく、どっちの工場の製品についても、似たような性能だな(その性能が良いのか悪いのかは別問題だが。)」ということでしょう。しかしこれは「工場A, Bは同等」という意味ではありません。「工場Aでは主としてある要因Raによって不良が生じ、工場Bでは主として別の要因Rbによって不良が生じるが、fはどっちの不良もソコソコ捉えている(ソコソコ捉え損ねている)」ということかも知れない。  結果がどっちであっても、また、fを改良するにせよ不良原因を追求するにせよ、結局は(ベテランさんの判定によって)不合格になった事例を丁寧に精査して、何が起こっているのかを詳細に調べなきゃ、前に進まない。個別のサンプルをしっかり観察して、具体的に攻めていくっきゃないのであり、これは統計でどうこうする話ではない。  ならば、有意差が検出できたかどうかによって、やるべきアクションに本質的な違いはないでしょう。だから、「実務上、ま、どうでもいい」んじゃないかと。

smurky
質問者

お礼

ご回答ありがとうございました。 「実務上、ま、どうでもいい」んじゃないかと。 その通りだと思います、ただきちんと報告書を作成しなくてはいけなく。。。 重ねての質問申し訳ないですが、教えてください。 有意差は検品の精度を見たいのではなく、開発した商品の分類が同じであるかを確認したいというイメージです(詳細を書けなく申し訳ないです)。 (1)A工場、B工場で作った商品のデータを測定(分析機器i,ii,iii) (2)測定結果と他のある特性値からA工場のA1群、A2群と分類(B工場も同様)する判別式を作成 (3)A工場、B工場で特性値の出し方に若干差あり (4)この差をなくした時、過去の分類結果をそのまま使っていいか (5)A、B工場の測定値、i,ii,iiiと値とその特性値の結果の出方に有意な差がないかということを確認したいというものです。 統計的(数学的)に、そもそも論点おかしいという点ありましたら、指摘してください。

noname#227064
noname#227064
回答No.2

回答No.1修正 (誤)それよりは、平均や分散、共分散等を使うなりして分布が同じであることを良いのではないかと思います。 (正)それよりは、平均や分散、共分散等を使うなりして分布に違いがないことを示せば良いのではないかと思います。 ところで、A群のみから判別式を求めたのですか? 普通は、A群とB群の両方のデータから判別式を求めるものと思っていたのですが。

smurky
質問者

お礼

ご回答ありがとうございました。 重ねての質問で申し訳ないですが教えてください。  (正)それよりは、平均や分散、共分散等を使うなりして分布に違いがないことを示せば良いのではないかと思います。 とのことですが、説明変数が3つある場合にその分布のずれ(重心からのずれ?)を見る場合にはどのような方法がるでしょうか?3つは独立で相関もないため、ぞう比べてよいかがわかりません。  個々の比較では2つには有意な差があり、1つには差なしと結果がでました。この結果をもとに、さらに検定するものなのでしょうか?

noname#227064
noname#227064
回答No.1

参考程度にしてください。 > 2工場で別々に作られた製品群の傾向に有意差があるかを検定したいです。 「傾向」というのが何を意味するかによって検定方法は異なります。 その判定法でA群をAと判定する比率とB群をAと判定する比率に違いがあるかないかを検定し、十分な検出力があっても有意な差が認められなかったら、Aと判定される比率という意味での傾向に差はないと言ってもいいでしょう。 しかし、それを一般的に「傾向に差はない」といっていいのでしょうか? 話を簡単にするために1変数のみで考え、その変数が0.95以下であればAと判定するとし、どちらの群も95%の確率でAと判定されるとします。 このとき、分布が全く異なっていたらどうでしょうか。 例えば、A群は一様分布でB群は三角分布だったとしたらどうでしょうか。 貴方はそれを同じ傾向とみなすことができますか? それよりは、平均や分散、共分散等を使うなりして分布が同じであることを良いのではないかと思います。

関連するQ&A

  • 標本数の異なる3群比較について。

    初めて質問致します。 統計学については素人ですので、的外れな質問でしたらすみません。 現在、A・B・Cの3群についてある値を算出し、その値によって3群が分類できるかどうかを検討しております。 A・B・Cはそれぞれ標本数が異なっており、対応はありません。 Levene検定(有意差なし)→一元配置分析(有意差あり)→Bonferroni検定 Levene検定(有意差あり)→kraskull- wallis検定(有意差あり)→Bonferroni検定 という手順で行いました。 この検定方法は正しいのでしょうか。色々調べてみたのですが結論が出ないので質問させていただきました。 ご教授よろしくお願いします。

  • 3群の有意差検定について

    初めて質問致します。 統計学については素人ですので、的外れな質問でしたらすみません。 現在、A・B・Cの3群についてある値を算出し、その値によって3群が分類できるかどうかを検討しております。 A・B・Cはそれぞれ標本数が異なっており、対応はありません。 等分散性の検定→分散分析→多重比較という手順で以下のように行いました。 Levene検定(有意差なし)→一元配置分析(有意差あり)→Bonferroni検定 Levene検定(有意差あり)→kraskull- wallis検定(有意差あり)→Bonferroni検定 この検定方法(特にBonferroni検定の採用)は正しいのでしょうか。色々調べてみたのですが結論が出ないので質問させていただきました。 ご教授よろしくお願いします。

  • ノンパラメトリックな統計解析について質問です。

    マンホイットニのU検定等で比較したい群間の標本数が大きく違う場合、有意差が出やすくなるなどの問題は生じるでしょうか? 順位和で統計量を出すと聞いて疑問に思ってます。 例えば、A群、B群の標本数がそれぞれ10と100のように大きく違う場合何か問題は生じるでしょうか? 統計の本を見てみたのですが、記号が多くて理解しがたいです。 統計を理解する気持ちは持っています。 迷える子羊にご教授よろしくお願いします。

  • 有意差は無いが、・・・な傾向が認められるとは?

    統計の表現法の解釈に関して教えてください。 例えば、検定群A,対照群Bという2つのグループがあって、BよりAの方が平均値は少し高い結果が得られたものの、しかしバラつきが大きいため、統計的な有意差が無いと計算された場合、よく文献などで、 ”統計的に有意な差は無いが、Aの方が値が高い傾向が認められた。” などと表現されていますが、こういう表現はしても良いものなのでしょうか? 客観的な指標として統計を用いて差は確認出来なかったと計算されたのに、(おそらく期待した結果は差が出ることなので)心象としては差があると主張するのは諦めが悪いと言うか、話の進め方になんだか違和感があるのですが。。。

  • ノンパラメトリックデータの3群比較について

    統計のことで教えてください。統計の素人ですので、不適切な質問をしているかもしれません。 3群(各群n=6、ノンパラメトリックデータ)です。 A群 2,5,4,3,3,2 B群 2,2,3,2,1,1 C群 2,0,0,0,0,0 で、まずKruskal-Wallis testで、有意差があると判断しましたので、引き続いて各群をMann-Whitney U testで検定したところ、AB群間では0.043となりました。Scheffe’風に判断するなら、これは0.05/3より大なので有意差なしと言えるでしょうか。もしそうでしたら、「傾向がある」といえるには、いくつ以下とするのが一般的でしょうか。また、Fischer風に、0.05以下だから有意といってもよいのでしょうか。 なにとぞよろしくお願いいたします。

  • t検定についての疑問

    2群の母平均に差があるかどうかを検定するためにt検定(独立した2群のt検定)を使います。 今、2群のそれぞれの平均、標準偏差、標本数は分かっています。(もちろん標本のです) A群とB群とします。例えばA群の平均は64だとします。B群の平均は58だとします。 t検定を行って有意差があるという結論を出したのですが、これは2群の母平均に差があるということは言えるのですが、「Aの方がBより母平均が大きい」と言っていいのでしょうか????? 「差がある」ことと、「どちらが大きいと言い切ること」は別問題でしょうか? もし別問題なら、Aの母平均>Bの母平均を言うためにはどうしたらいいでしょうか?

  • 統計学についてお願いします。

    統計について素人です。 A群(n=30)とB群(n=40)を比較して有意差があるか調べたいと思います。 検定の順序としては、A群とB群は対応のあるデータではないです。 その為、まずは正規性の検定を行うことになるのでしょうか。 次に正規性があれば、F検定で等分散か確認し、等分散であればステューデントのt検定、等分散でなければウェルチのt検定ということになるのでしょうか。 そして正規性が無ければノンパラメトリック検定となるのでしょうか。 ここまでは合ってますか? それでここからが本題なのですが、私はSPSSやエクセル統計などの統計ソフトを持っていません。 普通のエクセルのみで、このA群とB群を比較して有意差があるか調べる方法を教えていただけませんでしょうか? 手順等できるだけ詳しく教えていただけますと幸いです。 よろしくお願いいたします。 (最悪、エクセル統計であれば購入できそうですが…)

  • 統計学 二つのグループの有意差検定?

    二つのグループのサンプルについて統計的な検定をしなければならないのですが、統計学が全く分からないもので、何検定を使ってどう検定したら良いのか分かりません。下記が検定をするデータで、「A群の方が値が大きく、ABの二群には有意な差がある」と結論付けたいのですが、やり方をご教授願えませんでしょうか?A、Bでサンプル数が異なっていてどういった検定を使うのが正解なのか全く分かりません。よろしくお願い致します。 A群 B群 3  2 4  1 2  1 3  2 3 3

  • 「有意差がない」

    「1要因のANOVAで、A群とB群の間には有意差がなかった」ということを示したいのですが、検定してみたところp値が0.07で、有意傾向にあるとも解釈できる値になりました。 この場合でも、α=0.05と定めていれば有意差は無かったと断言していいと思いますか??

  • 統計 変化率の有意差検定の出し方(エクセル JMP)

    統計かなりの初心者です。教えてください。 変化率を出した2群の数値に有意差があるかエクセルで調べたいと思います。t検定で、両側分布、対のある検定で行ってみたのですが、結果は出てきませんでした。? その他、エクセルまたはJMPで有意差検定のよい方法、このような問いに対する考え方(統計全般についてまだいまいち理解できていません)がありましたら教えてください。 例:体重 A群70 B群70   3ヵ月後体重  A群68(変化率-3%) B群66(変化率-6%)   12ヵ月後体重  A群71(変化率+1%) B群59(変化率-16%) 出したいもの:3ヵ月、12ヶ月後の変化量、変化率の有意差検定 よろしくお願いします。