• 締切済み

2つのデータ間の相違度(バラツキ度)の算出方法?

ある装置から検出した1連のデータ(20point)を基準として、 過去のデータ集の中から、類似するものを抽出する場合に、 これらの2つのデータ間の各pointでの差分値から、相違度(バラツキ度%)を求める場合、  (1)  =|差分値|の和/20  (2)  =ルート(差分値の2乗の和/20) 等が考えられそうですが、計算式としてはどのようになるのが正しいでしょうか? (また、その名称は?) (平均値が基準でなく、また正規分布でもないため、標準偏差ではないとの話もあるのですが。)

みんなの回答

  • f272
  • ベストアンサー率46% (8013/17127)
回答No.2

#1さんの言う通り,サンプルデータの素性が問題ですね。 「類似するもの」と簡単に言いますが,どんなものが類似するものなのでしょうか?それがわかれば計算式はすぐに作れます。その点についてどう考えているのでしょう。 それがわからなければ,「計算式としてはどのようになるのが正しい」のか判断がつきません。 例えば「ある装置から検出した1連のデータ」が1,2,3,4,5,...となっているとき,過去のデータで10,20,30,40,50,...となっているのがあったら,これは類似しているのでしょうか?また11,12,13,14,15,...となっているのがあったら,これは類似しているのでしょうか?

osiete-2012
質問者

お礼

さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較するため、相応する項目毎の差分値がすべて0なら100%類似とし、+1、-1があり合計0になってもそれは100%類似ではない、としたいと思います。 何か、ちょうど良い公式があるでしょうか?

osiete-2012
質問者

補足

(訂正) 相応する項目毎の差分値がすべて0なら100%類似とするのですが、 +1、-1があり合計0になってもそれは「類似が100%ではない」の意味です。 差分値が大きくなっていけば、類似率は小さくなっていくとしたいのです。 よろしくお願いします。

  • TIGANS
  • ベストアンサー率35% (244/680)
回答No.1

サンプルデータの素性がわからないとなんとも言えないと思います。 まずサンプルデータから差分にする意味は何でしょう?

osiete-2012
質問者

お礼

さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較したいと思います。

関連するQ&A

  • 二乗平方和で公差を計算した場合の意味について教え…

    二乗平方和で公差を計算した場合の意味について教えてください 複数の部品を組み合わせる場合、二乗平方和で公差を計算した場合について教えてください。 複数の部品のばらつきが、公差範囲を±3σとする正規分布をもち、かつばらつきの平均が公差中央値に一致する場合、各ばらつきの二乗を足してその平方根をとったものも±3σとなるのでしょうか。 例えば、1±0.1、2±0.2、3±0.3の部品があり、それぞれが上記条件(公差範囲を±3σとする正規分布をもち、かつばらつきの平均が公差中央値に一致する場合)を満たす場合、±0.374(=√(0.1^2+0.2^2+0.3^2)からは0.3%しか外れない という考え方であっているでしょうか。 また、複数の部品が公差範囲を±4σを満たしていた場合、同様に±0.374から外れる確率は0.006% という考え方で正しいでしょうか。 よろしくお願いします。

  • 類似度の高いものを取り出したい。

    数学・統計学初心者です。 現在Rを使って統計学を勉強しています。 ある、パラメータA,B,C,D,E,F.・・・・・・を持った対象データがあり、 さらに同じパラメータを持った複数のデータ集団(標本の集団)があったとします。 そのデータ集団から対象データと類似度が高いものを取得したいとします。 以前、類似度を求める場合、対象データと集団との相関係数を求めれば良い、というHPは見たのですが、 この方法だと、各パラメータのデータの分布の大きさが異なれば、変な値が出てきそうな気がします。 かと言って各パラメータデータを正規化しようとすると標本集団のため、どこかのパラメータでばらつきが出てきそうな気がします。 そもそも私には一般的な知識がないので、類似度を求める際、頭の良い人たちがどういった感じで類似度を求めているかわかりません。 このような場合、どうやって類似度が高いものを取り出してくれば良いのでしょうか?教えてください。

  • 正規分布の4乗和

    独立な正規分布の2乗和の分布はカイ2乗分布で有名ですが、 4乗和の分布が知りたいです。 (1)カイ2乗分布のように定式化されたものがあるのか? (2)定式化されたものがなければ、カイ2乗分布の誘導過程からの類推で導きたい。カイ2乗分布の誘導過程を教えて欲しい(自由度2以上)。 なお、指数分布の和がガンマ分布になる誘導過程もよくわかっていません。(2)の場合は、その部分も教えて下さい。

  • 多項式のバラツキ成分分析方法について

    現在実験での計測値から算出される"A"という項目の値のバラツキが大きく、そのAのバラツキを小さくしたく要因分析をおこなっています。 項目Aの算出方法は、  A=B-C-D  B,C,D:実験での計測値 という関係式で与えられます。 Aのバラツキ:σa Bのバラツキ:σb Cのバラツキ:σc Dのバラツキ:σd とした時、 σaをσb、σc、σdで表すことはできるのでしょうか? 私の考えでは、 A±σa=(B±σb)-(C±σc)-(D±σd) となるので、 σa=√(σb^2-σc^2-σd^2) となると思うのですが、この式ではσc、σdが大きくなるほどσaが小さくなり、事実とつじつま合いません。 単純に下記のように平方二乗和で求めたほうがよいのでしょうか? σa=√(σb^2+σc^2+σd^2) σaがσb、σc、σdの式で表すことができれば、B、C、Dのどの項のバラツキが大きいかが分かり、σaを小さくする小さくするための対策が検討できるのですが・・・ 類似の問題を経験されたことのある方、バラツキ計算方法の知識を有する方、 ご教授お願いします。

  • 測定データ(複数部品)から標準偏差の算出

    複数部品(加工品、形状・公差はそれぞれ異なる)の実測データを用いて、 その部品を積み上げた際の、標準偏差を求める必要が出てきました。 この場合の考え方としては、 各部品のばらつきが標準正規分布であることを確認 ↓ 自乗和平方根にて標準偏差を算出 ということで良いでしょうか? 他に何か考え方がございましたら、ご教授頂けますと幸いです。 各部品の公差は±0.1というものもあれば、 0~+0.1というものもあります。 過去製作品の寸法把握(推測)ということで、 社内での実測データから求めることになったのですが、 扱いに困っているところです。 また、公差が0~+0.1になっている部分は、 まだデータを細かく見ていないのですが、 標準正規分布になっていない懸念もありますので、 質問させて頂きました。 長文失礼致しました。

  • ワードで作成した文書のデータ照合について。

    ワードで作成した大量の類似データがあります。 相違箇所だけ抽出したいのですが、 何かいい方法があれば教えてください! よろしくお願いします。

  • カイ二乗による適合度検定におけるカイ二乗値の分布

    カイ二乗による適合度検定で、期待度数と観測度数の差からカイ二乗値を計算するんですが、帰無仮説が正しい(すべての期待度数が観測度数と一致する)場合は、この検定統計量のカイ二乗値の分布はその自由度のカイ二乗分布になります。 帰無仮説が正しくなく、実際にある乖離(たとえば効果量w=0.3とか)があった場合、計算された検定統計量のカイ二乗値はどんな分布をすると理論的には言えるのでしょうか? 全体の総度数によってもかわるように思うのですが、いまいちわかりません。 平均の差の検定ではたとえば、t検定統計量が帰無仮説が成立しない場合非心t分布をとるのですが、カイ二乗検定ではこれは非心カイ二乗分布なのでしょうか? であったらその非心パラメタはどういうものなのでしょうか? カイ二乗による適合度検定で、検出力の計算をどうやるんだろうかと考えていたら、こういう疑問がわきました。

  • 正規化された確率分布を合成する方法について

    正規化されたガンマ分布が二つあった場合に、これを合成する方法がないか探しているのですが、どうにもわからないので質問させていただきました。 標準分布の場合には、分散σの二乗和の平方根をとることで、合成後の分散を得ることができると思うのですが、ガンマ分布の場合は、何かいい手段はあるのでしょうか・・・? 宜しくお願いいたします。

  • アクセスで片方のテーブルを優先して抽出する方法

    アクセスのデータ抽出で質問です。 画像のように「テーブル1」と「テーブル2」があり、クエリで「結果」のようにデータを抽出したいです。 一応出来てはいるのですが、もっとすっきりしたやり方があれば教えて下さい。 <やりたいこと> ・テーブル1とテーブル2のフィールド2を比較し、フィールド1を基準としてテーブル2にデータがあればそちらを抽出、なければテーブル1から抽出したい <現在のやり方> 1)テーブル1とテーブル2の差分クエリを作成 2)1)の差分クエリとテーブル2のユニオンクエリを作成 上記以外のスマートなやり方があれば是非知りたいと思っております。 よろしくお願いいたします。

  • 分散が1でない場合のカイ二乗分布?

    一般的な教科書で定義されているカイ二乗分布は、平均ゼロ、分散1の正規分布に従う確率変数の二乗和が従う分布として導出されています。では、分散がσ2のような一般的な場合はどうなるのでしょうか? このときのカイ二乗分布の分散だけでもわかるとよいのですが・・・、よろしくおねがいします。(この内容が記されている文献やHPの情報でも大歓迎です)