• 締切済み

極値統計(Gumbel分布)について。

現在仕事である製品(平板状)の上にある傷の最大の長さを評価ようとしてます。 計測器の関係で1度に測定できる面積は決まっています。 また、製品の全面を計測できれば問題は簡単なのですが、設備、工数の制約上現実的ではありません。 そこで極値統計(Gumbel分布)を利用して傷の最大値を推定しようと考えております。 手法は以下のとおり (1)、検査基準面積(測定視野面積)を決定する。 (2)、計測器を使い検査基準面積内に存在する傷の最大の長さのものを選びその長さを計測する。 (3)、上記(2)を場所が重複しないようにN回繰り返し、N個のデータを抜き出す。 (4)、(3)で得たデータ(長さ)を小さい順に並び替える。(L(1), L(2), L(3).....L(N)) (5)、基準化変数Yを以下のようにとる。 Y=-ln[-ln{i/(n+1)}] i:(4)で並び替えたデータ(長さ)の小さいほうからの順番 n:全データ数 (6)、直行座標系の(X, Y)に(L(i), Y)をプロットし回帰直線を導出する。 (このデータの分布がGumbel分布に従ってるなら直線に近似できる) (7)、(6)で算出された回帰直線からある製品上の傷の最大長さを推定する。 (例:観測基準面積の1000倍の面積を持つ製品の最大傷長さは(6)の回帰直線でY=-ln[-ln{(1000/1001)}]=6.91になるXの値となる。) 以上のような手法である面積の最大傷長さを推定しようと思いますが、疑問があります。 面積が1000である製品を検査基準面積1で50個のデータを取ったときにその製品の最大傷長さは回帰直線でY=-ln[-ln{(1000/1001)}]=6.91でのXの値になりますが、同じ製品に検査基準面積2で50個のデータをとった場合、最大傷長さは回帰直線でY=-ln[-ln{(500/501)}]=6.21でのXの値になってしまいます。 もし、データ数が十分大きいならば観測面積が1と2の場合のデータ分布は同一になっていきますが推定量を算出するためのYの値が異なってしまいます。 この場合 I、なぜこのような差が出るのか?(数式的には理解できるがその差の理由がわかりません。) II、この場合検査基準面積1と2の場合どちらが確かな値が出るのか? が理解できません。 どなたかうまく説明していただけませんでしょうか?よろしくお願いします。 【参考にした文献】装置材料の寿命予測入門 -極値統計の腐食への適用- 腐食防食協会編 丸善株式会社 【参考】Gumbel分布 F(X)=exp[-exp{-(x-l)/a}] (a, l:定数)

みんなの回答

  • gef00675
  • ベストアンサー率56% (57/100)
回答No.2

#1に書き忘れたので補足します。 (7)で観測基準面積のm倍の面積を持つ製品の最大傷長さを推定するのに、 Y=-log(-log(m/(m+1))) とおいて、回帰直線Y=(X-l)/aで外挿してXを求めています。 結果的にそれでよいのですが、mが大きい場合には、 Y=-log(-log(m/(m+1)))=-log(-log(1/(1+1/m))) =-log(log(1+1/m))≒-log(1/m)=log(m) ∴Y≒log(m) であることに注意すると、推定の式 X≒l+a*Y=l-a*log(-log(m/(m+1)))と、 基準面積を変更したことによるパラメータ換算l→l'の式 l'=l+a*log(m) は、mが大きいか小さいかの違いがあるだけで、本質的に同じです。

全文を見る
すると、全ての回答が全文表示されます。
  • gef00675
  • ベストアンサー率56% (57/100)
回答No.1

>なぜこのような差が出るのか? 観測基準面積をm倍にすると、それだけ多くの傷が出現するため、最大傷長さLの分布も変化します。 Pr[L≦x; 面積m倍] =Pr[L1≦x,L2≦x,...,Lm≦x; 基準面積] =Pr[L1≦x]*Pr[L2≦x]*…*Pr[Lm≦x] =F(x)*F(x)*…*F(x)=F(x)^m =exp[-exp{-(x-l-a*log(m))/a}] したがって、回帰直線はx方向にl+a*log(m)だけずれることになります。逆にいうと、観測基準面積を変えた場合は、この関係を使って換算すればよいといえます。 >検査基準面積1と2の場合どちらが確かな値が出るのか? データ数が同一である限り、どちらが確からしいとはいえません。これは統計の問題ではなく、検査機器の特性によるのではないでしょうか。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • ワイブル分布を使った推定

    ある製品が販売後t年経っても廃棄されずに残っている率(残存率Y(t)と呼ぶことにします)のデータがt=1からt=10まであります。これを元に、t=11からt=50までの残存率を推定したいと思っています。 ワイブル分布を説明した http://ja.wikipedia.org/wiki/%E3%83%AF%E3%82%A4%E3%83%96%E3%83%AB%E5%88%86%E5%B8%83 を見て、ワイブル・プロットという方法を使うと次のようにできると考えたのですが、妥当なやり方でしょうか。 ・t=1~10の時のln(t)を説明変数、ln(ln(1/Y(t)))を被説明変数とした単回帰を行い、回帰式を求める ・回帰式にt=11~50を代入して、ln(ln(1/Y(t)))の推定値を求める(これをZ(t)と書くことにする) ・1/(exp(exp(Z(t)))を計算することにより、Y(t)を求める。 Excelで作ってみたところ、それっぽい曲線はできたのですが。 よろしくお願いいたします。

  • エクセルで統計分析関する

    エクセルで あるデータ条件 x: 95%, 100%,105% y:1251.5,1181.9,1122.4 になれば https://help.libreoffice.org/latest/ko/text/schart/01/04050100.html この記事による a= SLOPE(LN(Data_Y);LN(Data_X)) b = EXP(INTERCEPT(LN(Data_Y);LN(Data_X)) ln(y)=ln(b)+a*ln(x) で求めたら、 a: -108.81% b: 1183.02014 y: 6.321636936 LN(y): 1.843978184 というデータが出ましたが、 私が求めたいものは yがどんな値の時xの値を求めたいですが、 例えば 上の条件の通りにxは98%の際にy1251.5~1181.9中の98%の該当する値を求めたいですが、 上にyとか㏑(y)で出させた結果がなんの意味のかを分かりませんが 素人なのでわかりやすくご説明いただきませんか? ぜひ詳しいご説明お願いいたします。

  • 統計学: 尤度推定量、最小二乗法

    統計学なのですが、悩んでいるところは 微分の極値問題 なので 微分ができる方にも アドバイスをお願いしたいです。 さて、問題ですが L = - Σ(i=1->n)(Yi - θ*Xi)^2/(2*σ^2) - (n/2)ln(2*π*σ^2) を最大化するθ,σ^2を求め、 そのθとσ^2がLを最大化していることを示せ。という問題です。  ただし X1,X2,...,Xn と Y1,Y2,...,Yn は定数扱い。 また θ>= 0 , n は自然数,σ^2 > 0 です。 もとは 統計学の問題で 線形回帰モデル  Yi = θ*Xi + εi ,εi は 正規分布 N(0,σ^2) に従う。 を考えたとき θとσ^2の最尤推定量を求め、その推定量が尤度を最大化していることを証明せよ。 という問題で (対数)尤度L を計算すると L = - Σ(i=1->n)(Yi - θ*Xi)^2/(2*σ^2) - (n/2)ln(2*π*σ^2) となり、 あとは極値問題を解くだけというところから 分からなりました。 この先、私が考えたのは ∂L/∂(σ^2) =0 かつ ∂L/∂θ =0 を満たす θ,σ^2 を求めること(grad(L)を導出) 前者は  σ^2 = Σ(Yi-θ*Xi)^2 /n 後者は  Σ(Yi-θ* Xi)*Xi = 0 という 形に変形できたのですが、 後者の式をこれ以上 くずせませんでした。 ここでアドバイスがほしいのです。 統計、もしくは解析ができる方、アドバイスをいただけないでしょうか。 文が長くなってしまいましたが、よろしくお願いします。

  • 正方形の四隅に分布する点の回帰曲線

    グラフ作成ソフトで、正方形の四隅に点が分布している状態で回帰曲線(線形)を引くと、正方形が横長の長方形2つに分割する線になりました。 そこで不思議に思ったのですが、正方形や長方形や円のように点が対称性のある分布をしている場合、回帰曲線(線形)は、重心を通る直線であればどんな傾きでもいいような気がします。 なぜ1つに決まるのでしょうか? xの値に対するyの値を予測するためであると考えれば、横長の長方形2つに分割されたことに納得できるのですがあっていますか? よろしくお願いします。

  • 対数正規分布について

    現在、実験の解析で対数正規分布を使用するため勉強しているのですが、 ある論文の中に以下の式がでてきました。 f(x)=A* exp[-{ln(x)-ln(t)}^2/r^2] ⊿x=2t*sunh(r) f(x) =対数正規分布の確率密度関数 A  =正規化定数、 t  =モード(f(x)が最大値の時のxの値) ⊿x =f(x)の最大値を1/e倍した値の時に求められる2つのxの幅 一般の教科書に載っているような式と違うため解釈に困っています。 A(正規化定数)をどのように求められるのか、rは平均、標準偏差とどのような関係があるかなどわからないことだらけです。 どうか、これらの関係を教えていただけないでしょうか、よろしくお願いします。

  • 回帰直線の求め方

    (x,y)のデータが沢山あるとします。 そしてxとyの間に直線関係(比例関係)が認められそうです。 Excelを使って、最小二乗法により回帰直線(y=ax+b)を求める際、aの値を固定してbを求める、そしてその相関係数を求めることはできますでしょうか。 ※単に回帰直線を計算させると、y=0.95x+bと算出されたのですが、 理屈から考えるとy=1x+bの関係がありそうなので、そのときのもっとも適当なbの値を知りたいのです。

  • どうしても解けないので統計学教えてください

    干し草の収穫(kg/10a)と使用した灌漑の給水量(10cc)の関係を調べたところ、以下のようになった。 i ,単収(Yi),気温(Xi),Y^i,u^i,u^2i,Y-Y ̄,(Y-Y ̄)2,X-X ̄,(X-X ̄)2 1 , 1317 200 2 , 1420 300 3 , 1562 400 4 , 1803 500 5 , 2005 600 6 , 2178 700 7 , 2105 800 合計,12390 3500 (1)干し草の収量をY、給水量をXとおいて、回帰式を推定せよ (2)給水量が、450ccのときに、予想される単収を求めよ (3)この回帰式の決定係数を求めよ (4)回帰係数βとαの有意性を5%有意水準で検定せよ (注)Y^2などの^は予測値で、2は二乗です。Y ̄の ̄は平均(バー)です。 見にくくてすみません よろしくお願いします。

  • 統計学・確立分布の問題

    統計学のレポート作成でつまずいています。 知恵をかしていただけると幸いです。 ただレポート作成は極力自力で取り組みたいと思っているので、 問題文に少し手を加えて質問させていただきます。 階級値をX、割合をFx(X)とする確立分布が与えられている。 階級値Xと割合Fx(X)については生のデータが与えられている。 そして、別の確立分布をFy(Y)とする。 先の確立分布との関係は一次関数 Y= b + aXで示される。 私は率直に階級値の関数だと思い、生のデータを代入してFy(Y)の階級値を得ました。 しかし割合はどうするのか?というのが私の疑問です。 Yの割合は与えられておらず、かつXとYの確立分布は全く別物です。 初め問題文に「割合Fy(Y)」と記載されていないことから、Xの割合を適用するものと思いました。  例)階級値(b + aX1)の割合はFx(X1) レポートもこれで書き上げました。 が、割合も関数に代入するべきなのか。 (代入すると割合の和が1を超えるため1になるよう調整する必要性も) 市販の問題集もいくつかあたってみたのですが、似たような問題がピンポイントで見つからなかったため質問させていただきました。

  • 切断された正規分布

    今ある標本(Y,X)の組があって、その母集団が正規分布であることがわかっているとします。 ただ、得られた標本(Y,X)はXがある閾値以上のものに限定されている(すなわち、正規分布の尾の部分のみが観測されている)としたとき、 母集団である正規分布の統計量を推定するにはどうすればよいでしょうか?

  • EXCELグラフ〔分布図〕で【y=a】などを表現するには

    EXCELグラフ〔分布図〕で2点をプロットし、近似曲線を利用して自動的に関数(y=ax+b)を表示できるようにしています。 【例えば】 x=2|4 Y=4|8 という表を分布図にて数式表示すると【y=2x】となります。 ここで例えば、x=3,y=6という地点を強調するために、x軸に向けて垂線を下ろしたいのですが何か良い手はありますでしょうか? 【x=3】という直線を引けばよいのですが、このひきかたがわかりません。【y=6】などは引けるのですが・・・ 【x=3】を引くための元データ(表)はどのような形になるのでしょうか? ちなみに、出来たグラフに図形[直線]を挿入するのは反則です。元データの数値を入れ替えてもグラフが完全連動するようにしたいので、単純に[直線]を挿入する方法ではデータが変わったときにずれてしまいますので。