• ベストアンサー

ある時系列が非定常ポアソン過程に従うことを統計的に示すにはどうしたらよ

ある時系列が非定常ポアソン過程に従うことを統計的に示すにはどうしたらよいのでしょうか?どなたかわかる方、ご教示いただければ幸いに存じます。 データは製品のリリース数(誕生数、1週間単位)です。

質問者が選んだベストアンサー

  • ベストアンサー
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.2

> 週ごとの製品のリリース > 発生時刻の間隔は一定で発生件数が問題 > データをどう変換すれば定常ポアソンになるのか 普通は離散時間のデータを連続時間に変換するのではなく、連続時間の過程を離散時間に翻訳します。 k = 1, 2, ... を週の連番、週毎に観測された発生件数 を y(k) とする。 λ(t) が推定済みなので、各週の期待発生数 x(k) が計算できる。y(k) の x(k) に対する適合度を検定する。x(k) の計算に用いる λ(k) は、 λ(t) の第 k 週における平均を用いる。 どうしても離散時間のデータを連続時間に変換したいなら、どうするか。ポアソン過程なので、ある週の中で生起した事象の生起時刻はランダムです。(うるさく言うと λ(t) によって生起時刻を配分する必要がありますけど、そこまでしなくても。)これを使って、たとえば bootstrapping 用のデータが生成できます。しかしそうすると、週末でも平日と同じように製品がリリースされることになって不自然だ、と言われるでしょうね。

em072010
質問者

お礼

丁寧なご回答ありがとうございます。 教えていただいた方法を理論的に発生させた非定常ポアソンに従う時系列に試してみた所、無事に帰無仮説が棄却されずうまく行きました。 個人的には時間に直す方法の方がスマートな気もするのですが、確かに週の中のばらつきを無視するのはどうかと突っ込まれる可能性はありますね。その辺はまた色々考えてみたいと思います。 最後になりますが、この度は親切に教えていただき誠にありがとうございました。 また機会があればよろしくお願いします。

その他の回答 (1)

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.1

それは原理的に不可能です。 非定常ポアソン過程で「ない」ことを示すことは可能です。たとえば到着率の関数を推定し、それによって時間伸縮をしておいてからポアソン過程の検定をすれば良い。 実際には、何か検定をやって棄却されなかったら帰無仮説を認めちゃうのが慣習の分野が多いです。だから普通は、とりあえず思いつく検定をやっておいてから、しれっと「この時系列を非定常ポアソン過程でモデル化し」くらいで、分析の目的を達成するために必要な議論を進めます。 「非定常ポアソン過程って言えてないだろ」と突っ込まれたら、「そう考えては不都合だとする積極的な理由が私にはみつかりませんでしたので。非定常ポアソンでなくてもいいです。対案を妥当性と合わせて提示してください」と、立証責任をなすりつけるのが手筋です。 原案と対案の比較検討には情報量基準などを用います。対案の方が妥当だという結論なら、今度は分析の目的を達成するために必要な議論をやりなおさないと。

参考URL:
http://web.mit.edu/hshimaza/www/res/book/node10.html#SECTION02211000000000000000
em072010
質問者

補足

ご回答ありがとうございます。 原理的に不可能というのは帰無仮説検定の限界の話(帰無仮説を 採択するのは望ましくない)ですよね。それは心得ているつもりです。 私の作戦としましては、まさにおっしゃる通りで、ざっくり図を 通して非定常ポワソン(λ(t)の関数はここで特定)になるのを見せたうえで、 ストレステストのような感じで定常に直したプロセスを 検定しても「仮説は棄却されません」と一行論文に書ければと考えております (無論、帰無仮説を採択することになるのですが...)。 ただ、重ねて質問させていただいて恐縮なのですが、 時間伸縮(時間尺度変換?)の具体的な方法がわからなくて 困っております。リンク先の神経の話(発生時刻が問題になっている場合) とは違い、週ごとの製品のリリースの情報のみがある場合(発生時刻の 間隔は一定で発生件数が問題になっている場合)はどうやれば 定常ポアソン過程に変換できるのでしょうか。 現状は元データ列(製品の誕生件数) {4,5,8,6,12,9,7,7,12,8,14,13,5,12,11,8,12,9,2,3,5,4,2,2...} の移動平均値を分析するとλ(t)=r(1+αsin(wt))でかなりきれいに フィット出来る所までは辿りついているのですが、元データをどう変換すれば 定常ポアソンになるのかで引っかかっています。 もしご存知であれば、重ねてご教示頂ければ幸いに存じます。

関連するQ&A

  • 【時系列解析】定常過程の一般形の証明について

     定常過程の一般形の証明について質問させてください。 現在、時系列解析を学ぼうと思い、 http://www.iwanami.co.jp/.PDFS/02/0/0227610.pdf (注:PDFファイル) の1.3 線形過程の項目を読んでいました。(13ページあたり) この資料によれば、 --- y[t] =Σ[j=0,∞] α[j]ε[t-j], α[0] = 1, Σ[j=0,∞] α[j]^2 < ∞ …(1) ここで,{ε[t]} ∼ i.i.d.(0, σ^2) である.定数の係数列{α[j]} と確率過程 {ε[t]} に関するこれらの条件のもとで,{y[t]} は定常過程となる --- とあります。 手元にある別の参考書では、Σ[j=0,∞] |a[j]| <∞…(2)が成り立つなら定常性が成り立ち、短期記憶、つまりy[t]の自己共分散S =Σ[h=0,∞] |Cov(y[t], y[t+h])| は有限値となると書かれているのですが、なぜΣ[j=0,∞] |a[j]| <∞が成り立つなら定常性が成り立ち、短期記憶が成り立つのでしょうか。 (2)のような条件が持ち出される理由がわかりません。 (2)は(1)の定常性を証明するのに必要だからでしょうか。 仮に必要なのだとしたら、なぜ(2)の条件があれば(1)の定常性が保証されるのでしょうか。この証明を教えてください。 線形代数、統計学と確率論の基礎(確率の基礎から仮説検定まで)は理解しています。よろしくお願いいたします。

  • 時系列データの定常性について

    一般的な説明である平均や分散が一定という他に定常性を確かめる方法というのはあるのでしょうか? 線形回帰で1にかなり近い、例えば0.99のR-Squaredが十分なサンプルから得られている場合、かなり定常的であると推察できるのではと思うのですが、株価のような経済学的な時系列データをある関数で変換して得た分布の場合、関数のロジックが間違いないなくランダムな分布を発生させるという説明が出来ない限り定常と判断できないのではとも思います。 どなたか、ご専門の方、一般的な方法でも結構です、ご教示頂ければ、と。

  • 定常性とは???

    ARMAモデルを適用するために、時系列データが非定常なら階差をとるのですが、ここでいう定常の定義がわかりません。 本には平均、分散、共分散がコンスタントになる時に定常といってますが、具体的にどうなのでしょうか?分かりやすい図のあるサイトとかありませんか?

  • 時系列データの統計量

    こんにちは。 いま船の航跡データからクラスター分析を行い、いくつかのルートに分類することを考えています。 クラスター分析を行うために、3次元時系列データ(x座標、y座標、時間)を統計量で処理したいのですが、こういった多次元時系列データの場合にはどのような統計量を使えばよいのでしょうか? 何卒ご指導頂けますようお願い申し上げます。

  • ポアソン過程の問題です。わかる方教えてください。

    保険会社がクレームを受け取りました。そのクレームはポアソン過程でラムダを2とします。 それぞれのクレームサイズは2の時確率は0.5 サイズ5のとき確率は0.3 そしてサイズ10の時確率は0.3です。T (時間) を最初に大きなクレームサイズ 10がくる時間と定義します。T以前のトータルのクレーム数(期待値)を見つけなさいです。 わかる方教えてください。お願いします

  • 時系列モデル

    交通事故が経年的に増減する理由を説明するために、時系列分析を用いて行おうと 思っています。しかし、わたしは統計に関してはシロートに近く、どのモデルを用いればよいのかわかりません。そこで、どのような式を使えばいいのか、またはどんな勉強をすれば時系列分析がわかるのか、どんな本をみればシロートにも分かるのかヒントをください。 使用するデータは人口、交通量、道路延長、自動車保有率、違反率(取締り件数)などです。よろしくおねがいします。

  • 時系列データをベクトルとして平均値ベクトルの差の検定?

    統計の問題です。 2群の時系列データを持っています。 (スタートから値が上昇し、ある時点から減少するような形) この場合、群間に差があるかどうかを検定する場合は、 時系列データから何か指標(例えば曲線下面積)を分散分析にかける方法がよく用いられているようです。 しかし、時系列データが持っているデータ情報量が上手く生かされていません。 そこで、 http://aoki2.si.gunma-u.ac.jp/lecture/Wilks/wilks2.html にある方法を変数の項目を時系列に変えて適用できないものかと思いました。 時系列データをベクトルとして扱うことは大丈夫なのでしょうか? どなたかアドバイスいただけると幸いです。

  • 医薬品の統計的とらえ方

    「ここに医薬品があります。 この医薬品の副作用、有効性を議論するためには少なくともいくつのサンプル(被験者数)が必要であるか」 おそらく統計的に信頼できるデータを得られるサンプル数を 問うものと思うのですが全く分かりません・・・ どなたかご教示いただけないでしょうか。 統計学は少しかじったくらいですので、あまり明るいとは言えません・・・申し訳ないです。。

  • 時系列分析

    大学の理系学部に所属する教員です。 来年度から一般教養の統計学を担当することになりました。 統計学を担当することはやぶさかではないのですが、学生の所属学部が多様になり、文系学部の学生、特に経済や経営関係の者も馴染めるようにいくつかのケース・スタディの変更を考えています。 現在、時系列分析(AR、ARIMA、Unit root程度)に関するノートを作っているのですが、ここでは株価のデータを利用しようと考えています。そこで質問です。 (1)一般的には東証株価や日経平均を用いることが多いようだが、個別銘柄(例えばA株式会社)の株価データを時系列分析で扱うのは希なのか?  例えば、企業の不祥事、あるいは業界全体を契印するような企業のそれによる株価の動向、のような個別各論的な分析があってもいい気がするのですが、多くの例題は情景の指数や平均株価が多いものですから。 (2)始値、高値、安値、終値のどれを使うのが一般的か?  単なる計算問題としての統計学ならばどれでも構わないでしょうが、経済学部生等もいますから、経済学、金融論との親和性を考えるべきやに思います。 (3)株式分解の扱いはどうすればいいか?  連続して扱ってしまって良いのか?以前、株式分割を半年ごとに繰り返してきた某IT企業の株価の時系列を見たことがありますが、特に何も断っていなかったように思いますが・・・連続した系列として扱っても良いのですか?

  • 残差に自己相関がある時系列データy(1),y(2),y(3),...,

    残差に自己相関がある時系列データy(1),y(2),y(3),...,y(n) に対して上昇トレンド(線形)が有意に存在することを 統計的検定で示したい場合はどのようにすればよいのでしょうか? 単にデータ 時刻(x) 値(y) 1 1.512472 2 1.594956 3 1.636873 4 1.711896 5 1.570067 6 1.440109 7 1.550716 8 1.55284 9 1.372756 ・・・ ・・・ に対して単回帰分析(y=a+b*x)を行い、初級の統計で習うように 係数aの仮説検定H0:a=0 H1:a!=0に対応するp値を見ようとも 最初は思ったのですが、どうも系列相関を 無視して分析しているのが気になっていまいちすっきりしません。 適切な方法がわかる方がいたら、ご教示いただければ幸いです。