• ベストアンサー
  • すぐに回答を!

時系列データの検定

あだむと申します。統計学の勉強を始めた所なんですが、わからない所があり質問させて頂きます。 ある規制を行った結果、ターゲットに絞った品目の使用量が減りました。規制前、後1年分ずつのデータがあるのですが、t検定やノンパラメトリック検定で有意差を検討しても良いものなのでしょうか? 母集団がどこにあるか、良くわからないので、検定していいものかどうか迷っています。一施設のみのデータなので、それ自体が母集団なのではないのか。でも、データを抽出している以上、手元にあるデータは誤差を含んでおり、標本なので、検定をしても良いのか。 知恵をおかし下さい。

共感・応援の気持ちを伝えよう!

質問者が選んだベストアンサー

  • ベストアンサー
  • 回答No.2

#2です。 比較する前後で6個ずつのデータですか。それなら確かにノンパラメトリックな検定を試した方が良いでしょうね。 ノンパラメトリック検定に詳しくないので、どの検定方法が適切かはよく分りませんが…。 また、もしt-検定を使われるなら、という場合の蛇足的なアドバイスですが: この場合、観測量が正規分布するという仮定を置くことになるので、正規分布に従うとして良い、ある程度合理的な理由づけが必要になると思います(しれっとして使ってしまうのも、ありなのかも知れませんが…)。 例えば、金融工学の世界でよく使う手ですが、「互いに独立な多数の撹乱要因が働くので、中心極限定理によりノイズは正規分布すると見なせる」とか(これも良く考えたらずいぶん乱暴な理由ですが)。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

書き込みありがとうございます。 規制前1年、規制後1年のデータがあります。月平均で検定を行うので、標本数は規制前12個、規制後12個になります。 標本数が多ければ、正規分布が仮定できると思いますが、ちょっと少なめだと思いましたので、ノンパラを選びました。 >例えば、金融工学の世界でよく使う手ですが、「互いに独立な多数の撹乱要因が働くので、中心極限定理によりノイズは正規分布すると見なせる」とか(これも良く考えたらずいぶん乱暴な理由ですが)。 なるほど。わかりやすいご説明ありがとうございます。私は、医療関係の職についています。統計の事を勉強始めた所ですが、ある程度、広い分野での統計の使用方法も勉強した方が良いかと感じていました。その方が、より理解が深まると思いますので。 また、何か追記がありましたら、よろしくお願い致します。

その他の回答 (1)

  • 回答No.1

念のため確認しますが、規制前後1年間の各月の使用量データがあるような状況でしょうか? (ある程度のデータ数がなければ、もちろん検定のしようがありません。) その商品の施設における使用量が、おのおの独立に正規分布に従い、規制前と後の平均がμA,μBであるとすれば、帰無仮説H0:μA=μB, 対立仮説H1:μA≠μBとして、t-検定のスキームが使えますよね。 母集団がどこにあるか、というのは難しい問題ですね。そもそも伝統的統計学の「母集団が存在し、そこから標本抽出を行う」ことを想定する枠組み自体、工業製品の検査だとか世論調査だとか、「母集団に真の値があって、全数調査をすれば真の値が確実に分るんだけど、色々な制約上、標本抽出をせざるをえない」という様な場合を前提とした考え方ですので、母集団を想定するのは、時系列を扱う場合には馴染まないように感じます。 もちろん、前述のように各期の使用量が正規分布に従うという仮定は、使用量について正規母集団を想定していると言えなくもないですが…。 それよりは、t時点の使用量A(t)が、  A(t) = μ + ε(t) すなわち平均的な使用量の水準μが様々な要因によりノイズε(t)で揺らいでいると考えた方が理解が容易であると思います。

共感・感謝の気持ちを伝えよう!

質問者からのお礼

書き込みありがとうございます。 まず、毎月の使用量のデータはあります。月平均で検定を行いたいと思っていますが、規制前、後で1年間分、標本として1月ずつと考えると、12個しかサンプルがありません。ノンパラのマンホイットニーのU検定を考えています。  A(t) = μ + ε(t) わかりやすいご説明ありがとうございます。 この考えなら納得行きます。月ごと、様々な要因で平均からずれるという考え方ですね。 今後共、よろしくお願い致します。

関連するQ&A

  • 統計学の検定について

    統計の問題で以下のようなものがあります。 ある母集団から無作為に抽出した学生にテストを受けさせたところ 55 45 46 54 38 62 64 36 という標本が得られた。この母集団が正規分布している元のした時、得点の母平均が60である、という仮説を有意水準5%で検定せよ。 というものでしす。この時の検定の仕方はどうすればいいのでしょうか? またこの時の有意水準とは何の何に対する比率が5%なんでしょう? あとこの場合でなされる判断は、観測された結果をどのように考えた結果なされたものなのですか? よろしくお願いします!

  • ノンパラメトリック検定の意味

    正規分布を仮定するパラメトリックな検定のt検定は、 標本からの平均、標準偏差から母集団に対して、母集団の平均に差があるかどうかを検定しますが、 ノンパラメトリック検定の場合はどうでしょうか? 例えば、対応のある2群を(前後の比較などで)ウイルコクスン符号付順位検定して、有意差がでたとします。 この場合も母集団に対して平均に差があるということなのでしょうか? それとも標本のみで平均に差があるかを言っているのでしょうか? (たぶん違うとは思うけど・・・) どうでしょうか? 教えてください。

  • パラメトリックとノンパラメトリック、母集団(統計)

    最近、統計の勉強を始めたばかりで、行き詰ってしまいました。 パラメトリック検定とノンパラメトリック検定のどちらを使うかで困っています。 教科書やホームページ等、いろいろと調べた結果、「母集団の正規性で使い分ける」と「標本の正規性で使い分ける」という、2種類の表現がありました。 どちらが正しいのでしょうか? どちらも正しいのでしょうか?? また、母集団というもの自体もよくわからなくなってしまいました。 例えば、A点とB点で1分間隔で3時間、気温を測定したとします。 この時の母集団は何でしょか? A点とB点で有意な差があるかどうかの検定はどのような検定法が良いのでしょうか?? 教えて下さい。 よろしくお願いします。

  • 層化比例無作為抽出時の検定などの方法

    とある書籍にて以下のことを学習しました。 ・層化比例無作為抽出法を用いて標本抽出をおこなった場合、標準誤差の算出には標本全体の分散ではなく、各層内分散の加重平均値を用いる。 ・よって、単純無作為抽出時に比較して標本誤差を低く抑えることができる(ことが多い)。 ここで質問なのですが・・・、 ・層化比例無作為抽出をおこなう場合、すべてのな区間推定や検定,果ては分析仮定で標準誤差を用いるすべての多変量解析において、一般的な統計ソフトを用いることは『正しくない』のでしょうか(大抵の統計ソフトは単純無作為抽出を仮定していると考えています)? ・『正しくない』とすれば、皆さんはどのように対処されてらっさるのでしょうか?ご自身でスクリプトを書いたりされているのでしょうか?それとも、「分析結果にさほど影響を与えるものでもないから統計ソフトで済ましている」といった感じなのでしょうか? 以上、どなたかおわかりの方がいらっしゃいましたら、ご教授いただけませんでしょうか? 宜しくお願いいたします。

  • ノンパラメトリック検定

    心理学でカイ2乗のノンパラメトリック検定分析をしたのですが、結果の書き方が分かりません。 どれも有意差が認められるものでしたが、普通なら「AよりBのほうがCの割合が有意に大きいことが示された」ですがこの場合はどう書けばいいのでしょうか? 観測度数と期待度数と残差や検定統計量は出ています。

  • 統計学の検定について

    標本15個の観測度数と期待度数を有意水準5%で検定する、という問題なのですが どのような仮説を立て、検定統計量Tを決めたらよいでしょうか?

  • 統計的検定の標本数

    統計について学び始めたばかりの初心者です。 統計的検定では標本数が多くなればなるほど、有意になりやすくなる、ということを学んだのですが、理由がいまいちよくわかりません。 わかりやすく説明してくださる方をお待ちしております。

  • 欠損データがある場合の有意差検定について

    統計に関して初心者です。 動物の血液検査を行いましたが、1個体のみ血液が凝固しデータが欠損している箇所があります。 3標本なので、欠損がなければRepeated Measures ANOVAで有意差検定を行い、その後ダネット検定をと思ったのですが、上記の場合はどのようにしたらよいのでしょうか。

  • 一標本t検定とウィルコクソン検定,符号検定

    関連2群の差の検定をする際,符号検定で有意であると言えるなら 自動的にウィルコクソン検定,一標本t検定でも有意であると言えるのでしょうか? 7 0 0 7 -6 26 7 5 1 9 -3 3 という差のデータで検定しているのですが, ウィルコクソン検定では,有意な差になり 符号検定では,有意な差でない t検定でも有意な差でない という風になりました・・・

  • t検定で困っています.

    t検定を行うにあたって,どのようにデータを処理していいのか分からないところがあるので教えて頂きたいです. このような場合どうしたらよいのでしょうか? データ1⇒10人の人が50m走のタイムをそれぞれ3回計測(靴を履いた状態で) データ2⇒同じ10人の人が50m走のタイムをそれぞれ3回計測(靴を履かない状態で) いま,データ1に対するデータ2の統計的有意差を調べたいです. このとき,データ1,データ2それぞれ10×3=30個の値を標本変数としてt検定を行うべきなのでしょうか? それとも,それぞれの状態で各個人のタイムの平均を出しておいて,10個の値を標本変数としてt検定を行うべきなのでしょうか?