• ベストアンサー

データの再現性について教えてください。

いまある分野での研究で、データを処理するのに苦労しています... 同じ人に複数回ある事を行ってもらって、ある測定を行って、 例えばその結果が5回で 1234 1322 1411 1295 1388 だったとします。(一例なので数字は適当ですが) そうするとこの数値に関して、 「再現性がある(有意な差がない?ということになると思いますが)かないか」 ことを検定する場合、どのような方法をとればいいのでしょうか? 直属の先生が何も教えてくれない人で、困っています。 どうかよろしくお願いします。 (ちなみに統計ソフトSPSSを使っています。)

質問者が選んだベストアンサー

  • ベストアンサー
回答No.7

こんばんは。 回答が進んでいないようですが、統計の話が気になりましたので話に参加してみます。 問題の構造はNo.6さんの文章とそれへの補足を読んでだいたいは理解しました。そこから考えますと、データを取得する場合には「測定を繰り返す際に生じる『ばらつき』」というものが存在するわけですから、まずはデータから、値がとり得る可能性のある分布を推定する必要があると思うのです。 具体的に言いますと、 > ある人に対しとある検査をして、1200なにがしの数値が出ます。 > しかしCという病気をもつ患者さんに同じ検査をすると2000近い値がでるため、 と書いてありますが、「健常者からデータをとると1200あたりだろう」「病気をもつ患者からデータをとると2000ぐらいだろう」というのは、おそらくは、shoesmanasさんが少ないデータ値から勝手に推測しているだけだと考えられます。 ですからまず、健常者で200ぐらいデータを取得してきて(あくまでも説明のための話での数値なので200というのは適当です。どれくらい必要かは、どのようなデータであるかによります)、 900台だったのは200データ中○個 1000台だったのは200データ中○個 1100台だったのは200データ中○個 1200台だったのは200データ中○個 1300台だったのは200データ中○個 1400台だったのは200データ中○個 という感じで、グラフ(ヒストグラム)が書けるはずです。ここから、健常者からデータを取得した場合にそのデータがどれぐらいばらつく可能性があるか、という分布が推定できるはずです。そして、200個のデータから、平均値や最頻値や中央値といったその分布を代表する値、および、分散や標準偏差などその分布の散らばり具合を示す値が算出できるはずです。 きれいにいった場合、たとえば考えられる形としては、代表値を中心(頂点)とした山型の分布表になるかもしれません。 このように、まずはその指標のとり得る分布を推定しないことには、あるデータ値が代表値からちょっと外れていた場合、それが測定誤差の範囲なのかどうなのか判断が難しいと思うのですがねえ…。 同じように、その病気にかかっている患者からのデータを集めて分布を推定してみて、それが健常者のものと思いっきり重なるような分布のグラフになってしまった場合、病気を示す指標としては役に立たなそうだ、ということになるわけです(当然、この判断も勝手な推測で行うのではなく、統計的に検定を行うわけですが)。 もし分布を推定しないまま判断を下すのであれば、データを分析する人間が、その値は誤差として収めるのかそうでないのかという基準を作る必要があるのではないかと。 逆に、その分布や代表値が推定できていれば、新しくデータを取得した場合にそのデータが分布に収まらない統計的に有意な値であるのかを検定する方法はあります(たとえば、病気をもつ患者さん数名のデータが健常者のデータの分布と比べて意味があるほど大きい/小さいのかどうかを、統計的検定の手法を使って示せばよい)。 No.4さんのご回答にあります、 『真の値(あるいは類似の実験結果で得られた他の値)と例に示したような測定値を比較して、両者の「ずれ」が繰り返しに伴う「ばらつき」に比べて意味があるほど大きいかどうか、を比較することになるのではないか』 の内容と同意見になるのかしら? 他の人と議論したりして出した結果がこのような感じなのですが、いかがでしょうか? それとも、もう少し簡単な方法があるのでしょうか? う~ん。

shoesmanas
質問者

お礼

ありがとうございます。 こんな超初心者のよく分かっていない質問に、 他の方ともディスカッションまでしていただいてお答えありがとうございました。 ヒストグラムの話、とても納得できました。 私が今回扱っている検査は、今まで誰もしていなかったような検査法になるので、 まだまだ研究の域を出るにはほど遠いものです。 でもやはり健常者データの傾向を見るにはかなりの数で検定しないと いけませんよね... あまり時間もなくどこまでできるかわかりませんが、 みなさんのご意見やお教えを参考にさせていただき、 がんばってもう少し勉強しようと思います。 このお礼欄を使わせていただいて、今回ご教示いただいたみなさんへ お礼申し上げたいと思います。 本当にありがとうございました! また質問させていただく際にはよろしくお願いします。

その他の回答 (6)

  • hukuponlog
  • ベストアンサー率52% (791/1499)
回答No.6

えーと。#5です。補足というか、確認をします。あなたが検定したい実験というのは、例えばこういう事例を考えれば良いですか? ある工場で不良品の発生数を調べる。月曜から金曜まで調査をして 月1234 火1322 水1411 木1295 金1388 という数の不良品が出た。これは、曜日によって有意な差があると言えるだろうか、それともこの不良品の出現数は、曜日による差ではなく単に誤差の範疇として処理しても良いだろうか、という設問。 まぁ、研究ですから詳しく述べるのが差し障りがあるのかもしれませんが、もう少し実験の内容を詳しく教えてもらえれば、適切なアドバイスもできるかもしれません。

shoesmanas
質問者

補足

このたびはアドバイス、色々とありがとうございます。 hukuponlogさんの言われるような例で違いないと思います。 工場が今回の場合一人の人間となるわけですが... やや具体的にお話しすると、新しい検査法についての模索中なのですが、 ある人に対しとある検査をして、1200なにがしの数値が出ます。 しかしCという病気をもつ患者さんに同じ検査をすると2000近い値がでるため、 この指標をCの診断のために使えるかどうかという研究です。 そのためにまず今は病気のない健常者の数値について調べて、 まずは検査自体に再現性があるかどうかというのを検定しています。 (そもそも毎回ばらつきが多すぎたら検査としての利用価値がなくなってしまいますよね) そのため、上記5つのデータに関して、誤差の範疇におさめてよいものかを調べています。 ほんとうに勉強不足で申し訳ないです...

  • hukuponlog
  • ベストアンサー率52% (791/1499)
回答No.5

話は簡単です。「対応のあるt検定」をやれば良いのです。SPSSをお持ちでしたらデータを放り込んで終わりです。 質問者さんが聞きたい事というのは、5回の個人内データのばらつきが有意なものか、誤差の範囲として棄却されるものかを検定する方法でしょう? これ、もっとも基本的な統計解析の手法です。SPSSでしたら、有意水準を5%で設定するのか1%で設定するのかを、先生に聞いて、データ放り込めばこの程度のデータなら一瞬の作業です。エクセル使った手仕事だって、たいした作業ではありません。

  • indoken
  • ベストアンサー率37% (173/457)
回答No.4

ANo2.です。適切な用語が使われているか、会話が成り立つか、ちょっと不安ですが、、、 > 出したいのは、一人の人間での複数回のデータの再現性、 であれば、Excelなどを使って「平均値」と「標準偏差」を出せば良いでしょう。 > 誤差がないかということを知りたい これが 意味不明です。 例のデータを見ると、同じ値になっていないので、何らかの誤差があることは確かです。質問が「誤差がないか」というだけであれば、答えは「ある」です。極言すればそれで終わりです。 一般に誤差の中味には、真の値からの「ずれ」と、同じことを繰り返す際に生じる「ばらつき」 との2つがあります。質問者さんは、まずこのあたりをを整理して解決する課題を立て直す必要があると思います。 多分、真の値(あるいは類似の実験結果で得られた他の値)と例に示したような測定値を比較して、両者の「ずれ」が繰り返しに伴う「ばらつき」に比べて意味があるほど大きいかどうか、を比較することになるのではないかと想像し、「比較する対照」のことを尋ねた次第です。

  • FEX2053
  • ベストアンサー率37% (7987/21355)
回答No.3

これ、参考になりますかね? http://www.blufi.co.jp/archives/24344389.html いずれにせよ「有意差検定」で検索すると色々ヒットするかと。

shoesmanas
質問者

お礼

ありがとうございます。自分でもちゃんと勉強が必要ですね...

  • indoken
  • ベストアンサー率37% (173/457)
回答No.2

有意な差があるかないかを判定したいとのことですが、 質問例では 測定を一組しか示していないように見えます。 差 について話をするには、比較する対照が必要でしょう?

shoesmanas
質問者

補足

ありがとうございます。 統計のことをなにも知らないのですみません... うまく表現できなくて申し訳ないですが、 出したいのは、一人の人間での複数回のデータの再現性、なんです。 Aさんに協力いただいて、同じ日の同じ時間に同じ機器での測定を5回行って、 誤差がないかということを知りたいのですが、 その場合の比較対照とは何になるのでしょうか... ちなみにデータはAさんだけでなく、数人分ありますが。

  • vaio09
  • ベストアンサー率37% (756/2018)
回答No.1

正規分布、相関を確認することになります。 SPSSじゃなくてもExcelでもできます。

shoesmanas
質問者

お礼

ありがとうございます。 ちょっとExcelをいじってみます。

関連するQ&A

  • 統計についての質問です。

    現在卒業研究を行っているのですが、統計処理で困っています。 研究内容の例として、 A~Dの4つの群があって、それぞれの群であるものの数値の平均値と標準偏差を求め、それぞれの群の平均について有意差があるかどうかを調べたいのですが、その検定の仕方がさっぱりわかりません。 統計が大の苦手で、毎日、本やネットをみて探して見るのですが、どうもやり方がわかりません。 検定の方法(できれば、エクセルかSPSSでのやり方)をわかりやすく教えていただける方いませんでしょうか? 自分勝手ですみませんが、宜しくお願いします。

  • SPSSでの3群間の多重比較について

    統計学初心者です。 SPSSを用いて統計をやっています。 3群間のデータ比較を行っていますが、下記の方法で正しいのでしょうか? まず3群のデータはそれぞれ正規分布していません。 なので、クラスカル・ワーリス検定を用いて検定をした結果、『有意差あり』となりました。 ここから、どの群間に有意差があるのかを調べたいのですが、SPSSではノンパラメトリック版の多重比較はできないのでしょうか? できない場合、それぞれの群間をマンホイットニー検定で比較することは正しいのでしょうか? 統計初心者で的外れなことを言っているかもしれませんが、よろしくご教授いただけたらを思います。 よろしくお願いします。

  • SPSS McNemar検定

    SPSSの「McNemar検定」 検定統計量の見方について質問です。 McNemar検定を行った場合,検定統計量(表)では通常N,カイ2乗,漸近有意確率が算出されると思います。 私の行った項目の中で,Nと正確有意確率(両側)は算出されているものの,カイ2乗値と漸近有意確率が表示されていない項目がありました。ちなみにこのときのNは64,正確有意確率(両側)は .125b [b.使用された2項分布]でした。これは,McNemar検定では,有意差が見られなかったという捉え方で良いのでしょうか? SPSSに関する文献を拝見しましたが,McNemar検定について触れているものは少なく,さらに漸近有意確率以外の見方について書かれているものが見つけられませんでした。どうか教えていただけますようよろしくお願いいたします。

  • 実験データのPost Hoc Testについて教えてください

    現在大学院生で研究の統計処理に迫られている者です。 薬物(偽薬と抗不安薬の2種類)が認知課題に与える影響を実験しました。 15人の被験者に対して2日間(偽薬の日と抗不安薬の日)、服用前・90分後・180分後・360分後の計4回、計測しました。 2元配置反復測定ANOVAで、薬物の主効果及び薬物×時間の交互作用で有意差を得ました。 具体的にどの時間で薬物による有意差がみられるか検定したいのですが、Tukey-Kramer post hoc testをしてみても、薬物間の検定(偽薬と実薬の検定)あるいは時間同士での検定(例えば90分後と180分後の比較)をするだけで、特定の時間における薬剤間の検定が出来ません。 私としては、例えば90分後では薬剤の有意な効果が見られるか?、ということを知りたいのですが、どのように検定すればよいか教えていただけますでしょうか? ちなみに解析にはStatViewを使っています。 よろしくお願いいたします。

  • t検定の種類

    SPSS初心者です。単純な質問で失礼いたします。 (今留学中でして、SPSSに関する日本語の入門書の入手が難しい状況にあり、 いろいろネットで調べては見たのですが、どうもしっくりいかず、 周りにもたずねることが出来る人がいないので、ここで質問させていただきます。) 今、音響音声学の論文を書いています。 ある話者(数名)に、2つの違う単語の発音をさせ、録音しました。 その二つのデータを使ってt検定をすることによって、 発音された両者の音のある一部の性質を表す数値に有意差があるのか調べます。 この場合、 対応のあるt検定をしたらいいのでしょうか、それとも対応のないt検定になるのでしょうか。 調べたところ、「母集団が違うときは対応のないt検定」とありましたが、 同じ母集団でも、事前研究と事後研究の場合のみ対応のあるt検定を使うのでしょうか。 いまいちこの「対応のある/ない」がよくわかりません。 私のような場合、どちらを利用したらよいのでしょうか。 どなたか 簡単に教えていただけたらと思います。

  • SPSSのカイ二乗検定について

    初歩的な質問になりますがもうしわけありません。 卒論で分析をしているのですが知識がありません。 ある尺度によって分けた高群と低群の間に、質問に対する回答(質問が4つで回答が5つの選択肢からひとつを選ぶもの、のそれぞれについて)に有意な差があるかどうかを調べるために、SPSSを使ってカイ二乗検定を行いました。 結果で有意な差があるかどうかはどこを見ればよいのでしょうか。 統計の授業など取っておらず、大変初歩的な質問かと思うのですが申し訳ありません。 超文系人間で数字が苦手なので優しく教えていただけるとありがたいです。

  • 有意差検定について。

    有意差検定について。 はじめまして。 今度職場で研究発表をすることになり、統計の有意差を求める方法を調べているのですが、正直ちんぷんかんぷんな状態です。 一応有意差検定でt検定やF検定などがあるのはわかったのですが、どれを用いたらいいのかわかりません。 内容は人間ドックの便潜血検査で1日(一回)のみ検査した場合と、2日(二回)検査した場合では、2日(二回)検査したほうが陽性(+)率が高いデータが出ました。そのデータはほんとうに有意差があるかどうか?を調べています。 情けないですがほんとうにわかりません。どなたか教えていただけないでしょうか。 宜しくお願いいたします。

  • SPSS t検定 結果の解釈

    SPSSの扱いにおいては、全くの初心者です。 修士論文のために、SPSSのt検定(対応のあるt検定)をしました。 その結果として、有意水準(両側)が 5.28485671377832E-09 1.14115799842934E-06 などと表示されました。 このEはベキ数で…と言うところまでは調べたのですが、 結局、この結果が何を示すのかがわかりません。 上のような結果が出た時は、つまり、結果大きい数字だから、 有意差はないということなのでしょうか。 全くの初心者で、訳の分からない質問になっているかもしれませんが どうか どなたか 簡単に教えていただければと思います。

  • カイ2乗検定の使い方とp値について

    アンケートを行いました。 結果の考察を行うにあたり、カイ2乗検定で優位差が認められるかを知りたいと思っています。 SPSSやエクセルでカイ2乗検定をしたところ、spssの場合「漸次有意確率(両側)」に「8.89E-13」や「5.964E-27」、エクセルの場合「p値」に「7.15688E-05」などアルファベットの入った数値が出てくることが多かったです。5%や1%水準で有意差が認められるかどうかを知りたかったのですが、この数値の意味が分かりません。 この様な数値が出てくるということは、どこかがおかしいのでしょうか? p値がおかしいこともあって、そもそもカイ2乗検定でよいのかが不安になりました。 「成績」と「開始時期」で、「開始時期が早いほど成績がよい」といったようなことが見たいと思っています。 成績は11項目、開始時期は12項目あります。SPSSで集計結果のクロス集計表を作るときにカイ2乗検定も行ったところ、値が350.994、自由度が110、確率(両側)が5.964E-27でした。 「開始時期が早いほど成績がよい」という結論を導き出したいのですが、この場合「カイ2乗検定で5%水準で有意差が認められた」となったらこの結論を導き出せるのでしょうか?例えば2つの項目の比較ではなく、11×12項目のカイ2乗検定で有意差が認められた場合、何に有意な差が認められたのかがよく分かりません。 クロス集計表を作成し、グラフにしたところ、開始時期によって差がありそうなのですが、単純なパーセントの数値の大小でしか分かりません。調査結果ではなく、卒業論文なので、ただ「これは何パーセントでこれは何パーセントだった。この時期以前に始めた人の方が高い成績を回答している割合が高い」のようなことだけでいいのか…と悩んでいます。 まとまりのない文章で、質問内容も多九手申し訳ありませんが困っています。よろしくお願いします。

  • SPSS:グループ毎の度数について順位をつける方法について教えてください!

    初学者です。SPSS14.0を使用しています。 例えば、学年毎に携帯電話所有の有無を尋ねた場合、 所有者割合が学年が上がるごとに高くなることがわかりましたが それが有意に(?)高くなっているか確認するには どのように検定すればよろしいのでしょうか? 統計の基本的なことかもしれないのですが、 やや急ぎで教えていただけましたら、大変助かります。 よろしくお願いいたします。