• ベストアンサー

試験データを統計学で処理したいのですが

私は一種の臨床系の仕事をしているのですが、ある試験の データから「標準偏差」「変動係数」「Zスコア」を算出 することになりました。しかし、それぞれの計算式は知っ ているのですが、それらの意味がまったくわからないため 膨大なデータのどの数値を使って計算を行えばよいのか、 算出された値をどう評価すればいいかがわかりません。 私自身は高卒の、それも数(1)も終了していない学力なので す。どなたか「中学生でもわかる統計学」を私に教授して いただけないでしょうか?

  • 1zou
  • お礼率88% (16/18)

質問者が選んだベストアンサー

  • ベストアンサー
  • kawakawa
  • ベストアンサー率41% (1452/3497)
回答No.1

統計学の書物を読んでも、専門用語や独特の言い回しが多く、非常に理解しにくいものですよネ。 標準偏差というのは、データのグループ全体でのバラツキを示すものと考えればよいでしょうネ。標準偏差が大きいほど、データのバラツキが大きいということです。標準偏差の3倍を平均値に加えたものと、平均値から引いたものの範囲に通常97%のデータが入ると考えます。これは、実際に得られたデータは、例えば、15,18,20,23,28といった数値であったとき、これは個々の点としての数値ではなく、15~28の範囲に分布している数値グループであると考えるからなのです。血液検査の正常値などはこの数値幅ですネ。 変動係数は標準偏差が平均値の何%を占めるかということで、客観的に標準偏差の大きさを示すものです。動物実験や臨床試験では、標準偏差の値が平均値よりも大きくなり、変動係数が100%を超えることも珍しくありません。とんでもなく大きな数値が出ても、驚かないで、過去の同様のデータを参照されるのがよいでしょうネ。 Zスコアはデータと平均値の差の間に標準偏差値がいくつ入るかというものですネ。標準偏差や変動係数は得られたデータグループ全体の傾向を見るものですが、それに対して、このZスコアは個々のデータがグループ内で、どのような位置付けになるかを知ることができるものです。偏差値や知能指数はこのZスコアの応用ですネ。 ご理解いただけましたでしょうか? 以上kawakawaでした

1zou
質問者

補足

ご返答ありがとうございました。 おかげさまで「なんとなく・・・」分かったような気がします。この連休中にちょっと数字と格闘してみることにします。今までは手も足も出なかったものですから。 Zスコアについてなのですが、手元の資料に「2以下であれば合格」という記述があるのですが、これはたとえば 「-3」でも合格なのでしょうか?それとも絶対値で「-2~+2の範囲」を合格とするのでしょうか? すみません、良く分からない質問で。 ご意見を聞かせていただけるとうれしいです。

その他の回答 (4)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.5

 統計処理は手段に過ぎません。何を知りたいのか、何を証明したいのか、その仮説を明確にすることが最も重要です。初めは漠然とした仮説しか出来ませんが、データをいろいろな条件別に分類してヒストグラムでプロットしてみたり、二つのスコア(湿度と収量のような)を散布図にしてみたりして、何か「単なるランダム変動ではない法則性のようなもの」を探す作業が必要です。何らかの目的があってデータを取ったのでしょうから、狙いも必然的に絞られる筈です。こうして、考えを洗練して幾つか明確な仮説を作ります。(「項目Aと項目Bは無関係である」「項目Aと項目Cは比例関係A = a B + b である」というような仮説ですね。)  仮説が出来たら、これを検定する。単なる偶然なのか、本当に関係があるのかを統計的に判定する訳です。なお医療分野ではごく少ないデータから尤もらしいことを述べる必要が生じるので、色々な難しい統計理論を適用することが多いのですが、あんまり感心しません。むしろ比較的簡単な理論をきちんと適用することが重要です。具体的処理方法については、再度質問されたら良いでしょう。  さて、解析の結果を念頭に置いて再びグラフなどを描いてみると、新しい仮説に思い至ったり、場合によってはデータを取る項目やデータの取り方を変更する必要が生じることもあります。例えば、A = a B + b という仮説の係数a,bが分かったとすると、(a B + b - A)をプロットしてみることで、より精密な仮説が出てくるかも知れません。それを検証するには、データをもっと定期的に取らなくちゃ、ということも起こる。  ともかく、まずはデータをExcelか何かできちんと整理し、記録することですね。手入力は間違えやすいので、二人で読み合わせを行います。また一見どうでも良いような付帯データでも、貴重な情報を含む場合があるので、できるだけコード化して入力しておくことがお勧めです。(これはkawakawa教授が既に仰ってますね。)

1zou
質問者

お礼

再々ありがとうございます。 なるほど、仮説や目的が明確でないと意味がないわけですね(当たり前でしょうが)。 おかげ様で、「標準偏差」等が何を意味するのか、どう利用できるかが漠然とはしていますが、分かったような気がします。目的を正確に把握して統計学を利用できるよう、がんばります。 おかげ様でなんとか報告書が作成できそうです。 本当にありがとうございました。 また、どうにもならない時はよろしくお願いします。

  • kawakawa
  • ベストアンサー率41% (1452/3497)
回答No.4

再登場です。補足を拝見しました。 Zスコアは正の数であれば、データの方が平均値より上にあるということで、負の数であれば、データは平均値に満たないということですよネ。 ということは、個々のデータが理論値に近い場所でまとまっていることを期待する実験などの場合、絶対値で捉えられるのがよいということになります。ただし、評価自体は正か負かを念頭に考えなければ、そのデータのグループ内での位置付けがわからなくなりますから記録はきちんと残しましょうネ。 補足も拝見しました。 方法としては、製造日毎、或いはロット毎、バッチ毎の生産量をグラフにプロットしていきます。そしてそのグラフには理論収量を中心に標準偏差の3倍幅の上下の幅を持たせた範囲を示します。そして、全データがその範囲内に入っていれば、とりあえず統計的には現在の生産方法で97%の精度を保っていることが確認できます。 また、機械毎、作業員毎、曜日毎、天候毎などの様々なグループ分けをして、それぞれについて同じように処理します。そうすると、条件による変動という重要なデータを得ることができるようになります。本来はここから『検定』を行っていくのですが、まずは、この段階をこなすことでしょうネ。 今はエクセルを使えば、簡単に処理できますので、データ入力と、それに附随する項目の設定に全てがかかっています。 たくさんの生データは本当は宝の山なんですヨ。様々な処理を施して、解析を命じた上司を驚かせてください。 頑張ってくださいネ。 以上kawakawaでした

1zou
質問者

お礼

再々ありがとうございます。 具体的に説明していただけたおかげでなんとか行動を起こす(計算する)段階まで、たどり着けそうです。 会社である以上、時間に余裕があるわけではないですが、自分なりに精一杯努力して、報告書を提出して、出来れば来年以降の叩き台を作成できればと思います。 また、壁に突き当たった時にはアドバイスいただけると感謝感激!です。 本当に助かりました。ありがとうございました。

noname#211914
noname#211914
回答No.3

kawakawa教授の丁寧な回答がありますので、体験談(??)を少し・・・。 小生も学校卒業してから初めて統計処理を学び、大変苦労しました(笑)??でも、繰り返し実際問題に当たって周囲の先輩に教えを請っていかれることしかないと思います。焦らずに1歩ずつ学ばれる事をお勧めします。 初歩的な統計の本は勉強されている事と思いますが、他の質問でも紹介したのですが、必要であれば補足お願いします。

1zou
質問者

お礼

ご返答ありがとうございました。 お恥ずかしい話、我が職場でこのようなデータ処理をするのは初めての試みでして、何をするにしても手探りの状態です。 でも、ご指摘のように焦らず学習してひとつひとつこなしていこうと思います。 本については、検索をかけた際に参考にさせて頂きました。また、つまずいた時にはよろしくお願いします。 ありがとうございました。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

> それぞれの計算式は知っているのですが、 > 膨大なデータのどの数値を使って計算を行えばよいのか 「どの数値」というところに引っかかりました。どうやら単にデータが渡されただけ、というのではないご様子ですね。計算式が分かっていながら計算が出来ない理由は、そこにあるのでは? もう少し具体的な状況を補足なさってはいかがでしょうか。

1zou
質問者

補足

ご返答ありがとうございました。 お言葉に甘えて補足させていただきます。 例え話なのですが、Aの機械に1キロの原料を入れた場合、製造される製品は800グラムであると理論上はわかっているのですが、実際の製造工程において、毎回800グラム製造されるわけではなく、750であったり、830であったり・・・です。このようなデータを何百と渡され、単純な回収率でなく統計として処理する、というのが現在の状況です。 こんなにたくさんの数字に囲まれるのは初めてですよ。 関数電卓さえ持ってない人間なのに(笑)。

関連するQ&A

  • バラツキが大きすぎたデータの処理

    泣きたいです。 誰か助けていただけるかたいませんか。 統計処理を勉強し直し中ですが、今までの実験データの変動係数(CV)を計算してみたら、大きい方で40%にまで達してしまっています。 一年あまりも取り組んで集めてきたデータです。 どういう風に処理(?)、或いは解釈すれば良いでしょうか。 もしかして、0からやり直すしかないかと思うと、時間もないし、おしまいです.......

  • 統計解析の平均値

    お世話になります。統計学の初心者です。 あるデータの解析を実施しようと思うのですが、 例えば一週間分のカロリーの平均値を人毎に算出して、 12週間の傾向を観察したいのですが、1週間のカロリーの平均を計る際、1日食べなかった人や飲み会などに参加してしまい、平均値の変動(参考にならない数値結果)があるため、その人の平均値が大きく変動してしまいます。除外するには除外するデータが多すぎて困っています。 平均値の算出方法として食事を摂らなかった人や計算値が大きすぎる人をうまく考慮した平均値の計算方法はあるのでしょうか?

  • クロスチェックの統計処理について

    シロップに試薬A及び試薬Bをそれぞれ濃度がC1、C2になるように添加し、均一性を確認したものを試料として5つの検査機関に配布しました。 それぞれ5回の併行試験を実施してもらったデータのとりまとめ方について御教示ください。 当方が実施した統計処理は、標本平均、標本標準偏差、変動係数、範囲、zスコア、 Xbar-R管理です。 この場合、それぞれの平均値の差を比較するのに、一元配置分散分析が使えるのでしょうか。それで有意差が生じた場合、どのように説明すればよいのでしょうか。 また、試薬Aと試薬Bの間で繰り返しのある二元配置分散分析が使えるのでしょうか。 それとも、上記の検定以外に最適な検定手法があるのでしょうか。 データのまとめ方について一般的な定法も教えて頂けるとありがたいです。 よろしくお願いします。

  • 統計データの読み取り方

    http://www.chusho.meti.go.jp/pamflet/hakusyo/h23/h23/html/k311100.html このサイトの「3)法務省「民事・訟務・人権統計年報」及び国税庁「国税庁統計年報書」による算出」 の「第3-1-5図 会社数及び設立登記件数による開廃業率」のデータなのですが、 会社開業率の算出方法はわかるのですが数値がデータと一致しません。 このデータの(注)には「会社開業率=設立登記数/前年の会社数*100」 とあるのですが当てはめても一致しません。 このデータの算出方法わかる方よろしくお願いします!

  • 統計学について

    統計学の無相関検定について 無相関検定について理解ができておらず、 どなたか教えてください。 理解できていない場所を理解したいので、 非常にまとまりがありませんが、箇条書きとしました。 番号ごとに箇条書きしたので、 番号に対応するように回答を頂けると幸いです。 よろしくお願いします。 (1)無相関検定により、帰無仮説が採択されると、相関係数の数値の大小に関係なく、一律で統計結果自体を無効にする。 (2)統計結果自体の無効とは、すなわち相関係数ゼロのことを指す。 (3)相関係数ゼロとは、すなわち無相関のことを指す。 (4)「相関の強さ」と「有意」は別個の考え方である。 (5)「相関が強いこと」=「相関係数が1または-1に近いこと」である。 (6)相関が強い場合でも、有意でない場合は、「統計自体が無効だった」ということになる。 言い換えれば、「統計結果は無相関だった」という解釈になるのだろうか? (7)相関が弱い場合で、かつ有意である場合は、「弱い相関があった」ということになる。 (8)「統計自体が無効だったこと」=無相関なのか? (9)「相関の強さが弱過ぎる」=無相関なのか? (10)相関があるという仮説の数は無限であり、相関が無いという仮説の数は1つである。 11.相関係数がゼロであることは、無相関検定をやること以外の方法では生じない。 つまり、変数が2つのとき「偏差積の平均÷標準偏差X÷標準偏差Y」の計算結果によって、相関係数がゼロという答えが出ることはない。(無相関検定をやる前から無相関であるという答えが導き出されることはない) 非常にまとまりが無くて申し訳ありませんが、よろしくお願いします!

  • 統計学の問題についてです。

    こんにちは☆初めて質問させていただきます。大学の統計学の授業で宿題が出されたのですが(5/6提出です)、よく分からないところがあったので質問させていただきます。 分からなかったところを抜き出してみますと 「次のデータは7人のある試験の得点である。これについて以下の問いに答えて下さい。  データ;63 64 68 71 75 88 94 1.中央値を求めて下さい。 2.分散、標準偏差を求めて下さい。 3.変動係数を求めてください。 4.得点88の偏差値はいくらでしょうか。」 となります。これらの問題の考え方を教えて頂きたくて質問させていただきました。急な質問で申し訳ありません× ただ苦手な課題なのでなるべく分かりやすい言葉で教えていただけると大変助かります。どうかよろしくお願い致します。読んで下さり、有難うございました。長々と失礼致しましたm(_ _)m

  • 統計の計算ができません・・・!!!

    至急お願いします!統計分かる方! 四苦八苦してます・・ (1) データB 13.5.7.7.9.10 最大値に対応する10の偏差値を計算しなさい (2) P(0≦Z≦0.50)=0.1915 P(0≦Z≦1.00)=0.3413 P(-∞≦Z≦∞)は何でしょう (3) N(10,16)からサンプルを40個抽出した場合 その標本平均に関する標準誤差を計算しなさい よろしくおねがいします!!!! この質問に補足する

  • コイントスの偏りをあらわす統計は?

    統計の手法で悩んでいます。 10回コインを投げたとして、 (1)表表表表裏裏裏裏裏裏 (2)裏表裏表裏表裏表裏裏 (3)表表裏裏裏裏裏裏表表 の3パターンが出た場合に、 表の出る割合は(1)~(3)のいずれも40%で同じですが、 表が出る偏りは(1)、(3)、(2)の順になると思われます。 これらの偏りを比較するのに有用な統計的手法は ありませんでしょうか? 標準偏差、変動係数、Gini係数などを試してみたのですが、 いずれもうまくあてはまりません。 できればExcelで算出できる関数があればベストですが、 何かしらアドバイスがいただけますと幸いです。

  • 統計に関する疑問

    統計検定の問題なのですが、(以下問題) あるアンケート調査で,いくつかの質問をした。問1は次の形式である。 あなたは「XXX」の意見に賛成ですか,それとも反対ですか?次の1から5のうち, あてはまるもの一つを選んでその数字を○で囲んでください。 1. 賛成  2.やや賛成  3.どちらでもない  4. やや反対  5. 反対 問2は「YYY」の意見についての同様な 5 肢選択の質問である。 回答について、○で囲まれた数字コードを数値として記録した。問1について集 計した結果は,平均が 2.6,標準偏差が 0.84,問2との相関係数は 0.46 であった。と ころが,問1の質問の趣旨を踏まえれば,選択肢の数字コードを逆向きにした方が よいのではとの意見が出されたので, 「賛成」を 5,「やや賛成」を 4,「どちらでもない」を 3,「やや反対」を 2,「反対」を 1 に振り直した。この数値コードを新コードと呼ぶ。新コードに基づいた平均,標準 偏差,相関係数がどうなるかについて,次の記述 I~III がある。 I. 平均は変らない。 II. 標準偏差は変らない。 III. 相関係数は変らない。 これらの記述の正誤の組合せとして,適切なものを次の 1 ~ 5 のうちから一つ 選べ。 答えは「II のみが正しい。」 になるのですが、なぜでしょう。 平均が変われば、各変数から平均を引いて、算出する分散の値も変われば、標準偏差も変わると思うのですが。統計を勉強し始めたばかりで、わからないことばかりです。 詳しく解説していただけるとありがたいです。 出典:統計検定2級 問題より http://www.toukei-kentei.jp/about/pastpaper/2012/grade2.pdf

  • SPSSの記述統計の結果をさらに計算する方法

    現在大学4年生で、卒業論文のデータ集計のため SPSSを使用しています。 SPSSで分析⇒記述統計という流れで「平均値」と「標準偏差」 を求めることができるのですが、 私はさらにその「平均値」と「標準偏差」を合計した 数値を出したいです。 しかし、「平均値」も「標準偏差」も計算結果は出力がビューアに 出てしまうので、その数値をさらに計算することができません。 統計はかなりの初心者なので かなり初歩的な質問かと思いますが、ご存知の方 御教授お願いします。