• 締切済み

バラツキが大きすぎたデータの処理

泣きたいです。 誰か助けていただけるかたいませんか。 統計処理を勉強し直し中ですが、今までの実験データの変動係数(CV)を計算してみたら、大きい方で40%にまで達してしまっています。 一年あまりも取り組んで集めてきたデータです。 どういう風に処理(?)、或いは解釈すれば良いでしょうか。 もしかして、0からやり直すしかないかと思うと、時間もないし、おしまいです.......

  • 農学
  • 回答数8
  • ありがとう数14

みんなの回答

  • Oxalis
  • ベストアンサー率52% (179/338)
回答No.8

人工気象機での栽培結果ならまだ理解できますが・・・・ 今いえること。 ・特定要因のみの違いならCVの必要性はありません。 ・一気に時系列の分析手法を使うのではなく、個々に統計解析をしてください。 (試験が読みきれないのですが、まさか、A区、B区の処理期間は一緒なのでしょうから) ・なぜサンプリング数が最小で5個なんでしょう?統計処理をするなら20は必要、マキシマムでも10 (つい最近、課題研究でサンプリング数5個で処理してきた学生にだめだしをしました。 どうも何回か書いた自由度はご理解なされないような・・・) とにかく学生さんならここでどうのこうの言うより指導教官と相談してください。 (統計処理に対する質問というより、すでに論文のまとめ方の範疇です。)

  • Oxalis
  • ベストアンサー率52% (179/338)
回答No.7

ごめんなさい。 何をしたいのか・・・何と何を比較したいのかまったくわからない。 データの記載なんですが・・・・ 同時期に生育した2つの区を見るのでは無くて、別々の時期に作物を育てたデータ比較 なのでしょうか? 統計学は基本的に特定条件のみ異にした2群の比較が基本です。 多変量とか多重分析でやらないで2つの群で同一時期に栽培したものを分散分析してみなさいと アドバイスしようとしたのですが・・・・ やり方が読めません。 (そもそも担当教官(?)と実験設計を検討しましたか?) それも平均を比較しているし・・・

ranranl
質問者

補足

>何と何を比較したいのか Aとb 二つの処理により作物のある成分がどういう経過で、どう変動するのかを見るものです。 >同時期に生育した2つの区を見るのでは無くて、別々の時期に作物を育てたデータ比較 なのでしょうか? 同時期に育てたものに同時に二通りの処理するのがベストですが、条件の制限もあるし、同時だと二つの処理はお互いに干渉されるので、別々の時期に行うしかありませんでした。ただ、生育条件はきちんとしていて、温度など外界の干渉を殆ど受けません。 作物を対象とした実験ではこんなふうに処理するのが良くある事だと思い込んでいました。

  • Oxalis
  • ベストアンサー率52% (179/338)
回答No.6

自分の学生だったら一言、まともな設計しないで実験計画を組むからだ! と一喝してしまうのですが・・・ まず、どんなデータをどのように処理しましたか? 比較した元データとサンプル数 CVを使ったのであれば、平均値が違うものの比較ですよね? 平均値が異なるもの同士の散らばりを比較するには標準偏差をそのまま用いたのでは 効果がない。標準偏差を算術平均値で割る必要がある。こうして求めた相対的散布度 を変動係数といい CV で示す。 生物統計学で気をつけさせているのは実験計画を組む段階で ・サンプリング数とサンプル方法は良く考える。 ・実験前にデータが予測できないものは統計処理は出来ない。 (極論ですが・・・・) 苦言を言えば、「まともに統計が理解できなくてもパソコンが処理してしまうから 理解していなくても統計処理を使う学生が多い。」恩師の言葉でした。

ranranl
質問者

お礼

>一喝してしまうのですが・・・ まさに一喝されてしまわれるものです。が、早速内容補足をさせていただきます。       実験日 処理前 1週間後 2週間後 3週間後   一回目 1月  10 10 10 8 A処理区   二回目 2月 10 10 10 5   合計 20 20   20 13   一回目 4月  10 15   15 15 A処理区   二回目 5月 10 15   13 13   合計 20 30   28 28 表中の数字は分析した本数です。一本から一個のデータが取れます(比較する成分)。n=13-30 A区で、処理前と処理後の平均値a0,a1,a2,a3,(Mean±SE、n=13-20)をTukeyの多重比較を行いました。作物は切り取って分析するので、対応ないと見なした。 B区で、b0,b1,b2,b3(Mean±SE、n=20-30)を多重比較しました。 両区の間はa1とb1をa2とb2をそれぞれ(一元配置分散分析を行い分散が等しいかどうか判断してから)t検定を行いました。 実は、CVだけではなく、この検定方法も問題ないかと不安です。

  • ESE_SE
  • ベストアンサー率34% (157/458)
回答No.5

処理方法について何も語られていないところをみると線形分布として処理されているのだと思いますが、 どういったデータとの相関を取られていますか? 相関を取るデータは別のものの方が良い、理屈で考えて指数関数の方が良い、なんてことはありませんか? 当方統計学は10年以上前に単位取りのために学んだだけですので これ以上の回答は出来ませんが・・・。 ちなみに農業の経験(実家が農家です)から言わせていただくと、 田畑の端か真ん中か、だけでも害虫・害鳥の被害が違うので 一株単位で比較するのは意味無いんじゃないか、と思います。

  • nrb
  • ベストアンサー率31% (2227/7020)
回答No.4

作物ならばバラつきがでるのが当たり前です 同じ作物1つ1つ微妙に遺伝子が違うので良く効くのもあれば効かないのもあります そのまま処理しても問題無いです 毎回数本を任意に選択 単にサンプル数の不足によるバラつきです 個体サンプル本数が少ないだけの話です これが数百本あれはほぼ正確な傾向はでますが この前段階のサンプル研究ですから大まかな傾向が判れば良いのです 傾向から本格的に研究する必要性があるのか無いのかが重要なことです これを判断するですね

ranranl
質問者

お礼

再びご回答ありがとうございます。 急いで読ませていただきました。 とりあえずほっとしています(ちょっとだけだけど)。 すべての実験を0からやり直すしかないとなると、正直、いろんな意味で無理です。 もう一つ良かったら教えてください。 >単にサンプル数の不足によるバラつきです きちんとした研究者でしたら、(学術誌に投稿するレベル)このサンプル数をどれぐらいにしなきゃいけない等のラインとかあるでしょうか。 また、極端に外れた値はやはり検定をした上で外すかどうかを判断し、データを処理し直すべきだと思われますでしょうか。 よろしく御願いします。

  • nrb
  • ベストアンサー率31% (2227/7020)
回答No.3

統計処理以前の問題です バラつき大きい原因は ミスがどこかにあるからです ・補正処理のしわすれ ・測定環境が毎回変わる ・使う測定器の誤差が大きい物を使用している ・使う測定器が毎回違う ・測定器が壊れている(校正がされてない) ・測定器の取り扱いミス ・人為的なミス   測定レンジを間違えて読む   記載ミス    ・正しい測定方法をしてない ・サンプル事態の取出しが不適切 ・ノイズの測定など誤測定 など沢山あります とんでもないデータが数%ならばこれは測定ミスをして処理するしか無いですね 他には 温度補正を掛ける必要があるのに抜けている などもありますね 回答願います 何を測定したんですか どんなふうに データ分布はどうなってます 以上即答宜しくです

ranranl
質問者

お礼

早速のご回答ありがとうございます。 特に機械を使ってのデータではなく、化学分析して得られたデーターです。 インキュベートに育てた作物に、AとBの二種類の処理を行い、作物のTTという成分変動に及ぼす影響の違いを見ました。 栽培は数回行い、毎回数本を任意に選択し、処理を行いました。栽培環境はきちんとしていたとおみます。当初からデータのバラツキに気になっていたが、作物だし、処理も違うし、特にどうかしようとしませんでした。 たった今統計の本を読んで、著しく小さかったり大きかったりしたデータは標本から外せる?とかいてあります。 とにかく混乱しています。

  • Cupper
  • ベストアンサー率32% (2123/6444)
回答No.2

結果を決め込んでのデータ取りでしたか… 得てしてそんな結果が待っているもんです データをそのまま受け入れることをお奨めします 変動係数が大きいのであれば、そのデータを取得した時間/日時を含めて、その前後で起きている事象を考察すればOK 「本来、こうならなければいけない」と分かっているならば、意図しないデータが取得されたことを喜ぶべきです とても貴重なデータですよ

ranranl
質問者

お礼

早速のご回答ありがとうございます。 たしかに或る程度は予測した結果通りのデータだったんです。 ただ、バラツキは大きかったのは気にはなっていたが、統計的な処理がきちんと行われていなかったため、そのまま結論を出してしまいまい、主張してしまっています。 今になり、もうどうしようもない悔しい気持ちです。はやく勉強していれば......

回答No.1

ある個所だけであれば、測定方法の間違い。 特定個所以降であれば、上記に加えて、何らかの環境変化(農学だから)があった。 但し、後者の場合にはそれを立証する必要がある。

関連するQ&A

  • 分析器の精度CV2%と精度±2%はどう違うか。

    分析装置の仕様に精度CV(変動係数=標準偏差/平均値)が2%で直線性が±2%となっています。CV2%は±2%よりは精度がいいのでしょうか。あるいはどの様に解釈すればいいのでしょうか。統計学に強い人よろしくお願いします。

  • 試験データを統計学で処理したいのですが

    私は一種の臨床系の仕事をしているのですが、ある試験の データから「標準偏差」「変動係数」「Zスコア」を算出 することになりました。しかし、それぞれの計算式は知っ ているのですが、それらの意味がまったくわからないため 膨大なデータのどの数値を使って計算を行えばよいのか、 算出された値をどう評価すればいいかがわかりません。 私自身は高卒の、それも数(1)も終了していない学力なので す。どなたか「中学生でもわかる統計学」を私に教授して いただけないでしょうか?

  • 変動係数の評価と検定

    変動係数について質問させて下さい。 統計の初心者ですので、とんちんかんな事を聞いているかも知れませんが、そこはお許し頂きたいと思います。 今回教えていただきたいのは、変動係数についてです。 データの基本統計値を見ると、その中には簡単な物からわからない物がありました。 特に、変動係数(CV)に付いてはどう考えたらよいのかわかりません。 色々、調べてみると、計算式から考えて、標準偏差を平均で割っているので、各群から得られた平均値を単一にそろえてばらつきを見ている。 (代数幾何のベクトルで言うと単位ベクトル化していると判断しました) Wikipediaでは相対的なばらつきと書いてあり、何となくわかった感じがします。 例えば、ある2群の生データ(それぞれ100個ずつ)があるとします。 Aの平均は500、S.D.は25とします。 Bの平均は400、S.D.は18とします。 A、Bの変動係数はそれぞれAが0.05、Bが0.045になります。 ここでAにはある余分な因子が含まれているので、それを除いて加工したとします。つまり、100個の生データから個々に50を引いたとします。 当然、S.D.は変わらないと思うので、25のままで平均が450になります。 そうなると、変動係数は0.056となり若干大きくなりました。 生データではAとBは近い値なのに、Aを補正した場合に得られる変動係数は大きくなるためAとBが遠のいてしまいます。 こうなった場合は、どちらが良いのか、評価が難しくなります。 また、変動係数の検定は、どうしたらよいのでしょうか? ちなみに、インターネットで青木先生のサイトを見つけて、見ようと思ったのですが、つながらないために、この場で教えていただければと思います。 難しい統計言語はなかなか解釈が出来ない時があります。 お手数おかけしますが、出来るだけかみ砕いて教えていただけると大変ありがたいので、よろしくお願い申し上げます。

  • pHの平均値は出せない?統計処理はできない?

     ある実験をして(A処理、B処理)pH値データを得ました。それぞれ平均値を出してさらに有意差検定をおこないました。ところが、指導者から対数表現しているpHは単純に算術平均や統計処理をしてはならないと言われました。例えば、A処理:5.5~6.2、B処理:5.3~7.4と表現するのが適当で、統計処理もしない方がいいとのことでした。  では、pHで平均値を得たいときにはどうしたらよいのでしょうか?逆算して計算すべきなのでしょうか。また、本実験の場合、A処理の方が低い(と思われる)データを得たので、「有意に」低いと言いたいのですが、統計処理をするにはどうしたらよいのでしょうか。ご存知の方、お教え下さい。

  • 実時間処理ってなんですか?

    実時間処理の意味を教えてください。 自分の解釈では、コンピュータにデータを入力した瞬間に データの処理と計算がほぼ同時に進行すること、、、という ふうに思っていますが、曖昧でよくわかりません。 つまり、計算するまえになんらかのデータの生成という 過程があるということでしょうか? よろしくお願いします。

  • ExcelでCVを計算するには

    Excelを使ってCV(変動係数)を計算するにはどうすればいいのでしょうか。

  • 統計処理について

    統計処理について質問があります. 今実験データで3条件で各パラメータを変えたときの実験を行っています.A:4条件×B;4条件×C:3条件の合計48条件の各条件につき10試行ずつ行い,あり/なしの2条件で回答を得ております. その場合,どのような統計処理が望ましいのかがわかりません. 何かいいサイトがあればお教えください. 処理に使うソフトウェアはSPSSです. 宜しくお願い致します.

  • グループ内のばらつきの統計処理について教えてください。

    こんにちは、はじめて質問させていただきます。 現在、卒論でデータのまとめをしているのですが、統計処理の方法が分からなくて困っています。内容は以下のものです。 何人かの子どもで構成されているグループがたくさん有ります。 それらのグループそれぞれにお菓子をあげました。あげたお菓子の数はグループによってバラバラです。 すると、グループ内の子ども間で、お菓子を獲得した個数に差があるように見えました。 例えば、5人組のグループにお菓子を10個あげた場合、5人全員が2個ずつ均等に分けてお菓子を食べるのでなく、1人が8個、他の1人が2個で後は全員お菓子なしというグループも有りました。 しかし、均等に2個ずつ分けられていたグループも存在しましたので、しっかりとした統計処理なしで差があるとはいえません。 そして、この調査は、東京と大阪の2箇所で行われました。 ここで、東京と大阪で、グループ内の個人によってお菓子の獲得量に差があるのか調べるために統計処理を行いたいと考えています。 私は統計学が苦手で、今回このような場に質問させていただきました。 どうかこの問題が分かる方、御知恵を貸していただけませんでしょうか。 お願いします。

  • 統計データ処理

    質問の場所がわからなかったので場違いであればすみません 統計データ処理に関する簡単なHP知ってる方教えてください  学校の授業で習ってるのですが教科書見てもまったくわかりません よろしくお願いします

  • 処理が終わったり終わらなかったり。

    処理が終わったり終わらなかったり。 SQLServerの統計情報や実行計画に関してその挙動の 理解に苦しんでいます。 もし解決のヒントがいただけたらと思い、質問しました。 よろしくお願いします。 使用しているOSはWindows2008Server x64です。 DBはSQLServer2008 EEを用いています。 サーバー機はXeon 2.93MHz QuadCore×2です。 メモリは32GBで、うち20GBをSQLServerに使用させています。 javaのアプリケーション内でJDBCでDBアクセスしています。 処理は (1)3000万件程度のデータをメモリ上へ (2)計算処理してファイルへ (3)ファイルをDBへBulkInsert というもので、Javaのほうで8並列処理を行わせています。 この処理がどういうわけか(1)のところで動いたりとまったりします。 (止まっているというよりは、極端に遅くなっているというのが 正確かもしれません。) 経験則としては ・大量データを流す前に少量データで疎通を取った場合にとまる。 ・大量データ→大量データではとまらない。 ・止まったあと、一度スレッドをとめて統計情報を更新後、再度処理を流すと止まらない というようなものがあります。 利用状況モニタを見ると、 I/O Completion というものが非常に長い時間処理しており、 なぜ状況によってこの処理時間が延びるのかがわかりません。 また、統計情報を更新したといっても、実行計画が殆ど変わらない場合もあります。 ただ、実行計画が殆ど変わらない(xmlにしてDIFFを取ると1行しか変わらない。)場合も、 再実行すると正常時間で処理が終了します。 何かお気づきの点がありましたら、是非ご教授ください。