データを増やす方法とは?

このQ&Aのポイント
  • データ数を増やすための方法を考えていますが、いくつかの問題にぶつかっています。実験計画法を使った論文集からデータを取得してデータベース化し、データマイニングソフトにかけるという方法を試してみましたが、データ数が足りずに信憑性がない結果になってしまいました。
  • 次に考えた方法は、ある実験例のデータを変えたり数倍にしたりして、データ数を1000以上作るというものです。しかし、この方法では私が手を加えたデータになってしまうため、意味がないと感じています。
  • ソフトにかけられるくらいのデータ数を増やしてから解析し、検証することで、データの意味を保ったまま増やすことは可能ですか?
回答を見る
  • ベストアンサー

データを増やすには?

卒論の事で悩んでいます。以前にも質問しましたが、 新たな問題がでてきてしまいました。 以前の質問はこれです↓ http://oshiete1.goo.ne.jp/kotaeru.php3?q=377694  というのも、考えてみたのは「今まで実験計画法を用いて実験を した論文集の中から、データをもってきて、それをデータベース化して データマイニングソフトとかにかければいいのでは??」と思ってやってみたんですが、 使おうと思ったデータマイニングソフト大体が、最低でもデータ数が 1000以上必要と書いていました。論文集学校にあるだけみてもそんな データ数がないので、ソフトにかけても、信憑性がないことになります。 (もしくはエラーとかでちゃったし(>_<))  で、次に考えたのは、「だったら、ある一つの実験例のデータを (例えば、制御因子とか誤差因子とか、もしくはそれに付随する水準とか・・)を、変えたり、数倍にしたりして、データ数を1000以上作れば いいじゃん!!」と、思ったんですが・・・。 こんな方法をとっても、私が結局いじったデータになるので意味がないような 気がします。  データをソフトにかけられるくらいの数を、解析後、検証しても意味があるまま増やす事はできますか?

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

意味のある独立なデータを既存のデータより創ることができるのならば、実験によりデータをとる必要性が無いことになります。 よって、新たな意味のあるデータを増やすことはできないはずです。 しかし、単にデータ解析ソフトの仕様上データが必要であるのなら、単に同じデータを新たなデータとして入力したら如何ですか?この際、追加入力するデータは全データとする必要性があると思います。(即ち、全データを今の2倍、3倍、...とする) 解析のために新たな独立したデータが必要である場合には、実験を更にするしかないでしょうけど......

yuko0420
質問者

お礼

そうですかー。 ありがとうございました。

関連するQ&A

  • Excelマクロでのデータ全通り組み合わせ出力方法

    Excelマクロでのデータ全通り組み合わせ出力方法 VBA初心者です。以下の内容につき教えて頂けますと助かります。 添付ファイルの【因子/水準表】データの全組み合わせを【全通り組み合わせ表】に出力したいです。 以下にやりたいことを纏めます。 ・【因子/水準表】データ(因子/水準)の全組み合わせを【全通り組み合わせ表】に出力したい。 ・【因子/水準表】と【全通り組み合わせ表】は同一シート内で列を合わせたい。 ・因子数、水準数は可変としたい。(添付ファイルでは因子数3、水準数の最大は4となっているが、この数が可変となるため、【全通り組み合わせ表】の開始セルも併せて可変となる) 以上、よろしくお願いいたします。

  • L9直交表の割り付けについて!

    L9直交表を用いた実験を計画しているのですが、 因子の割り付け方について、 参考書等では2因子(2因子×3水準+交互作用)までしか割り付けられないとあります。 しかし、ネットで調べてみると、 「3因子×3水準+誤差」や「4因子×3水準」まで割り付けられるとの記載が見受けられました。 実際はどちらが正しいのでしょうか。 統計については全くの初心者で、参考書を見ながらやっております。。 経験者やお詳しい方、いらっしゃいましたら是非ご教授ください!

  • 異なる水準数の直交表への割付方法

    実験計画法における直交表への割付方法に関する質問です。 4水準・4水準・2水準・3水準の因子を持つものを実験計画に基づいて進めようと思っています。 この場合、直交表への割付はどのようにしたらよいのでしょうか? これまでL27等の割付の経験はあるのですが、このように水準数が異なる因子を持つ場合、どのように割付をしたらよいのかよくわかりません。 そもそも初心者で理解出来ていない部分が多いのですが、以前にL27への割付をした際には、最初にL27というものを設定し、それに対して各因子の3水準を決めました。今回の場合は、この水準で実験したい、というものを先に決めたので、このように水準数が異なる結果となりました。こうしたやり方は間違っていませんでしょうか?

  • 実験の水準とか因子とかってどうやって決めるの?

     主に機械工学的な実験とかでなんですが、実験計画法を用いて実験すると、 因子とか水準値とかってありますよね。あれってどうやって値なり対象を決めてるんですか?経験によるものから対象物や水準値を決めてるんですか?  実は、卒論のテーマが実験のこうした部分を決める作業を自動化するというような課題になってしまったんですが、個人的には経験的なものが大きいような気がするので、どうやって経験的なものを自動化するのか→数値に置き換えてデータとして扱えるのか。に困っています。そんなことって可能ですか?

  • 実測データからの誤差を求めるためのサンプル数とその方法

    マンセル色票と呼ばれる、1600色のデータの分光特性を調べようと思っております。それを基本データとし、ある実測データの解析を行う予定です。 しかし、1600と数が多く、すべてを調べるのは不可能なので、以前に実測したデータや、公表されているデータを使いたいと考えていますが、実験環境が同じとは限りません。 そこで、いくつかサンプルを抽出して実測し、誤差何%、よって、実測データの解析結果の誤差何%、という最終結果を得たいと思っています。 質問は、 ・どれくらいの数のサンプルを、どうやって抽出すればよいか ・誤差と許容範囲の計算方法 以上を教えてください。よろしくお願いいたします。

  • 分散分析で有意差が確認された場合、データの水準を解析範囲から外して再解析を行うことは駄目ですか?

    統計初心者の一人です。ご指導宜しくお願いします。基本的な質問で恐縮ですが、2元配置の分散分析で有意差が確認された場合、他と異なるデータの水準を解析範囲から外して再解析を行うことは統計上問題ですか? 分散統計で要因の一つを操作因子、もう一つは濃度因子にした2元配置の分散分析を行なっております。その結果、操作因子並びに濃度因子共に「有意差」が確認されました。 このため、元のデータの範囲設定を変更し、影響のありそうな操作因子や濃度水準を分散分析の計算範囲から除外して再計算を行なってみました。そうしたところ「有意差ありとはいえない」との結果が得られました。当然、信頼限界を計算してそれから有意な濃度範囲を求めることも行っています。 この結果をもとに報告書に実験の操作要因と影響する濃度の範囲として考察に加えようと考えていますが、この考えは統計的な観点からは邪道な考えでしょうか?もともと実験計画はR.Aフッシャーの3原則の一つである実験番号の割り当ての無作為化(ランダムに実験番号を割り付ける)が基本であるので、この様な解析はその考え方から逸脱するため意味を持たないかとも思っていますが、本当に駄目なのでしょうか? 理由を含めご教授願いたく宜しくお願い致します。レベルを下げて具体的にご教授願えれば幸いです。 <例> Data 水準-1 水準-2 水準-3 SampleA n=1 24 24 22 n=2 25 24 22 n=3 25 24 22 SampleB n=1 25 24 22 n=2 25 25 25 n=3 25 25 25 SampleC n=1 21 20 17 n=2 21 20 17 n=3 21 20 17 分散分析・・・Sample間(濃度)、水準間(条件)で有意水準5%で有意差あり →ここで、濃度、水準がどの範囲まで影響しているかを確認するために、下記のよ うにデータ範囲を変更して再解析 Data 水準-1 水準-2 SampleA n=1 24 24 n=2 25 24 n=3 25 24 SampleB n=1 25 24 n=2 25 25 n=3 25 25 分散分析 有意差なし 以上です。

  • 実験計画/水準の割り付け方

    品質工学初心者です。 工程で不具合が発生し、原因の特定に難航しています。 原因を特定しないまま、工程を動かし続ける訳には行かず、何とか原因を 特定したく、実験計画(L18直交表)を用いた再現実験を考えています。 因子および水準を検討した結果、因子が3つの水準が2因子が2水準、 残り一つが3水準です。 L18直交表の場合、2水準の因子が2つ以上ある場合は、余った因子列の 3水準目にダミーとして第一水準または第2水準を重要度またはコスト を勘案して任意で割り付け良いと参考書に記載されていたのですが、 これでは重複する条件が何項目か出るかと思います。 この場合、重複する箇所は省いて実験をすれば良いのでしょうか。 もしこの考え方が間違っているようであれば、最適な実験計画方法を アドバイス頂けると幸いです。

  • 実験データについて(パソコンを使って)

    最近怖いなと思うのがパソコンで実験データを扱うことです。 僕の研究テーマ的に実験メインになるので今はプログラミングしたり実験環境を整えているのですがパソコンというものが信じられない自分がいます。0.5秒ごとに数値を取る実験でパソコンは取った数値をエクセルに入れてくれたり便利ですが、いつもこの数値は正しいのかという疑問を持ちます。他の人は「パソコンだから正しい」という思い込みがあるのでデータを自分の目で確かめない人が多いことにきずきました。去年の人の卒論では明らかに数値が間違っていて役に立たない論文がありました。 できたらパソコンは使いたくないから自分で電卓をたたいて実験をしたいのですが時間の都合上それは不可能といわれました。 頭から離れないのは耐震偽装問題のようにパソコンが構造計算したのだから大丈夫だという人間の心理です。昔のようにパソコンなんか無い時代には考えられないことですよね。 卒論は企業や他大学との共同研究みたいな感じなので中途半端な論文や、捏造データが発覚したら笑えない状況に陥ります。 また修士へとつながる論文を書きたいと思います。 パソコンというものを信頼して実験するしかないのでしょうか?なにかアドバイスをください。

  • 適切な統計方法を教えてください!

    卒論で困っています。 分割表で横軸に6個の病原因子、縦軸に下痢の頻度(0、1-5、5以上)をしらべて表にしました。 それぞれの病原因子と下痢の頻度に差があるかどうかを調べたく思っています(これ自体は意味がありますよね、、?) この場合、どのような解析方法が最適なのでしょうか? 似たような論文では、代表的な病原因子2個だけをピックアップして比べているものはみつかったのですが、全部まとめて差があると言うにはKrascal-Wallisでできるものでしょうか? 教えてください。

  • 周期的に変化するデータの解析

    卒業論文であるデータが取れたのですが統計的な分析をするにあたり困っています 解析方法に関していい方法があれば教えてください ある実験をして2つのデータが取れました.それぞれ f_1(x) = sin x + 0.1 f_2(x) = sin x + 0.2 に誤差を加えたような離散値のデータです(5周期分,200点弱) この0.1と0.2の差が大事なので,統計的にしっかりした方法で示したいです 平均をとれば0.1と0.2ほどになるのですが,どのように誤差を評価したらいいでしょうか もともと一定になればいいものでもないのでそのまま標準誤差を使うのも間違っている気がします よろしくお願いします