• 締切済み

ニューラルネットワークの変数の数とサンプル数

ニューラルネットワークでは解析に用いる変数の数とサンプル数をどの程度の割合にすればよいのか、教えてください(例えば、変数:サンプル数=3:100のように)。 またその情報が記載されているHPや文献もできればお願いします。 変数の数を増やせばサンプル数も多く必要になるのは、文献などに記載されていることがあるのですが、実際の数についての記載が見つからないのでよろしくお願いします。

  • 科学
  • 回答数2
  • ありがとう数3

みんなの回答

  • goma_2000
  • ベストアンサー率48% (62/129)
回答No.2

質問者さんがどのような意味で用いられているか判りませんが、ニューラルネットワークでの変数(=自由度)とは、ニューロン間のリンク(結合加重)になります。 なので、単純に入力変数の数だけではなく、複数層の隠れ層を持つ場合は隠れ層のニューロンの数や出力層のニューロンの数にも依存します。(カテゴリ変数の数量化の仕方にももちろん依存します) 恐らく、過剰学習を問題としているのだと思いますが、一般的に変数の数とサンプル数の関係について述べられている文献は見たことがありません。 少なくとも変数の数と同じということはまずいです。 一般的には、過剰学習を問題にしているのであれば、交差検証などによって確かめられるのが確実かと思います。

  • tatsumi01
  • ベストアンサー率30% (976/3185)
回答No.1

ニューラルネットワークの「変数」って何ですか。ニューロン数のことでしょうか。ニューロン数として、全素子数か隠れ層の素子数か。それとも、入力データの次元でしょうか。

関連するQ&A

  • ニューラルネットワークの閾値について

    ほとんどの文献でシグモイド関数を用いたニューラルネットワークに閾値が含まれています。 しかし、あまりその理由について触れられていません。(あまりと言うか、見つけられなかったわけで・・・ 閾値の必要性について知りたいです。 誰か教えてください( ̄人 ̄)頼んます強い人

  • ノード数の増減するニューラルネットワーク

    今ニューラルネットワークを勉強しているのですが、ノード数の増減するニューラルネットワークのモデルはありますか? また、実際のニューロンには興奮性と抑制性という性質を持ち合わせているそうですが、これらの性質を反映してたモデルの資料などをご存知でしたら、是非教えてください。

  • ニューラルネットワークとAI

    まさに今、書籍でもマスコミでもなんでもこの方面が賑やかのように見えます。 実際に本を読んでみてそれを実行するという面ではそれほどハードルが高くないように思えます(基礎理論は軽い線形代数と微積を少々)(これを考え付いた人はエライですが)。システムの枠組みがあってデータを学習させてシステムの変数を同定していくということですかね。そのため逆にいうと独自性を出すところとか頭1つ他よりも上に行くのは難しいだろうと思いますが、私の立場は単純にユーザです。言われた通りのことをやってみるってだけのことです。そういう立場で見ると、入力層とか出力層は問題設定で決まらざるを得ないのですが、中間層のノード数、層数はどうやって決めていくのかな?という疑問があります。教科書のサンプル例では中間層が1層で5ノードとかの事例が示されています。1層5ノードとなっているところを4層で各層10ノードとかに設定したとしてもプログラム自体は特に問題なく動くように思えます。今どきのコンピュータだと苦も無く計算してしまいそうです。ただし、そうなると学習させるデータがそれに見合って多くないと意味がないかもしれませんが。中間層の層数・ノード数の決め方に何か指標があるでしょうか。未知の変数が多くなるので十分学習すれば複雑な問題に対応できるのかもしれませんが、そこまでしなくていいだろうというような感じなのでしょうか。 また、AIって結局ニューラルネットワークのことだ、と思っていいのでしょうか。多分、ビッグデータがあるから皆出来るようになったんだなと思いますが。

  • ニューラルネットワークの入力層の選択

    ニューラルネットワークで入力層・中間層・出力層があるわけですが、入力層をインプットとして出力層を推定するモデリングを考えていくのが基本だろうと思います。 そこで質問なのですが、出力層というのアウトプットとして欲しいものであり、入力層はそれを説明するに足りる情報だとみなすことができるように思います。という風に考えると入力層は説明には足りない数だとなっていた場合、十分学習した後、アウトプットはどのように変化していくものでしょうか。不安定とか発散とかそういう結果になるのでしょうか。また、正しくモデリングするためには入力層はある程度の数が必要ということになるのでしょうか。つまり必要な数よりも少ないとダメだけど、少々多いのは構わないということになるのでしょうか。それともモデリングの対象ごとにいろいろ違うということになるものでしょうか。また、入力層として必要なデータは理屈で考えて因果関係が説明できるものから選ぶというのが基本なのでしょうか。”風が吹けば桶屋が儲かる”ということで、風のデータは入力層に必ず含め、桶屋の収入をアウトプットとするという風にする、ということですが。 よろしくお願いします。

  • 主成分分析の変数の減らし方

    主成分分析の変数の減らし方についてです。 現在サンプル数200程度、変数30個→5個程度に絞ろうと思っています。 累計寄与率を出すところまではサイトも充実しており理解できたのですが、そこからの変数の減らし方が載っているサイトがほとんどなく分かりません。 数式だけですと理解が難しい面もあるので、できれば具体例を挙げてイメージしやすいもので教えていただけると有難く思います。 サンプル数、変数共にそんなに高いものでなくて結構です。 よろしくお願いいたします。

  • サンプル数の妥当性を統計で求めるには?

    初めまして。統計や確率には全くの素人ですので、間違った内容の質問になっているかも知れませんがよろしくお願いします。 ある製品の故障率を求めよという指示がありました。 ただしその製品はある試験で1000時間まで試験を行なった実績はあるのですが、1000時間で故障はありませんでした。 試験サンプル数は3台です。 これに対して、4台で試験したと仮定し、4台目が1001時間で故障したと仮定してワイブル分析を行いなさいという指示です。(通常この製品の試験はサンプル数3台で試験しているのですが、サンプル数3台による試験結果の妥当性を、過去の試験実績データ---と言っても故障実績の無い試験実績データですが---から立証せよというものです。) 質問1:以上につき、できるだけ具体的に分かりやすくご教授いただけますでしょうか? そもそもここまでの過程でつまずいていますが、これを求めるにあたっては故障率を想定する必要があるということも聞きました。 しかし対象の製品は部品ではなく、色々な電子部品が数百点以上実装されたいわゆる箱物です。 実際は一つ一つの部品の故障率を求め、総合して「箱物」としての故障率を求める必要があるのでしょうが、今回故障率に関してはそこまでしなくとも良いと。。。 質問2:家電製品なのですが、そのものずばりでなくとも結構ですので、一般的なテレビの故障率は○○、エアコンの故障率は○○という参考文献などありますでしょうか?又は、家電製品全般という括りでも結構です。 以上、非常に初歩的な質問ですし間違った認識で書いている部分も多々あるかとは思いますが、よろしくお願いいたします。

  • レイノルズ数と抗力係数の関係式について

    レイノルズ数と抗力係数の関係式についての質問です. 現在私が行っている研究ではレイノルズ数が100<Re<800の範囲で,過去の論文では以下のHPから引用したと思われる関係式がもちいられていました. HP:http://chemeng.on.coocan.jp/fl/fl08a.html 関係式:Cd=(0.55+4.8/Re^-0.5)^2 *Newton域とStokes域の間 1<Rep<10^4* しかしこのHPにも過去の論文にも出典文献が記載されておらず,手元にある文献にも記載されていないため困っています. どなたかご存知の方がいらっしゃいましたら出典文献などの情報を教えていただけないでしょうか? よろしくお願いします.

  • 各OSのユーザー数や割合

    各OSのユーザー数の割合について調べています。 できるだけ最新の情報から5年程度前、できれば10年ほど前の割合についても知りたいと思っています。 個人サイトのアクセス解析の結果ではなく、しっかりとしたソースのデータがほしいです。 いろいろ探してみたのですが、私が探して見つかったのは1年ほど前のデータなので少し古いのです。 ご協力お願いします。

  • サンプル数が大きく異なる分散分析について

     大学の統計の講義で勉強しています。分散分析で少し疑問があったので質問させてください。  練習用のデータでは、幸福度に関する調査で、量的変数として1~10の段階評価の幸福度があり、質的変数は幾つかあったのですが、自分はその中から、年齢(20代/50代)と喫煙の有無の2種類を選びました。  このデータから2要因の被験者間分散分析を行い、喫煙の有無(有/無)と被験者の年齢段階(20代/50代)と、その組み合わせの効果によって幸福度の平均値に差がでるかということを調査してみようと考えました。  しかし調べてみると、20代の喫煙有り/無しが(12/95)。50代では (15/90)とサンプル数が大きく異なっています。  このようなケースで分散分析を行った結果は、信頼できるものといえるのでしょうか?また、言えない場合はどのように調整すればいいのでしょうか。データ数を揃えるために、多い方のデータから無作為抽出を行って必要な分だけデータを取り出してしまったりしていいんでしょうか?  よろしくお願いします。

  • サンプルの平均値と上限値と下限値から標準偏差を推定することはできますか。

    サンプルの平均値と上限値と下限値から標準偏差を予測することはできますか。 平均値と標準偏差を用いて統合解析を行いたいのですが、標準偏差の代わりに上限値と下限値が記された文献情報の取り扱いに苦慮しております。 確度は低くても一般的にこんなのがあるよ、というような情報をご教授下さい。