• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:ニューラルネットにおける学習について)

ニューラルネットの学習と確率分布について

このQ&Aのポイント
  • ニューラルネットワーク(NN)で学習して得られた関数は確率分布ではない
  • ニューラルネットは最尤法で学習しており、ベイズ法は適用されていない
  • ニューラルネットワーク(NN)で学習した関数は、1以上の値を取ることがある

質問者が選んだベストアンサー

  • ベストアンサー
  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.2

以下の説明は、数学的な本当の定義とはかなり違っていて単なるイメージですけど。 確率変数ていうのは、たとえば「サイコロの目」みたいな、実際に起こった出来事、みたいなモノです。 サイコロの目は1~6のどれかですから、当然1より大きい値も取れますよね。 で、サイコロの目(確率変数X)が1を取る確率は、1/6です。確率は当然ながら0~1の間しかとれません。 サイコロではなくて、たとえば、Xが、[0, 1000]の実数をランダムに(均等の確率で)取る確率変数であれば、当然ながら、 0≦X≦1000 が成り立ちますね。一方で、たとえば 0≦X≦500となる「確率」は、 500/1000 = 0.5 で、これは当然ながら、[0,1]の範囲の実数です。 確率変数と、確率が、全然違うものってのはわかりました? で、確率分布っていうのは、確率変数が、ある値をとる確率を、すべての場合について集めてきたものです。 サイコロの場合だと、 1を取る確率=1/6 2を取る確率=1/6 … 6を取る確率=1/6 ていう6つの式をまとめて確率分布って呼んでます。というわけで 「確率分布が1以下である」 という文章は、そもそも意味が全く通っていません。この6つの式をまとめたものが1以下って?てことです。

marucha
質問者

補足

>確率変数と、確率が、全然違うものってのはわかりました? ここまでは分かりました. >「確率分布が1以下である」という文章は、そもそも意味が全く通っていません。 ここが意味が分かりません. >確率分布っていうのは、確率変数が、ある値をとる”確率”を、すべての場合について集めてきた とあります.確率を集めてきたなら,確率は[0,1]なんだから,それを集めた 確率分布も1以下なんじゃないんですか?

その他の回答 (2)

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.3

>確率を集めてきたなら,確率は[0,1]なんだから,それを集めた >確率分布も1以下なんじゃないんですか? うーん。あんまりうまく説明できないんですが、 確率分布とは、「確率変数がある値をとる確率をすべての場合について集めてきた」もの、と書きました。 つまり、サイコロの例で言えば、 1を取る確率=1/6 2を取る確率=1/6 3を取る確率=1/6 4を取る確率=1/6 5を取る確率=1/6 6を取る確率=1/6 という6つの確率を一まとめにしたものを「確率分布」と呼んでいるわけです。6つの確率、それぞれは[0,1]の間の数ですが、確率分布は、あくまで、それを1まとめにしたもの全体を指すので、そもそも数ですらありません。というわけで 「確率分布は1より小さい」 ていう文は、数でないものと数を比べていることになってます。例えるなら 「リンゴは1より小さい」 みたいな感じ?

marucha
質問者

補足

回答ありがとうございます. 私の最初の疑問を今までの回答による自分の理解から自回答を 以下のように考えましたが,正しいか確認を最後にお願いします. 「NNは,確率変数X(データ)に関する確率分布(真の分布など多くの回帰式)の中 の確率密度関数(学習後の回帰式)を学習により獲得している」 という理解でよろしいでしょうか?

  • rabbit_cat
  • ベストアンサー率40% (829/2062)
回答No.1

統計の基本的な用語の勉強をしたほうがいいと思います。 「確率変数」と「確率分布」と「確率」は全く別モノですよ。 >ニューラルネットは最尤法であると考えていいのでしょうか? >また,最尤法でなく,例えばベイズ法を適用したものはあるのでしょうか? 学習方法によります。最尤法とベイズ法の違いは、つまり事前確率を導入するのかしないのか、てことですが、ニューラルネットの初期値の与え方や学習のさせ方によって、どちらも可能です。

marucha
質問者

補足

いろいろ調べましたがやはりよく分かりません. 「確率変数」:確率的にばらつく変数 「確率分布」:確率変数の各々の値に対して、その起こりやすさを与える関数 「確率」:ある現象が起こる度合い ニューラルネットでは,真の分布から得られたとされるデータを確率変数 とみなして,最急降下法などの最尤法により確率変数が表す分布である確率分布を学習する? しかし,学習によって得られた分布は,1以上の値も扱えるから確率分布ではない? では,学習の定義が違う? これを頭の中で繰り返しているばかりで根本的に何の理解を間違ってしまって いるのか分かりません.できれば誤っている箇所を指摘して頂きたいです.

関連するQ&A

専門家に質問してみよう