ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：＜再度＞　強化学習（Q-learning）について）

強化学習(Q-learning)の報酬が後の行動に影響を受けるモデルについて

2004/10/28 09:54

このQ&Aのポイント

強化学習(Q-learning)では、状態sで行動aをとったときに、確率的に状態s'へ遷移し、同時に確率的に報酬rが得られます。
しかし、報酬rが後の行動に影響を受けてしまうようなモデルでは、Q-learningは使えません。
適したアルゴリズムについてはまだ知見がありませんので、ご意見をお待ちしています。

kyokuchin1979
お礼率24% (17/70)

その他（学問・教育）
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

daitchian
ベストアンサー率47% (29/61)

2004/10/29 21:25 回答No.1

こんばんわ。強化学習に関してはどのようなものかという程度しかかじったことがない者です。ですので独り言程度と思ってください。 Q-learningでは受け取った報酬によってQ値を更新していくものですが、現在の状態sとそのときの行動aのみではなく、それ以前のものについても報酬によってQ値が更新されます。報酬はある目的を達成したときのみ与えられるものですので（一般的には）、以上のような原理を利用して迷路探索などに利用することができるのだと私は理解しています。ですので、報酬の与えられる基準がその後の行動で変化するような場合には難しいのではないでしょうか？最近ではマルチエージェント強化学習など複数のエージェントを利用したものや、上位下位という概念の入ったエージェントで強化学習を行うことがあるようです。それらの方式を使えば可能なのかもしれませんが、現在の私の知識ではわかりかねますね。答えになってないような気がしますが、とりあえずやってみるってのはどうでしょうか？

強化学習(Q-learning)の報酬が後の行動に影響を受けるモデルについて

＜再度＞　強化学習（Q-learning）について

質問者が選んだベストアンサー

関連するQ&A

VC#　強化学習

オートマトン

結晶電子と光との相互作用について(選択側)

S.P.Q.R について教えて下さい

離散数学　有限状態機械

HG8045Qのファームウエアーが更新されない

決定性有限オートマトンと正規表現

マルコフ連鎖の問題

この3つの問題の解答を教えてください

確率の問題を教えてください。

【抵抗の接続】について教えてください。

Verilogでモンゴメリ乗算

確率変数が独立であることの証明

SPIの問題です

コンデンサーと電気回路の問題について

二項関係の問題

3価Euにおける電気双極子遷移と磁気双極子遷移の遷移確率について

推論の問題について教えてください

閉形式　(closed form)

りん光について

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

強化学習(Q-learning)の報酬が後の行動に影響を受けるモデルについて

＜再度＞ 強化学習（Q-learning）について

質問者が選んだベストアンサー

関連するQ&A

VC# 強化学習

オートマトン

結晶電子と光との相互作用について(選択側)

S.P.Q.R について教えて下さい

離散数学 有限状態機械

HG8045Qのファームウエアーが更新されない

決定性有限オートマトンと正規表現

マルコフ連鎖の問題

この3つの問題の解答を教えてください

確率の問題を教えてください。

【抵抗の接続】について教えてください。

Verilogでモンゴメリ乗算

確率変数が独立であることの証明

SPIの問題です

コンデンサーと電気回路の問題について

二項関係の問題

3価Euにおける電気双極子遷移と磁気双極子遷移の遷移確率について

推論の問題について教えてください

閉形式 (closed form)

りん光について

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

＜再度＞　強化学習（Q-learning）について

VC#　強化学習

離散数学　有限状態機械

閉形式　(closed form)

カテゴリ
一覧

専門家に質問してみよう
専門家登録