- 有料閲覧
- 文献概要
- 1ページ目
- 参考文献
われわれは日々の生活で,様々な行動の選択に関する意思決定を常に行いながら生きている。ほとんどの場合,人間を含むすべての動物は,自らの生存に最適な環境を得られると予測できる行動を選択する。この場合,より良い食物や住み心地の良い環境など,個体の生存に取って好ましいもの(報酬)が得られる可能性を最大にしようとする場合もあれば,生存を脅かす天敵の攻撃の可能性や餌が乏しい環境など,個体の生存を脅かすもの(罰)を最小限に食い止めようとする場合もあるだろう。動物は成功と失敗の経験を繰り返すうちに,最適の行動を選択することができるようになる。
機械やコンピューターに,このような行動様式を実現させるための学習制御の理論に,Actor-Critic(ここでは,動作者―評価者と仮に訳す)型強化学習理論がある。この理論では行動の制御は評価者(critic)と動作者(actor)の二者によって行われているとする。評価者は“動作者が特定の行動を選択するときに,その時点で将来にわたって得られると期待される報酬の大きさ”を予測し,“行動を選択した結果,実際に得られた報酬の大きさ”との差(予測誤差)を,行動を行うたびに計算する。その結果,評価者は予測誤差に比例して将来への報酬の期待値を修正すると同時に動作者にもこの値を伝えて,動作者は,この値に比例して行動を選択する確率を変化させる。Actor-Critic型強化学習理論は,このようにして期待値と行動の選択確率の修正を行っていけば,最終的には評価者は将来の報酬を正確に予測できるようになり,なおかつ動作者は報酬が最大となる行動を選択できるようになることを教えてくれている。このような理論は,ある時点で予測される将来の報酬の期待値の総和と,次の時点での実際に得られた報酬と将来の報酬の期待値の総和の差(temporal difference;TD)が,理論の中心となるためTemporal Difference Theoryとも呼ばれる1)。
Copyright © 2013, THE ICHIRO KANEHARA FOUNDATION. All rights reserved.