雑誌文献を検索します。書籍を検索する際には「書籍検索」を選択してください。

BRAIN and NERVE Volume 60, Issue 7 （July 2008）

BRAIN and NERVE 60巻7号（2008年7月発行）

Japanese English

増大特集学習と記憶――基礎と臨床

意思決定と行動学習の数理モデル Mathematical Models of Decision Making and Learning 伊藤真 ¹ , 銅谷賢治 ^1,2 Makoto Ito ¹ , Kenji Doya ^1,2 ¹沖縄科学技術大学院大学先行研究，神経計算ユニット ²ATR脳情報研究所 ¹Okinawa Institute of Science and Technology, Neural Computation Unit ²ATR Computational Neuroscience Laboratories キーワード： decision making , reinforcement learning , Q-learning , action value , basal ganglia Keyword: decision making , reinforcement learning , Q-learning , action value , basal ganglia pp.791-798

発行日 2008年7月1日 Published Date 2008/7/1

DOI https://doi.org/10.11477/mf.1416100312

PDF(1249KB)

有料閲覧

Abstract 文献概要
1ページ目 Look Inside
参考文献 Reference

はじめに

　意思決定とは複数の選択肢の中から1つを選ぶ行為である。選択試行を何度も繰り返す場合において，各選択肢を選んだ割合はそれらの選択肢から得た報酬の割合に等しくなるというマッチングの法則^1）は，意思決定の特性を説明する法則として広く受け入れられている。しかしながら，マッチングの法則は学習が収束した定常状態における平均的傾向について述べるものであり，トライアルごとの選択行動について述べるものではない。その一方で，機械学習の分野の1つである強化学習^2）は，受け取る報酬が最大になるように行動選択を学習させるための理論であるが，これを応用することで，被験者や動物が行動選択の際に行っているであろう報酬量の予測（行動価値）や報酬予測誤差をトライアルごとに推定することができ，さらに，この推定は学習過程においても可能であることから，近年では強化学習が意思決定の脳内メカニズムを探るために利用されてきている^3－5）。

　強化学習が神経科学に応用されはじめた発端は，古典的条件付けにおける中脳ドーパミンニューロンの発火パターンが，強化学習アルゴリズムの最も重要な学習信号として用いられる報酬予測誤差の振る舞いと，極めてよく一致するという発見にある^6）。その後，ドーパミンニューロンの投射先である線条体とそれを含む皮質-大脳基底核ネットワークで，強化学習に類似したアルゴリズムが実装されているという仮説が提案されてきた^7－10）。人間や動物の選択行動が強化学習の数理モデルで計算されていると仮定することで，タスク中に選択した行動とそれによって得られた報酬から，直接は観測することのできない行動価値や報酬予測誤差をトライアルごとに推定することが可能となる。この推定した行動価値や報酬予測誤差が，fMRIや神経活動記録で得られる脳活動と相関していれば，強化学習アルゴリズムが脳内で行われているか否か，どの脳部位がアルゴリズムのどの部分に関わっているかなどを示唆することができる。こうした解析方法によって，線条体でのfMRI BOLD信号が報酬予測誤差に相関があり^11－14），背側線条体には行動価値に相関のある活動を示す神経細胞があること^15）などが明らかにされてきた。これらの発見は，強化学習アルゴリズムが大脳基底核に実装されているという仮説^7－10）を支持するものである。

　一方，このような強化学習モデルを用いた意思決定の研究には，モデル選択の問題がある。選択行動を記述できる強化学習モデルは複数あり，さまざまなバリエーションも考えられるが，行動価値や報酬予測誤差などの推定値はどのモデルを用いるかに依存する。できるだけ人間や動物の行動選択と学習過程によく近似するモデルを用いることが望ましく，候補として選んだモデルの中で最も一致するものを選ぶ試みは行われ始めているが^13，14），選ばれたモデルがどれだけ実際の行動学習の過程をよく捉えているかの議論はあまりされていない。

　以下本稿では，報酬が確率的に出る二者択一課題において，ラットがどのような行動選択の学習パターンを示すかを解析し，そのパターンをよく近似できる強化学習モデルを提案する。そして提案モデルにより，トライアルごとの行動選択を確率的に予測できることを示す。このようにして選択されたモデルは，行動選択と学習に関わる脳部位や神経細胞の解明への応用が期待される。

Abstract

　Computational models of reinforcement learning have recently been applied to analysis of brain imaging and neural recording data to identity neural correlates of specific processes of decision making, such as valuation of action candidates and parameters of value learning.　However, for such model-based analysis paradigms, selecting an appropriate model is crucial.　In this study we analyze the process of choice learning in rats using stochastic rewards. We show that "Q-learning," which is a standard reinforcement learning algorithm, does not adequately reflect the features of choice behaviors.　Thus, we propose a generalized reinforcement learning (GRL) algorithm that incorporates the negative reward effect of reward loss and forgetting of values of actions not chosen.　Using the Bayesian estimation method for time-varying parameters, we demonstrated that the GRL algorithm can predict an animal's choice behaviors as efficiently as the best Markov model.　The results suggest the usefulness of the GRL for the model-based analysis of neural processes involved in decision making.