Japanese
English
- 有料閲覧
- Abstract 文献概要
- 1ページ目 Look Inside
- 参考文献 Reference
はじめに
意思決定とは複数の選択肢の中から1つを選ぶ行為である。選択試行を何度も繰り返す場合において,各選択肢を選んだ割合はそれらの選択肢から得た報酬の割合に等しくなるというマッチングの法則1)は,意思決定の特性を説明する法則として広く受け入れられている。しかしながら,マッチングの法則は学習が収束した定常状態における平均的傾向について述べるものであり,トライアルごとの選択行動について述べるものではない。その一方で,機械学習の分野の1つである強化学習2)は,受け取る報酬が最大になるように行動選択を学習させるための理論であるが,これを応用することで,被験者や動物が行動選択の際に行っているであろう報酬量の予測(行動価値)や報酬予測誤差をトライアルごとに推定することができ,さらに,この推定は学習過程においても可能であることから,近年では強化学習が意思決定の脳内メカニズムを探るために利用されてきている3-5)。
強化学習が神経科学に応用されはじめた発端は,古典的条件付けにおける中脳ドーパミンニューロンの発火パターンが,強化学習アルゴリズムの最も重要な学習信号として用いられる報酬予測誤差の振る舞いと,極めてよく一致するという発見にある6)。その後,ドーパミンニューロンの投射先である線条体とそれを含む皮質-大脳基底核ネットワークで,強化学習に類似したアルゴリズムが実装されているという仮説が提案されてきた7-10)。人間や動物の選択行動が強化学習の数理モデルで計算されていると仮定することで,タスク中に選択した行動とそれによって得られた報酬から,直接は観測することのできない行動価値や報酬予測誤差をトライアルごとに推定することが可能となる。この推定した行動価値や報酬予測誤差が,fMRIや神経活動記録で得られる脳活動と相関していれば,強化学習アルゴリズムが脳内で行われているか否か,どの脳部位がアルゴリズムのどの部分に関わっているかなどを示唆することができる。こうした解析方法によって,線条体でのfMRI BOLD信号が報酬予測誤差に相関があり11-14),背側線条体には行動価値に相関のある活動を示す神経細胞があること15)などが明らかにされてきた。これらの発見は,強化学習アルゴリズムが大脳基底核に実装されているという仮説7-10)を支持するものである。
一方,このような強化学習モデルを用いた意思決定の研究には,モデル選択の問題がある。選択行動を記述できる強化学習モデルは複数あり,さまざまなバリエーションも考えられるが,行動価値や報酬予測誤差などの推定値はどのモデルを用いるかに依存する。できるだけ人間や動物の行動選択と学習過程によく近似するモデルを用いることが望ましく,候補として選んだモデルの中で最も一致するものを選ぶ試みは行われ始めているが13,14),選ばれたモデルがどれだけ実際の行動学習の過程をよく捉えているかの議論はあまりされていない。
以下本稿では,報酬が確率的に出る二者択一課題において,ラットがどのような行動選択の学習パターンを示すかを解析し,そのパターンをよく近似できる強化学習モデルを提案する。そして提案モデルにより,トライアルごとの行動選択を確率的に予測できることを示す。このようにして選択されたモデルは,行動選択と学習に関わる脳部位や神経細胞の解明への応用が期待される。
Abstract
Computational models of reinforcement learning have recently been applied to analysis of brain imaging and neural recording data to identity neural correlates of specific processes of decision making, such as valuation of action candidates and parameters of value learning. However, for such model-based analysis paradigms, selecting an appropriate model is crucial. In this study we analyze the process of choice learning in rats using stochastic rewards. We show that "Q-learning," which is a standard reinforcement learning algorithm, does not adequately reflect the features of choice behaviors. Thus, we propose a generalized reinforcement learning (GRL) algorithm that incorporates the negative reward effect of reward loss and forgetting of values of actions not chosen. Using the Bayesian estimation method for time-varying parameters, we demonstrated that the GRL algorithm can predict an animal's choice behaviors as efficiently as the best Markov model. The results suggest the usefulness of the GRL for the model-based analysis of neural processes involved in decision making.
Copyright © 2008, Igaku-Shoin Ltd. All rights reserved.