Japanese
English
- 有料閲覧
- Abstract 文献概要
- 1ページ目 Look Inside
- 参考文献 Reference
はじめに
われわれが生活する中で,ある行動をすることで報酬を得ることができた場合,次の機会にもその行動を選択する可能性が高くなる。また,初めての環境においては,最初は試行錯誤的に行動し,次第に最も報酬が得られる可能性の高い行動を選ぶようになる。このような,選択した行動に対して報酬が得られることで後続の行動の選択頻度が高くなる現象は,最初にThorndikeによって「効果の法則」と呼ばれ1),これまでオペラント条件付けとして多くの研究がなされてきた。
実際の日常生活においては,報酬が出てくるまでの時間はいつも行動の直後であるとは限らず,行動と報酬との間隔が離れている状況も多い。そのような場合,報酬量と報酬が出てくるまでの時間との兼ね合いによって,意志決定を行う必要が出てくる。例えば,ダイエットや禁煙などは,痩せることや健康などの報酬が出てくるまでの時間が長い行動であるが,甘いものを食べることや喫煙などは,報酬が出てくるまでの時間が短い行動となる。短期的報酬と長期的報酬のどちらを選択するかは,時間的なコストと報酬量の評価など,各意志決定に関わる個人の内潜的変数について考慮しなくてはならない。また,これらの高次の意志決定に関わる脳機能の検討を行う場合,物理刺激の量と脳の活動との間に対応関係がみられるような知覚研究とは異なり,意志決定に関わる神経活動について検討を行う際,呈示された刺激(条件刺激や報酬)に対する脳活動を測定して,それが本当に意志決定に関わる脳活動であるのかは定かではない2)。刺激と反応から各試行における反応を説明するような内潜変数も含めた数理モデルを構成し,それと脳活動との関連を検討することで,より特定の脳部位に焦点を当てた形で,意志決定に関わる脳機能の検討を行うことが可能である2,3)。
現在,意志決定に関わる数理モデルとしては,対応法則4)が影響力のある理論であるといえる。対応法則は複数試行かつ複数選択肢の状況で,ある行動を選ぶ割合は,その行動によって得た報酬の割合に等しくなるというものである。しかし,対応法則は,学習が収束した定常状態における平均的傾向について述べており,試行ごとの選択行動について述べるものではない5)。一方,近年機械学習の分野において,強化学習6)が独自に発展してきており,数理モデルによるアプローチから,行動選択の各試行における内潜的な変数について推定を行い,学習過程においてどのようなメカニズムが働いているのか検討することを可能にしている。これらの検討により,近年,線条体が強化学習機能において重要な役割を果たしていることが示されてきている7)。
本稿では,まず,強化学習について紹介し,次に強化学習におけるメタパラメータと神経修飾物質との関連についてのDoya仮説8)を紹介する。そして,Doya仮説に基づいて,筆者らの研究グループにおいて行ってきた,報酬予測における割引率(γ)と線条体・セロトニンとの関連を検討した実験について紹介する。
Abstract
Recently,computational models of reinforcement learning have been applied for the analysis of neuroimaging data. It has been clarified that the striatum plays a key role in decision making. We review the reinforcement learning theory and the biological structures such as the brain and signals such as neuromodulators associated with reinforcement learning. We also investigated the function of the striatum and the neurotransmitter serotonin in reward prediction. We first studied the brain mechanisms for reward prediction at different time scales. Our experiment on the striatum showed that the ventroanterior regions are involved in predicting immediate rewards and the dorsoposterior regions are involved in predicting future rewards. Further,we investigated whether serotonin regulates both the reward selection and the striatum function are specialized reward prediction at different time scales. To this end,we regulated the dietary intake of tryptophan,a precursor of serotonin. Our experiment showed that the activity of the ventral part of the striatum was correlated with reward prediction at shorter time scales,and this activity was stronger at low serotonin levels. By contrast,the activity of the dorsal part of the striatum was correlated with reward prediction at longer time scales,and this activity was stronger at high serotonin levels. Further,a higher proportion of small reward choices,together with a higher rate of discounting of delayed rewards is observed in the low-serotonin condition than in the control and high-serotonin conditions. Further examinations are required in future to assess the relation between the disturbance of reward prediction caused by low serotonin and mental disorders related to serotonin such as depression.
Copyright © 2009, Igaku-Shoin Ltd. All rights reserved.