Japanese
English
- 有料閲覧
- Abstract 文献概要
- 1ページ目 Look Inside
- 参考文献 Reference
はじめに
近年,大脳基底核,特に線条体は,価値の生成に重要な役割を果たす脳領域として注目を集めている。価値とは,ここでは,特定の刺激(物体・事象)や行動に対して期待できる報酬と罰の総和と定義する。線条体には,中脳の黒質緻密部と腹側被蓋野のドパミンニューロンから投射があり,この中に含まれる報酬予測誤差情報が,大脳皮質から送られてくる感覚情報や運動情報と結び付くことにより,報酬予測情報ができると考えられている1)。
報酬予測誤差とは,予測された報酬と実際に与えられた報酬の差のことを指す。Schultzら2)は,サルの中脳ドパミンニューロンから単一ニューロン活動の記録を行い,ドパミンニューロンが,サルに報酬を与えたときに応答することを見出した。視覚刺激を条件刺激,ジュースを無条件刺激としてサルに古典的条件づけを行うと,ドパミンニューロンは,もはやジュースを与えても応答しなくなり,それに先立つ視覚刺激(条件刺激)の呈示に応答するようになった。サルの期待を裏切って,条件刺激のあとジュースを与えないようにすると,ドパミンニューロンの応答は一時的に下がってしまう。
つまり,条件づけ前は,報酬を期待していないところにジュースが来るので,正の報酬予測誤差が生じ,それに対してドパミンニューロンは活動を上昇させる。しかし,条件づけ後,報酬が来ると予期されているところにジュースが与えられても,報酬予測誤差は0なのでドパミンニューロンの活動に変化はない。逆にジュースが与えられないと負の報酬予測誤差が生じて,活動は減少する。ドパミンニューロンの報酬予測誤差は,報酬に先立つ刺激が,報酬と関係しているかどうかについての知識を書き換えるための,強化学習でいう教師信号になっていると考えることができる。
大脳基底核線条体では,大脳皮質から送られてくる刺激や行動の情報が,ドパミンからの報酬予測誤差の情報と結び付き,報酬予測に関わる情報,すなわち価値が生成される3,4)。Reynoldsら5)は,大脳皮質からのグルタミン酸入力と中脳からのドパミン入力が結び付いて長期増強を起こす過程を,ラットのスライスを用いて見事に示している。
しかし,ヒトが持つ複雑な価値もこの線条体-ドパミンのメカニズムですべて説明できるのか。そもそも,価値をつくり出す神経メカニズムは1つだけなのか。このような問いに答えるために,筆者らは,意思決定課題を遂行するサルやヒトの大脳皮質前頭前野の神経活動と大脳基底核線条体の活動を直接比較することによって,大脳基底核の価値生成の特徴について理解するための研究を行ってきた6)。
Abstract
To survive under changing circumstances, we have to make appropriate decisions on our behavior. For this purpose, the brain should recognize reward information from objects under a given circumstances. Recent experimental and theoretical studies have suggested that primates, including human beings, have at least 2 brain processes that calculate the reward value of objects. One is the process coding a specific reward value of a stimulus or response, depending on direct experience (e.g., classical conditioning and TD learning). The other enables us to predict reward based on the internal model of given circumstances without direct experience (e.g., categorization and inference). To clarify the neuronal correlates of the multiple processes on reward prediction, we have conducted 4 experiments: (1) single-unit recording from the caudate and lateral prefrontal cortex of a monkey, while it performed a memory-guided saccade task with asymmetric reward schedule; (2) human fMRI imaging during random-dot discrimination with asymmetric reward condition; (3) single-unit recording from the monkey dopamine neuron in the random-dot discrimination task with asymmetric reward schedule; and (4) simultaneous single-unit recording from the striatum and lateral prefrontal cortex of monkeys performing a reward inference task. Results suggest that the nigro striatal network and the prefrontal network have different functional roles for reward prediction (value generation). The former applies the model-free method (temporal-difference learning), while the latter uses the model-based method (category-based learning).
Copyright © 2012, Igaku-Shoin Ltd. All rights reserved.