Japanese
English
- 有料閲覧
- Abstract 文献概要
- 1ページ目 Look Inside
- 参考文献 Reference
はじめに
報酬に基づく強化学習1-3)の神経生理学的研究の発展には,神経科学のみならず自律的に行動するロボットの開発,教育への応用や脳科学に基づく新しい経済学理論の創発などに対して,非常に強力なインパクトを与えるという期待の強まりから,広い分野から注目が集まっている。
中脳の黒質緻密部や腹側被蓋野のドーパミン細胞(DAcell)は,報酬との連合で学習された手がかり刺激や報酬に対して,一時的なバースト応答をすることによって大脳皮質,基底核などに報酬予測誤差(報酬に対する予測と現実に得られた報酬の差)を送り,強化学習における大脳皮質,大脳基底核でのシナプス可塑性を制御していると考えられている3)。
強化学習機構を解明するうえで,「報酬予測誤差がDAcellでどのように計算されているのかということ」が生理学的,計算理論的に最も重要な問題の1つであると考えられる1,4,5)。DAcellはドーパミン放出によるシナプス可塑性の制御6)という形で,強化学習に重要な役割を果たしている。またDAcellはさまざまな部位から7)興奮性,抑制性(最近ではhabenulaなど8))入力を受けているが,それぞれの入力信号の性質が計算論的に明らかにされていないために,いまだに報酬予測誤差の計算過程がわかっていない。
さらに,DAcellに対して興奮性入力がなければ,DAcellはバースト応答をすることが困難であるため,特にDAcellに対する興奮性入力の重要性が浮かび上がってくる。
脚橋被蓋核(pedunculopontine tegmental nucleus:PPTN)は脳幹の最も主要なアセチルコリン性細胞の核であり,古くから注意や学習と関係が深いと考えられてきた9)。PPTNが報酬情報処理に関係した大脳基底核,大脳皮質などから入力を受け10-13),また,DAcellに対してPPTNが強力な興奮性入力を供給していること14-16)から,PPTNからの興奮性入力が,DAcellにおける報酬予測誤差信号の生成に,重要な役割を果たしていることが示唆される。
最近,従来の視床下核を標的にした脳内深部刺激(deep brain stimulation:DBS)のみならず,PPTNを標的としたDBSがパーキンソン病による運動障害の改善に効果がある17)という報告が数多くなされている。また一方で,PPTNと学習や報酬情報処理18-20)の関係を示す知見が数多くなされている。これらの知見が相互に関係しているかどうかは今後の研究の発展を待たねばならないだろうが,ここでは特にPPTNの報酬情報処理機構に絞って議論したいと思う。
Abstract
We address the role of neuronal activity in the pathways of the brainstem-midbrain circuit in reward and the basis for the hypothesis that this circuit provides advantages over previous reinforcement learning theories. Several lines of evidence support the reward-based learning theory proposing that midbrain dopamine (DA) neurons emit a teaching signal (the reward prediction error signal) to control synaptic plasticity of the projection area. However,the underlying mechanism of the location and manner in which the reward prediction error signal is computed remains unclear. Since the pedunculopontine tegmental nucleus (PPTN) in the brainstem is one of the strongest excitatory input sources to DA neurons,we hypothesized that the PPTN may play an important role in activating the DA neurons and reinforce learning by relaying necessary signals for reward prediction error computation to those neurons. To investigate the involvement of PPTN neurons in reward prediction error computation,we employed a visually guided saccade task while recording the neuronal activity in monkeys. Here,we predict that PPTN neurons may relay the excitatory component of tonic reward prediction and phasic primary reward signals,and derive a new computational theory of reward prediction error in DA neurons.
Copyright © 2009, Igaku-Shoin Ltd. All rights reserved.