毕业论文

打赏
当前位置: 毕业论文 > 自动化 >

基于基底神经节的机器人强化学习机制研究(4)

时间:2017-03-12 16:55来源:毕业论文
(2)Q-学习算法(Q-Learning Algorithm)[6,7] Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化


(2)Q-学习算法(Q-Learning Algorithm)[6,7]
Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化一个可迭代计算的动态值函数Q(s,a)来找到一个策略使得期望折扣报酬总和最大,而非TD算法中的状态值V(s)。这样,Agent在每一次的迭代中都需要考察每一个行为,可确保学习过程收敛。
(3)Sarsa算法[8]
Sarsa算法是Rummery和Niranjan于1994年提出的一种基于模型的算法,最初被称为改进的Q-学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习(on-policy TD)。Sarsa与Q-学习的差别在于Q-学习采用的是值函数的最大值进行迭代,而Sarsa则采用的是实际的Q值进行迭代。除此之外,Sarsa学习在每个学习步agent依据当前Q值确定下一个状态时的动作;而Q-学习中依赖修改后的Q值确定动作。因此称Sarsa是一种在策略TD学习。
(4)R-学习算法(R-Learning Algorithm)[8]
第一个基于平均报酬模型的强化学习算法是有Schwartz提出的R学习算法,它是一个无模型平均报酬强化学习算法,类似于Q-学习算法,用动作评价函数R(s,a)表示在状态S下执行以动作a为起点的策略π的平均校准值,随后Singh对这基本的R-学习算法进行了改进,用实际获得的报酬作为样本来估计平均报酬,并在每个时间步对平均报酬进行更新。除此之外,基于平均报酬模型的强化学习算法还有H-学习,LC学习,R-MAX学习等算法[8]。相比于基于折扣报酬的学习算法,对于基于平均报酬模型的强化学习算法研究尚不够成熟。
上述算法中,TD算法和Q-学习算法中,无需学习马尔可夫决策模型的知识,直接学习最优策略,属于典型的模型无关法。Sarsa算法先学习模型知识,后根据模型知识推导优化策略,属于基于模型法。模型无关法每次迭代计算量较小,但是由于没有充分利用学习中获取的知识,其收敛速度要比基于模型法慢的多。
2.3 研究趋势
近年来,强化学习的理论与应用研究日益受到重视,但是由于所面临真实世界的复杂性,在实际应用中仍有许多问题有待解决。目前,有关强化学习的课题得到了美国国防部、美国国家科学基金以及国家青年科学基金以及美国海军、空军研究办公室的资助。另外,德国、韩国、澳大利亚等国家的学者都在开展有关强化学习的理论和应用研究。目前,强化学习在国际上是十分活跃的研究领域,研究中的问题如下:
(1)环境的不完全感知,即部分可观马尔可夫模型问题,环境从一个状态转移到另一个状态不一定是马氏过程,若环境是非马氏过程,一些算法的学习效果可能不好,甚至不收敛[19]。
(2)连续状态和连续动作问题,通常研究的强化学习系统,其状态和动作都是有限的集合,而在实际问题中,其状态和动作往往是连续的,而连续空间的强化学习问题,目前研究的还不够深入[9]。
(3)还有探索(exploration)和利用(exploitation)问题。强化学习系统必须对这二者进行折衷处理,即获得知识和获得高回报之间进行折衷。探索对学习来说是重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,甚至在某些情况下对学习产生不利的影响[3]。
近年来,随着生物学研究的发展,发现大脑皮层下的一群神经核团(基底神经节)在脊椎动物动物行为控制中发挥重要作用,新的仿生强化学习算法也成为研究热点[11]。因此,本文以基底神经节为切入点,研究机器人的强化学习机制。
2.4 基底神经节的生物学基础知识
2.4.1基底神经节
基底神经节是脊椎动物大脑皮层下一群核团的总称,又称为“基底核”,包括尾状核和豆状核(纹状体)、苍白核、黑质和底丘脑核[14],其结构和位置如图2.2所示。 基于基底神经节的机器人强化学习机制研究(4):http://www.youerw.com/zidonghua/lunwen_4084.html
------分隔线----------------------------
推荐内容