毕业论文

打赏
当前位置: 毕业论文 > 自动化 >

simbad基于基底神经节机器人强化学习技术研究(2)

时间:2021-04-11 10:02来源:毕业论文
好在本文所讨论的并不是去制造上述的超级机器人,充其量不过是机器人的一种神经细胞而已。但这却是一种拥有学习能力的独特细胞,而我们所期待的,

好在本文所讨论的并不是去制造上述的超级机器人,充其量不过是机器人的一种“神经细胞”而已。但这却是一种拥有学习能力的独特细胞,而我们所期待的,正是通过这种具有“潘多拉盒子”一样魔力的神经细胞,去构建具有一定学习能力的机器人。在本文的实验中,我们将设计一个为了得到奖励而不断对复杂的迷宫进行探索,最终获得奖励的机器人。这很容易让我们联想到章鱼或者老鼠走迷宫实验。由此,我们可以高兴地认为,至少仅于对走迷宫这件事来说,我们的机器人的“智商”已经达到了章鱼或者老鼠的水平。这一实验让我们看到,我们完全可以通过奖励来让机器人学会我们想让他们做的事情,而不是通过程序来让他们重复地完成一成不变的工作。

1.2  研究背景

控制论之父维纳,曾经在其著作《控制论》的引言中写道:“也许我可以澄清一下目前局势的历史背景。如果我说,第一次工业是革阴暗的魔鬼的磨坊的命,是人手由于和机器竞争而贬值,那么,现在的工业便在于人脑的贬值[1]。”他所说的“现在的工业”便是至今方兴未艾的第三次工业(第二次工业起于1870年,以电力的广泛应用为标志,也被称作“电气时代”)。虽然第三次工业包括了电子计算机、原子能、生物工程和空间技术等诸多技术,但人工智能作为电子计算机和生物工程的交叉技术,无疑是第三次工业中最值得期待新兴心技术。如同第一次工业和第二次工业对我们生活和生产力的改变一样,第三次工业正在带领我们进入一个日新月异的时代。

人工智能作为计算机学科的一个分支,起始于图灵和冯·诺依曼提出通用计算机结构,经过半个世纪的发展,人工智能已经成为机器解放人脑力劳动的关键科学。在至今半个多世纪的发展过程中,先后出现了三个流派[2]:符号zhuyi(Symbolism)、联结zhuyi(Connectionism)和行为zhuyi(Behaviorism)。符号zhuyi通过物理符号系统描述整个世界,认为人的思维的基本单元是物理符号,而学习过程就是物理符号的运算过程。而计算机就是一个物理符号系统(虽然只有0、1两种符号),所以它完全可以模仿人的大脑。其中最成功的例子就是通过使人和计算机下棋,证明计算机具有逻辑思维能力。但是上世纪80年代符号zhuyi陷入理论危机,人们逐渐发现符号运算与推理存在组合爆炸的问题;并且人工智能只能在假定的理想环境中推理,对于复杂的实际环境,其应用存在较大的问题。联结zhuyi认为大脑是智能的基础,因此可以通过研究大脑微观结构和宏观功能来构建出类似的结构或网络。联结zhuyi在模式识别、智能控制和图像处理等领域都取得了许多成功,但是由于其应用的神经元模型十分简单,还不足以模拟出大脑的结构和功能。另一类行为zhuyi认为“智能无需表示、智能无需推理”,智能只有在与真实的环境相互作用中才能表现出来。该zhuyi在模拟昆虫智能方面取得了一定的成功,但很难达到人类的智能水平。

学习一度仅仅是心理学的研究内容,但如今学习功能成为人工智能研究的重点,现在普遍认为,机器学习是使计算机拥有人工智能的根本途径。如果—个系统能对—个固有过程或者固有的环境特征的信息进行学习,并能够将得到的经验用于进—步的分类、估计、控制或者决策,从而起到改善系统品质的作用,我们就称这样的系统为学习系统。研究智能机器人的重要—步,就是赋予机器人这样的能力,这也是人工智能研究的重要方向。为了使机器人具有更强的适应环境的能力,关键让它拥有学习能力。我们可以根据反馈的不同,将学习技术分为非监督学习(unsupervised learning)、监督学习(supervised learning)和强化学习(reinforcement learning)三大类[3]。其中本文将要研究的强化学习是—种通过环境反馈作为输入的、特殊的、适应环境的学习方法。强化学习的最初思想来源于神经学中的条件反射和生物学中的动物学习理论。从根本上来说,它是一种由动物学习过程启发得到的仿生学学习方法。机器人通过对感知到的环境状态采取各种试探动作,获得环境状态的适合度评价值(通常是—个奖励或惩罚信号),从而修改自身的动作策略以获得较大的奖励或较小的惩罚,强化学习就是这样—种赋予机器人学习自适应性能力的方法[4]。 simbad基于基底神经节机器人强化学习技术研究(2):http://www.youerw.com/zidonghua/lunwen_72849.html

------分隔线----------------------------
推荐内容