1。3多AUV围捕控制研究方法
目前,多AUV围捕控制问题研究方法很多,如:
(1)Q学习算法[21-23]:Q学习又称强化学习算法,强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素,机器人需要根据当前状态来采取动作,获得相应的奖赏之后,再去改进这些动作,使得下次再到相同状态时,智能体能做出更优的动作,重复循环迭代,直到满足整个学习的条件,终止学习。
(2)蚁群算法[24-25]:蚁群算法的原理是模仿蚂蚁外出觅食的行进特征进行路径规划的算法,各个机器人通过一种“信息素”进行通信,蚁群算法不能够直接应用在围捕任务中,必须结合一些相应的策略才能够实现,文献[25]中将动态预测轨迹和协商分配的方法与改进的蚁群算法相结合应用到了围捕问题中,虽然收到了很好的效果,但是动态预测目标轨迹很容易出现偏差,届时机器人之间很难通过“信息素”方式形成围捕团队,从而造成各自为战,围捕任务失败。
(3)遗传算法[26-27]:模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
除上述方法之外,还有如基于“虚拟范围”[28],极限环[29],行为融合[30],动态联盟方法[31],数据关联挖掘[32],集群智能(Swarm Intelligence) [33],基于角度优先方法[34]等方法,本文则采用生物启发神经网络算法研究多机器人协同围捕问题。
1。4本文研究内容
本文将生物启发神经网络应用到多AUV围捕控制课题中,结合协商分配围捕点的策略方法合理解决围捕点分配的问题,并且通过方向决策方法大大克服常值海流带来的消极影响,最后对多AUV围捕的多种情况进行了仿真验证。
本论文的章节安排如下:
第一章介绍AUV的研究背景和国内外研究现状,同时对多AUV围捕控制研究方法及研究内容进行分析,引出本文的研究内容。
第二章是生物启发神经网络算法研究。介绍生物启发神经网络的基本原理和算法的数学表示,对神经网络相关参数的敏感性进行分析,此外对二维神经网络模型的稳定性进行证明。
第三章介绍在生物启发神经网络机制引导下二维环境中多AUV的围捕问题的描述和算法,之后提出协商分配围捕点的办法,使得AUV能够在各自最短的路径内占据既定围捕点,并进行相应的实验证明,列举在无障碍物、静态和动态障碍物环境下的仿真。
第四章是海流环境中的目标围捕,依照矢量合成的原理,提出方向决策的算法克服常值海流造成的影响,使得AUV能够尽量在预计的方向移动,并辅以仿真进行说明验证。
第五章对本文的研究内容进行总结,同时对未来的研究进行展望。
2 基于生物启发神经网络围捕算法研究
2。1 生物启发神经网络的基本原理论文网
生物启发神经网络是一种具有不需要学习的特性的神经网络,通过直接的输入输出方式来引导机器人进行一系列的行为决策。
神经网络的研究起步于20世纪40年代后,Hodgkin和Huxley[35] 在1952年以电子元件为基础对生物神经网络系统的细胞膜电流传导机制进行模拟。图2-1显示了生物启发神经网络等效电路模型。该等效电路由激励突触回路,抑制突触回路,静电回路以及一个膜电容并联而成。图中,激励突触电压 和突触电导 组成激励突触回路,同理,抑制突触电压 和突触电导 组成了抑制回路,静电导 和静电势 串联再和膜电容 并联, 两端电压 为横模电压, , , , 分别代表各个支路的电流, 代表接受兴奋突触的感受区[36],其动态特性可以用以下微分方程表示: