参数c表示在动作电位产生后,快速高阈值K+电导引起的膜电位恢复值v的大小。c的典型值为-65mV。
参数d表示动作电位产生后由K+电导和Na+电导引起的恢复变量u的值。
参数选择的不同将导致不同的放电模式,这些放电模式中包括了大脑皮层中最典型的几种类型。对于该模型,一种可行的扩展方式是在(2.1)式中用∑u替代u,但在皮层神经元中没有这个必要。
2.7 本章小结
本章介绍了强化学习的起源和基本原理,给出了几种基本的传统强化学习算法,并分析了相互之间的异同以及各自的优缺点。随后论述了强化学习算法的研究趋势,讨论了其中有待进一步研究的难点问题,以及新生的研究热点,并受生物学启发,根据基底神经节对脊椎动物行为的影响,以基底神经节作为本文研究的切入点。然后介绍了基底神经节的组成和结构,以及在脊椎动物行为中的主要功能,同时阐述了纹状体、苍白核、黑质和底丘脑核这些基底神经节组成核团之间的相互关系。随后简单介绍了早期Barto的actor-critic模型以及其生理学相关性,还有Schultz提出的预测和奖励机制的生理学基础。又进一步说明了神经元的结构功能以及其传递信息的电信号方式,并介绍了学者Kumar的三代神经元发展历程,最后介绍了尖峰神经元模型并比较了早期各种模型间的异同,引入了Izhikevich模型,简要说明了Izhikevich模型的微分方程及其参数的含义。
3 基于Izhikevich模型的强化学习算法
3.1 脑皮层尖峰神经元的动力学描述以及MATLAB仿真
哺乳类动物脑神经元的类型多种多样,Izhikevich将哺乳动物脑皮层的神经元的种类归为优尔大类,以下分别从兴奋型RS、IB、CH和抑制型两大类展开,并且将基于公式(2.1)(2.2)分别用Matlab仿真实现。
Izhikevich模型是带有一个二次项v2的非线性方程,在Matlab上的实现主要是利用欧拉公式对其进行离散化。将公式(2.1)用欧拉公式法离散化处理后如式(3.1)所示:
(3.1)
对于具体的仿真实现将针对具体的参数给出。
其中脑皮层兴奋型神经元可以归为以下三大类:
RS[19](Regular spiking),即常规性尖峰。这是在脑皮层中最典型的一类神经元。当接收到一个延续的刺激(注入一个阶跃的直流电流信号),神经元首先会作短周期的脉冲放电,随后放电周期变长,这被称为尖峰频率适应。增强直流电流输入值会导致放电频率的增大。但由于尖峰超极化过程的存在,尖峰神经元放电频率不会太快。图3.1是在c=-65mV(深复位电压),d=8(大后尖峰膜电位变化),输入阶跃跳变时刻为20ms,阶跃直流信号分别为I=2mA、I=10mA、I=30mA的情况下利用Matlab对公式(2.1)编程仿真所得到的膜电位尖峰信号变化图。可以看出,在电流较小时,不会产生放电频率,而一旦随着电流的增大,将产生尖峰脉冲信号,脉冲信号频率随阶跃电流的增大而变快,且在阶跃电流发生阶跃开始时刻尖峰脉冲频率较快,随后逐步放缓并调整成一个周期稳定的尖峰脉冲信号。RS属于第一类兴奋型尖峰神经元,它能够持续地将输入信号的强度编码在尖峰信号的频率中。 基于基底神经节的机器人强化学习机制研究(8):http://www.youerw.com/zidonghua/lunwen_4084.html