摘要强化学习是一种重要的机器学习模型。强化学习通过agent感知外部环境状态作出不同的尝试,在不断的尝试中保留较好的动作,抛弃较差的动作,以此来提升自己的行为表现。它具有对环境的先验知识低的特点,可以在实时环境中在线学习,因此在人工智能领域得到了广泛的研究和使用。28145
本文利用强化学习模型为游戏设计了自主角色。具体使用了前向神经网络和Q学习为五子棋游戏设计了黑白方,并提出了一种即时回报函数。使用了Q学习为动态迷宫游戏设计了智能体,并分析了三种动作选择算法对收敛速度、收敛结果的影响。
关键词  游戏  强化学习  神经网络   Q学习
毕业论文设计说明书外文摘要
Title    Data analysis and research——   Inpidual behavior study in small society        
Abstract Reinforcement learning is an important branch of machine learning.It uses an agent, sensing the external environment state and making different attempts according to different states.In the numerous attempts,it will retain positive ones and abandon negative ones,therefore,to improve its performance.Reinforcement learning has the characteristic of low prior knowledge of the environment,as well as can be studied on-line in real-time environment,which makes it being widely utilized in the field of artificial intelligence.
Reinforcement learning model is applied in this paper to design agents for games. Specifically,artificial neural network and Q-learning are provided to design the black and white player of Gobang game.An immediate reward function is advanced.Q-learning algorithm is provided to set a player for dynamic maze.Three type of action-select algorithm is analyzed.
Keywords  Game  Reinforcement-Learning  Neural-network  Q-learning
目   次
1  引言.................................    1
1.1 问题来源    1
1.2研究内容和主要方法    1
1.3 本文的组织及主要工作    1
2      强化学习模型及其主要算法    3
2.1 强化学习简介    3
2.2 强化学习的直观理解    3
2.3 强化学习模型    4
2.3.1 马尔可夫决策过程    4
2.3.2 最优值函数与最优策略    5
2.3.3 蒙特卡洛方法和动态规划方法在求解最优值函数中的应用    5
2.3.4 时间信度分配问题    6
2.3.5 强化学习智能系统的一般模式    6
2.3.5 Q学习算法    7
3  人工神经网络...........    8
3.1 人工神经网络简介    8
3.2 激励函数    8
3.3 前向神经网络    9
3.4 梯度下降算法    9
3.5 反向传播学习算法    9
4      强化学习模型在五子棋游戏中的运用    11
4.1 五子棋游戏简介    11
4.2 强化学习在五子棋游戏中的运用    11
4.3 基于BP神经网络以及强化学习的五子棋游戏agent设计    11
4.3.1 基于Q学习算法的Agent设计    12
4.3.2 基于TD瞬时差分算法的Agent设计    15
4.4 五子棋游戏控制部分设计    16
4.5 结果与结论    18
4.5.1 由Q学习构造的Agent的训练结果    18
4.5.2 Q学习算法以及TD瞬时差分算法效果比较    22
5  强化学习模型在动态迷宫游戏中的运用    24
上一篇:RDMA性能在多租户环境下的测量研究虚拟机及容器
下一篇:基于贝叶斯理论的图像去模糊研究

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

志愿者活动的调查问卷表

医院财务风险因素分析及管理措施【2367字】

AT89C52单片机的超声波测距...

10万元能开儿童乐园吗,我...

C#学校科研管理系统的设计

中国学术生态细节考察《...

神经外科重症监护病房患...

承德市事业单位档案管理...

国内外图像分割技术研究现状

公寓空调设计任务书