基于强化学习的游戏智能体设计_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于强化学习的游戏智能体设计

摘要强化学习是一种重要的机器学习模型。强化学习通过agent感知外部环境状态作出不同的尝试,在不断的尝试中保留较好的动作,抛弃较差的动作,以此来提升自己的行为表现。它具有对环境的先验知识低的特点,可以在实时环境中在线学习,因此在人工智能领域得到了广泛的研究和使用。28145
本文利用强化学习模型为游戏设计了自主角色。具体使用了前向神经网络和Q学习为五子棋游戏设计了黑白方,并提出了一种即时回报函数。使用了Q学习为动态迷宫游戏设计了智能体,并分析了三种动作选择算法对收敛速度、收敛结果的影响。
关键词  游戏  强化学习  神经网络   Q学习
毕业论文设计说明书外文摘要
Title    Data analysis and research——   Inpidual behavior study in small society        
Abstract Reinforcement learning is an important branch of machine learning.It uses an agent, sensing the external environment state and making different attempts according to different states.In the numerous attempts,it will retain positive ones and abandon negative ones,therefore,to improve its performance.Reinforcement learning has the characteristic of low prior knowledge of the environment,as well as can be studied on-line in real-time environment,which makes it being widely utilized in the field of artificial intelligence.
Reinforcement learning model is applied in this paper to design agents for games. Specifically,artificial neural network and Q-learning are provided to design the black and white player of Gobang game.An immediate reward function is advanced.Q-learning algorithm is provided to set a player for dynamic maze.Three type of action-select algorithm is analyzed.
Keywords  Game  Reinforcement-Learning  Neural-network  Q-learning
目   次
1  引言.................................    1
1.1 问题来源    1
1.2研究内容和主要方法    1
1.3 本文的组织及主要工作    1
2      强化学习模型及其主要算法    3
2.1 强化学习简介    3
2.2 强化学习的直观理解    3
2.3 强化学习模型    4
2.3.1 马尔可夫决策过程    4
2.3.2 最优值函数与最优策略    5
2.3.3 蒙特卡洛方法和动态规划方法在求解最优值函数中的应用    5
2.3.4 时间信度分配问题    6
2.3.5 强化学习智能系统的一般模式    6
2.3.5 Q学习算法    7
3  人工神经网络...........    8
3.1 人工神经网络简介    8
3.2 激励函数    8
3.3 前向神经网络    9
3.4 梯度下降算法    9
3.5 反向传播学习算法    9
4      强化学习模型在五子棋游戏中的运用    11
4.1 五子棋游戏简介    11
4.2 强化学习在五子棋游戏中的运用    11
4.3 基于BP神经网络以及强化学习的五子棋游戏agent设计    11
4.3.1 基于Q学习算法的Agent设计    12
4.3.2 基于TD瞬时差分算法的Agent设计    15
4.4 五子棋游戏控制部分设计    16
4.5 结果与结论    18
4.5.1 由Q学习构造的Agent的训练结果    18
4.5.2 Q学习算法以及TD瞬时差分算法效果比较    22
5  强化学习模型在动态迷宫游戏中的运用    24 (责任编辑:qin)