摘要深度学习 (Deep Learning, DL) 的概念源于人工神经网络 (Artificial Neural Network, ANN) 的研究,它是机器学习领域的一个新研究分支,目前已成为机器学习领域中的一个研究热点。卷积神经网络 (Convolution Neural Network, CNN) 是一种深度监督学习下的机器学习模型,在图像处理与语音识别领域有着独特的优越性。本文将卷积神经网络扩展到 3D 情形,在KTH数据集上自动地学习时空特征,再利用 BP (Error Back-Propagation)神经网络训练,从而做到人体行为识别。 26043 毕业论文关键词 3D卷积神经网络 人体行为识别 KTH数据集
Title Deep Learning for Sequential Pattern Recognition
Abstract
Deep Learning (DL, Deep Learning) which originated from the study of Artificial Neural
Networks machine learning. And it is now a hot topic in the field. Convolution Neural Network
(CNN) is a machine learning model of learning under supervision for image processing and
speech recognition. It has been widely used in image processing for its unique advantages, In
this thesis, a 3D convolution neural network, a normal CNN extension, to learn the spatial and
temporal characteristics automatically will be established and the tested on KTH database. Thus,
Back-Propagation algorithm for the training, and the identification of human behavior is implemented.
Keywords 3D Convolution Neural Network Human Action Recognition KTH Database
目 次
1 绪论1
2 时空特征的深度学习 3
2.1 用于时序模式识别的深度结构 3
2.2 卷积地学习时空特征 3
2.3 3D CNN 模型 5
3 基于BP神经网络的训练 7
3.1 BP 神经网络基本结构 7
3.2 BP算法的推导8
3.3 BP 算法的优点不足 9
4 基于KTH数据集的实验11
4.1 KTH数据集 11
4.2 基于KTH数据集的相关实验11
结论 16
致谢 17
参考文献18
1 绪论
自主理解人体动作与环境交互在各种领域的巨大潜在应用价值使其成为近些年来的研
究热点。此时,人体基本行为的识别在解释人体复杂动作的过程中的重要性开始显现。从而,
人体行为识别,特别是现实世界环境中的人体行为识别,成为了新的关注点。
在目前最先进,最常用的人体行为方法中,由 Laptev 等[1]
,Dollar等[2]
和其他学者[3][4][5][6]
提出的方法均使用了工程动态和质地描述来手动计算周围的时空点。Harris 3D 检测算子和
Cuboid 检测算子是文献中最常用的空时显着点检测器。然而,即使它们的提取处理是全自动
的,这些所谓的人工制定的特征在特定任务中是最适用的。因此,尽管它们的成效很好,但
是与所要解决的问题高度相关。
卷积神经网络是一种独立的神经元以对视野中重叠区域进行响应的方式拼接的前馈人
工神经网络。卷积神经网络结合了深度学习和人工神经网络,是第一个真正成功训练多层网
络结构的学习算法。卷积神经网络的设计遵循生物的视觉机制。大脑的视觉皮层中含有大量
的细胞,这些细胞如同输入区域的局部滤波器,负责在感受野中检测微弱的光线。结构更复
杂的细胞具有较大感受野。卷积操作就是为了取得和这些细胞相近的功能。卷积神经网络由
Kunihiko Fukushima 1980年在文章中提出[7][8]
。在1988年,它们由Toshiteru Homma, Les Atlas,
and Robert J. Marks II 等人分别用显式并行和可训练的卷积训练时间信号[9]