基于深度学习的时序模式识别(2)

。他们的设计由
Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner 等人在1998 年改善[10]
，由 Sven
Behnke 在2003年推广[11]
，Patrice Simard, David Steinkraus, and John C. Platt 同年提出了简化
方法[12]
。LeNet-5 网络可以成功地对数字进行分类，且已被应用于数字识别。为了解决更复
杂的问题，卷积神经网络的深度和广度必将增加，这将收到计算资源的限制。更大网络的训
练由于高效的 GPU 计算的兴起已突破资源的限制成为可行。2006 年，多篇文章推出了一种
用多层训练的的方法以更高效地训练卷积神经网络[13][14][15]
。2011年，Dan Ciresan 等人细化
了此方法并用 GPU实现，有着非常好的结果[16]
。
LeCun 等人设计并采用 BP 算法对卷积神经网络进行训练[17][18]
。卷积神经网络的布局更
接近于实际的生物神经网络，具有局部感知区域、结构层次化、特征抽取、分类过程结合的
全局训练等特点。卷积神经网络使用了局部感知区域，局部权值共享，时间或空间上的降采
样，主要用来识别位移、缩放及其他形式扭曲不变性的二文图形，而其局部权值共享的结构
降低了网络的复杂性，减少了权值的数量，使得卷积神经网络在图像处理与语音识别领域有
着独特的优越性，并在图像处理领域广泛应用，特别是在手写识别领域，被一直作为机器识别系统性能的评价标准[19]
。
因为卷积神经网络在很多图像处理任务中表现出色，所以将其拓展到视频处理中有很大
的潜力且仍是开放议题。而且目前为止，一些在此问题上的尝试或是没有利用到运动信息，
或在手工输入上进行操作。此外，由于这些模型输入的连续帧数很小（通常小于 15），它们被
训练来向短的子序列而不是整个序列分配特征向量（和标签）。所以即使特征已被独立地学习
且包含时间信息，其随时间演变被完全忽略了。
在此，我们利用一种基于神经的两步式的人体行为检测深度模型，此模型的第一部分基
于拓展到 3D 的卷积神经网络，可以自动学习时空特征。第二部分包括利用已学特征训练循
环神经网络来将整个序列分类。
该论文后序章节中，我们将在第二章简要介绍几种深度模型，之后将具体介绍卷积神经
网络的结构，卷积，稀疏连接，权值共享，池化等概念，并列举3D卷积神经网络模型实例。。
第三章将介绍BP 网络结构，着重于BP 网络的算法推导，以用于后续训练。第四章内容包括
KTH 数据集简要介绍，本毕业设计将用到的 3D 卷积神经网络模型的具体结构与 KTH 数据
集上的实验结果与分析。
2 时空特征的深度学习
深度学习是机器学习的新分支，近些年已成为机器学习领域的研究热点。深度学习是基
于学习的数据表示形式的机器学习方法更广泛系列的一部分。深度学习有很多学习架构，如
深度神经网络、卷积深度神经网络、深度置信网络、深度波尔兹曼机和循环神经网络等。2.1
节中将简要介绍深度置信网络、条件深度置信网络和时限玻尔兹曼机。2.2 和 2.3 中将着重
介绍卷积神经网络。
2.1 用于时序模式识别的深度结构
2.1.1 深度置信网络隐马尔可夫模型混合网络
深度置信网络是一种底层为可见层，底层到输出层之间均为隐含层的生成概率模型。，是
深度模型中最有名且最基本的。隐含层中每个节点通过与下层节点的连接学习统计表示。混
合模型有或深或浅的不同结构，但所有不同的方法中有共同之处，即神经网络和隐马尔可夫基于深度学习的时序模式识别(2):http://www.youerw.com/jisuanji/lunwen_20079.html