基于深度学习的文本表示模型研究(2)

绪论

1。1 研究背景

随着互联网数据的日益增多，知识发现和知识抽取变得日趋重要。在用机器学习方法开展这些工作之前，有一项更为基本的工作，那就是数据表示。有效的数据表示不仅能提高机器学习的性能，也有利于我们将实际问题转化为数学问题，便于计算机处理。据 IDC 数据显示，2011 年全网数据量达 1。8ZB，到 2020 年预计增长 50 倍。文本作为互联网数据的主要形式之一，是自然语言处理（NLP）领域的主要研究对象。因此，对文本进行有效建模显得尤为重要。

传统机器学习往往伴随着特征工程，通过人为地特征构建、特征提取和特征选择将目标领域的知识转化为有效特征，利用人类智慧去弥补机器不能从原始数据中自动挖掘有用信息的缺陷，以提高机器学习的性能。然而，随着互联网数据的激增以及知识领域的交叉性，这种方法需要大量的人力和专家知识，反而阻滞了问题的解决和应用的快速拓展。因此，人们希望找出一种能让机器自动地从原始数据中学习有效特征的方法。

深度学习[1]的出现为解决这一问题提供了新的思路[6]。早在上世纪 50 年代左右，人们就开始探索模仿生物神经元的特性来解决人工智能问题。1943 年，心理学家 Warren McCulloch 和数理逻辑学家 Walter Pitts 提出人工神经网络概念和数学模型[2]。1949 年，心理学家唐 Donald Hebb 给出了神经元学习准则[3]。1957 年，美国神经学家 Frank Rosenblatt 提出了可以模拟人类感知能力的感知机[4]并在 IBM704 上完成仿真。1986 年，Geoffrey Hinton 和 Ronald Williams 在《Learning representations by back-propagating errors》中阐述了用 BP 算法训练多层神经网络[5]。随着互联网数据量的激增和计算机性能的提升，2006 年，人工神经网络以深度学习的面貌重新展现在人们面前。在此之后，深度学习在开始在各个领域崭露头角，在图像和语音领域更是远远超过了传统的机器学习算法。

词作为文本的基本组成单位，往往起着承载语义的作用，也是文本表示技术的基础。传统机器学习中最常用的词表示方法是 One-hot Representation[8]，这种方法将词编码成一个只含有 0 和 1 的定长向量，其中只有一维是 1，其余都是 0，向量的维度和词表的大小相同。显然，One-hot Representation 只是单纯地将词符号化，并没有表达语义的作用，无法有效度量词与词之间的距离。1954 年，Harris 在《Distributional structure》一文中提出分布式假说[7]，同时提到了传统文本表示中常采用的词袋模型[7](Bag of words model)。词袋模型忽略了文本中的词序信息，将所有词打包放到一个袋子中，等同于将所有词的 One-hot Representation 相加作

为文本向量，也是一种广义的向量模型。然而，这种文本表示方法得到的是一个高维稀疏向量，在表示复杂文本时很容易遭遇维度灾难，其忽略词序的做法可能会遗失语义或情感信息。例如，“法西斯击溃了反法西斯联盟”和“反法西斯联盟击溃了法西斯”拥有相同的词袋表示

[9]，但两者表达的情感极性却相反。

分布表示的精髓在于“上下文相似的词，其语义也相似”。深度学习可以利用上下文信息从大量无标注文本中学习到词向量，和 One-hot Representation 不同，这是一种低维实数向量，可以通过计算向量间的距离度量词与词之间的关联度，一般而言语义相近或语法作用相近的词在距离也会比较近。例如在 C&W 模型[10]中和“markets”最近的词是“firms”和“industries”，很明显这些词在语义上有关联。能够度量信号的相似度度这很有用，神经网络词向量解决了词汇鸿沟问题，基于此我们可以做如相似度分析以及语义合成等工作，为更高层次的文本分析任务做铺垫。基于深度学习的文本表示模型研究(2):http://www.youerw.com/jisuanji/lunwen_88708.html