目前,文本分类技术已经有很多相关的研究,其中大部分是关于传统的数据挖掘算法(如本文2。1中介绍的朴素贝叶斯分类算法[1]、k-近邻算法[2]、支持向量机[3]等)的。不可否认,这些算法已经普遍的应用于许多工业场景下。但是随着数据量增大,分类准确率要求提高,传统的文本分类算法本身存在的问题也逐渐地显示出来。例如:朴素贝叶斯分类算法[1]的属性条件独立性假设在很多情况下是不合理的,k-近邻算法[2]对异常值不敏感且计算的时间和空间复杂度较高,支持向量机[3]在大量数据下的训练速度不快而且在多类别问题上分类效果不佳。79045
在最近十年,深度学习在许多问题上都有很好的进展论文网。深度学习有很强的拟合能力,而且学习规则简单,便于计算机实现。目前,许多研究都在围绕着深度学习展开,例如最近比较热门的人工智能程序Alphago就是基于深度学习算法开发的。
参 考 文 献
[1] 周志华。 机器学习[M]。 清华大学出版社, 2016。
[2] Cover T M, Hart P E。 Nearest neighbor pattern classification[J]。 Information Theory, IEEE Transactions on, 1967, 13(1): 21-27。
[3] Cortes C, Vapnik V。 Support-vector networks[J]。 Machine learning, 1995, 20(3): 273-297。
[4] Chang C C, Lin C J。 LIBSVM: A library for support vector machines[J]。 Acm Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396。
[5] Fan R E, Chang K W, Hsieh C J, et al。 LIBLINEAR: A library for large linear classification[J]。 The Journal of Machine Learning Research, 2008, 9: 1871- 1874。
[6] Lecun Y, Bengio Y。 Convolutional networks for images, speech, and time series[J]。 The Handbook of Brain Theory & Neural, 1997。
[7] Hochreiter S, Schmidhuber J。 Long short-term memory[J]。 Neural computation, 1997, 9(8): 1735-1780。
[8] Cho K, Merrienboer B V, Gulcehre C, et al。 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]。 Eprint Arxiv, 2014。
[9] 化柏林。 知识抽取中的停用词处理技术[J]。 现代图书情报技术, 2007, 2(8): 48-51。
[10] Salton G, Buckley C。 Term-weighting approaches in automatic text retrieval[J]。 Information processing & management, 1988, 24(5): 513-523。
[11] 张玉芳, 彭时名, 吕 佳。 基于文本分类 TFIDF 方法的改进与应用[J]。 计算机工程, 2006, 32(19): 76-78。
[12] Hinton G E。 Distributed representations[J]。 1984。
[13] Mikolov T, Chen K, Corrado G, et al。 Efficient Estimation of Word Representations in Vector Space[J]。 Computer Science, 2013。
[14] Salton G, Wong A, Yang C S。 A vector space model for automatic indexing[J]。 Communications of the ACM, 1975, 18(11): 613-620。
[15] 孙茂松,李景阳,郭志芃,赵宇,郑亚斌,司宪策,刘知远。 THUCTC:一个高效的中文文 本分类工具包[EB/OL]。 http://thuctc。thunlp。org/, 2016。
[16] 方明 , 刘培玉 。 基于最大熵模型的评价搭配识别 [J]。 计算机应用研究 , 2011, 28(10):3714-3716。
[17] Zhang H P, Yu H K, Xiong D Y, et al。 HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17。 Association for Computational Linguistics, 2003: 184-