毕业论文

打赏
当前位置: 毕业论文 > 研究现状 >

文本分类研究现状综述

时间:2021-08-19 19:40来源:毕业论文
随着大数据时代的到来,无论是离线数据还是互联网数据都是随着指数级增长,那么些巨量的数据主要以半结构化文件和文本结构化为主要,所以,怎么从海量数据中有效快速的查找到

随着大数据时代的到来,无论是离线数据还是互联网数据都是随着指数级增长,那么些巨量的数据主要以半结构化文件和文本结构化为主要,所以,怎么从海量数据中有效快速的查找到我们需要的实用性数据,提高我们的查找准确率会是一个巨大的挑战。而信息的检索首先就是要需要对文本的数据进行有效分类,所以文本分类将是文本数据处理的难点。文本分类就是是随着信息检索的需求而发展起来。文本的分类就是把相同的、有关的文本进行标注和分类,将混乱的文本进行目录化和组织化以达到提高信息检索的效率以及准确率。71068

那么国外从1950年就开始研究文本得分类领域知识。由H.P Luhnp[8]创新地将词频统计的思想应用到了文本得分类中,根据词频的不同去对文本进行分类,这也就是现在文本得分类预处理不可或缺的重要部分。1960年,Maron首次将贝叶斯算法应用到文本分类中[9]。这也是首次采用机器学习算法进行文本分类研究。1975年,由Salton[10]提出的将向量空间模型应用在文本分类中。这是首次将统计学方法用在文本的分类中,通过对文本的特征进行向量化,对于文本标记和模型计算都有巨大推动。以上三个伟大的学者对于文本分类的贡献,基本奠定了现代文本分类研究的基础。

国内的文本分类研究始于上个世纪八十年代初期,1981年,南京农业大学侯汉清教授研究系统的总结了国外的文本分类研究综述,开启了国内对于文本分类的研究。主要研究方向在于特征向量化、特征降维算法、中文分词、智能分类算法方向。比如,清华大学、北京大学、上海交通大学、复旦大学等学校都对中文文本分类进行深入研究。文本分类研究热点主要包括以下几个:

(1)文本预处理算法包括中文词频统计、特征提取和特征向量化,常见的方法有TF、TF-IDF[12]、潜在语义检索[24]。论文网

(2)应用于文本分类中的分类算法包括K近邻分类[11.12]、贝叶斯分类[13]、Rocchio分类[14]、决策树分类[15]、支持向量机[16]以及不同算法的组合[17] 。

尤其是近几年随着大数据云计算兴起后,实现了很多以前难以实现的难题,使得大数据集的存储和计算能够完成,而海量文本就是大数据集的典型应用,所以结合Hadoop和文本分类的研究,近几年国内也开始有一些相关的文献。如上海交通大学[29]首先结合了Hadoop和文本分类进行相关的研究,华中师范大学[30]基于Hadoop的MapReduce开发SKNN的文本分类算法。国内的互联网企业也相应的研究基于Hadoop的文本分类算法,并应用于网页分类、邮件识别、用户浏览行为研究等。

文本分类研究现状综述:http://www.youerw.com/yanjiu/lunwen_80630.html
------分隔线----------------------------
推荐内容