文本自动分类国内外研究现状 国外对文本自动分类的研究开展较早,50年代末,H. P. LUhn 在这个领域进行了开创性的研究,提出了基于词频统计思想的文本自动分类方法。1960年,Maron发表了关于自动分类算法的第一篇论文,随后以K. Spark , G. Salton 以及K. S. Jones等人为代表的众多学者也在这一领域进行了很有成效的研究工作,目前国外的文本分类研究已经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方面取得了广泛的应用,其中较为成功的有麻省理工学院为白宫开发的邮件分类系统和卡内基集团为路透社开发的const rue 系统
相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。本文来自优~文^论#文,网,
毕业论文 www.youerw.com 加7位QQ324.9114找源文在很长一段时间内,中文文本分类的研究没有公开的数据集,使得分类算法难以比较。现在一般采用的中文测试集有:北京大学建立的人民日报语料库、清华大学建立的现代汉语语料库等。其实一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程和英文文本分类相同,也就是随后的文本分类过程独立于语种。因此,当前的中文文本分类主要集中在如何利用中文本身的一些特征来更好地表示文本样本。国内对于文本自动分类的研究起步较晚,但从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。
1981年,侯汉清教授对计算机在文本分类工作中的应用作了探讨和阐述。此后,我国陆续研究产生了一些文本分类系统,其中具有代表性的有上海交通大学研制的基于神经网络算法的中文自动分类系统,清华大学的自动分类系统等。同时在不同的分类算法方面也展开了广泛的研究和实现,中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类,召回率达到94.2 %,准确率达到99.4%。中国科技大学的范众等人在KNN、贝叶斯和文档相似性研究的基础上提出了一个超文本协调分类器,正确率接近80%,它的特点是适当的考虑了HTML 文本中结构化信息。复旦大学和富士通研究中心的黄萱菁、吴立德等人研究了独立语种的文本分类,并以词汇和类别的互信息量为评分函数,考虑了单分类和多分类,最好的召回率为88.87%。上海交通大学的刁倩、王永成等人结合词权重和分类算法进行分类,基于VSM 的封闭式测试实验中分类正确率达到97%。
目前,一些比较成熟的经典的文本分类算法己经被应用到了文本分类中,主要包括:决策树方法(经典的决策树算法主要包括:ID3 算法、C4.5算法和CART 算法等)、神经网络方法(BP 算法)、遗传算法( GABIL 系统)、贝叶斯分类、K2近邻算法和基于案例的推理。粗糙集方法、模糊集方法和支持向量机是较新的分类方法。
发展趋势
新分类方法不断涌现,比如基于群的分类方法和基于粒度计算的分类方法。新分类方法出现得益于人工智能、机器学习、进化计算和粒度计算等领域中新技术的涌现和发展。
传统分类方法的进一步发展,比如支持向量机的不断改进和KNN 方法的发展。传统分类方法的发展主要利用了机器学习、进化计算、数据挖掘、模糊集和粗糙集等理论中的原理和方法。
根据实际问题需要,有针对性地综合众多领域的技术,以提高分类的性能。
文本、语音和图像分类技术的融合,随着互联网和多媒体技术的进一步发展,文本分类技术将与图像识别、语音识别融合,比如图像文本的分类、语音文本的分类、多媒体数据库索引等。2858
文本自动分类国内外研究现状下载如图片无法显示或论文不完整,请联系qq752018766