1958年,Luhn提出了采用词频统计来提取摘要的思想。他采用词语的频率与分布信息来估计每个词语的相对重要度。然后再估计每个句子的相对重要度,得分高的句子就被抽取为摘要。
60年代,Maron的工作把文本分类向前推进了一大步。他开创性地采用了贝叶斯公式来进行文本分类,用一组标引词来代表一篇文档,统计每个标引词在每个类别下的概率,计算该组标引词同每个类别的后验概率,最后挑选后验概率最大的类别作为该篇文档的类别。5773
从60年代到80年代,采用知识工程的文本自动方法一直处于领导地位。这一阶段的主要特点是采用人工的方式来构建分类器。
90年代以后,基于机器学习的自动文本分类方法逐步占据统治地位。因为基于机器学习的自动文本分类的正确性完全可与人工专家相当,但分类速度却要远远高于人工专家。几乎所有重要的机器学习算法都被引入到文本领域中来。比如最小二乘拟和回归模型、最近邻、贝叶斯、决策树、神经网络、线性分类器等等。
90年代中期Vapnik提出了著名的支持向量机。支持向量机利用了结构风险最小化的原则,对有限样本情况下的分类器设计具有很好的效果。Joachims率先将其引入到文本分类中来。在这以后的很多文献中,支持向量机都表现出了较好的分类质量[1]。
国外对于文本分类的研究开展较早,在以下一些方面取得了不错的研究成果。
a) 向量空间模型的研究日益成熟。
b) 特征项的选择进行了较深入的研究。
c) 完整的分类算法的研究和比较。
d) 逐渐开始研究未标记文本对文本分类系统的影响。
e) 逐渐将文本分类技术应用到某些特定的信息服务中。
国内对于文本分类的起步较晚,而且中英文之间存在较大差异,国内的研究无法直接参照国外的研究成果,所以中文文本分类技术还存在这一些问题。
a) 缺少统一的中文语料库不存在标准的用于文本分类的中文语料库。
b) 向量空间模型的研究还不十分成熟。
c) 文本分类算法的研究不十分完整每个分类器通常只实现一种分类算法,然后进行测试和分析,缺少完整的多种分类算法性能的比较和测试。
d) 文本分类技术与其他信息技术尚未很好结合
文本分类国内外研究现状:http://www.youerw.com/yanjiu/lunwen_2956.html