中文自动分词系统设计+文献综述(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

中文自动分词系统设计+文献综述(4)


2.1.4  中文分词系统的目标
把字串分隔成词串, 就是中文分词系统需要做的工作。显而易见, 自动识别词边界, 将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题, 也是汉语分词系统的主要任务。简而言之, 即要求准确、高效、通用及适用。
    1)准确性
准确率是分词系统性能中最重要的核心指标。现在的分词系统中你,有些准确率已达到98%~99%, 光从数据上看似乎已经很高了, 其实不然。这样的分词系统如果被用来支持中外翻译系统,现在假设平均每句语句有10个汉语单词,那么以之前的概率来计算,10句语句中就会切分错1-2个词,含有错误分词的1-2个词就不可能被正确翻译。于是仅仅由于分词阶段的准确度欠佳, 中外翻译系统的翻译准确率就降低10%~20%。进一步分析,对中文分词来说,其更大的作用是对大规模语料库进行加工,从而为上层系统提供统计数据和各种知识。
如果分词产生错误则会在最后的统计结果中积累起不可忽视的“垃圾”,从而给上层的应用系统带来相当严重的影响。由此可见, 分词系统的准确率应达到99.9%以上,这样才能基本满足上层使用的要求,换句话说,及时提高千分之一的准确度,对实际应用都是非常有意义的。
2)运行效率
分词是各种汉语处理应用系统同的、基础性的工作,这步工作消耗的时间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉, 由于汉语自然语言处理的应用系统处理对象越来越多的是大规模语料库,所以分词系统的处理速度越快越好,在普遍使用的平台上大约每秒钟处理1万字或5千词以上为宜。
3)通用性
随着互联网的普遍应用,中文平台的处理能力不能仅限于我国,仅限于字处理,仅限于日常应用领域。作为各种高层次中文处理的共同基础, 自动分词系统必须具有很好的通用性。分词系统应支持不同地区的汉语处理,能适应不同地区的不同用字、用词,不同的语言风格,不同的专有名词构成方式;支持不同领域的应用以及不同的应用目标。同时, 系统还应该具有良好的可移植性, 能够方便地从一个系统平台移植到另一个系统平台上而无需很多的修改。当然, 完全的通用性很难达到。
    4)适用性
中文分词是只是手段而不是最终目的, 任何分词系统产生的结果都是为某个具体的应用服务的。好的分词系统具有良好的适用性, 可以方便地集成在特定应用的系统(如全文检索系统)中。
2.2  中文分词技术研究现状
自20世纪80 年代初中文信息处理领域提出了中文分词以来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率、功能角度来看,都还不能满足实际需求,由于中文语言的复杂性使之一直处于发展阶段。目前中分词算法也是各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词技术包括四种方法:1)基于字典直接匹配的分词方法;2)基于理解的分词方法;3)基于统计模型的分词方法;4)基于语义的分词方法。
这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上的特点和用途上的区别,比如基于字典直接匹配的分词方法,虽然分词速度较快但是因为直接对此进行匹配,产生歧义较大;而基于规则和理解的分词方法,需要通过计算机模拟人对句子的理解,以此完成分词,这高度概括,总结中文语法就提出了很高的要求,因此目前还处于实验阶段;基于统计模型的分词方法,通过分析已有语料库出现的概率,以及出现配对频率高的词的固有关系,得出统计结果,用于分词。分词效果较前两种好上不少,但由于需要对已有语料库进行预处理,这需要投入大量的人工劳动,复杂性高,规模大,同时由于在分词中的大量数据库间的概率计算,所以实时性和速度较前两种稍差。 (责任编辑:qin)