1)分词精度。分词精度是指切分的正确率。它是自动分词系统的一个重要技术指标。由于中文文本是按句连写,词间无空格,因而在中文文本处理中,首先遇到的问题是词的切分问题。分词的正确率将直接影响更高一级的处理。影响分词正确率的主要因素有两个:歧义切分问题和中文姓名、地名、机构名等专有名词的识别。为了提高分词系统切分正确率,应该从整体性能,歧义处理和专业词识别等三个方面进行性能测试。论文网
2)分词速度。分词速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助手 如联想,基于规则的,神经网络,专家系统等方法更应注意这一点。影响分词速度的因素有:汉字串机械切分时查词典的时间、歧义字段的查找和歧义字段的校正。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计,有时会严重地影响切分速度,这也是应考虑的因素。
3)功能完备性。自动分词系统除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。
4)可维护性。该属性包括改正性维护、适应性维护和完善性维护等。这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重的,因为这类软件需要不断提高与改进,使之适应中文信息处理的各种应用。
5)可移植性。可移植性是指应用系统能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词系统不应该只能在一种环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。
2.2中文分词的研究现状
3 中文分词主要算法
从开始研究中文分词算法到现在,虽然没有出现非常完美的分词算法,但是也还是出现了许多比较好的分词算法,目前的分词算法主要包含基于字典的分词算法,基于统计的分词算法和基于理解的分词算法。
3.1基于字典的分词算法
基于字典的分词算法又叫机械分词算法,这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)[4]。根据扫描方向的不同分为正向匹配和逆向匹配;根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配;根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下:
1)逐词匹配法。逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。
2)正向最大匹配法(Maximum Matching Method)通常简称为MM法。其基本思想为:设D为词典,MAX表示D中的最大词长,string 为待切分的字串。MM法是每次从string中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。
3)逆向最大匹配法(Reverse Maximum Matching Method)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,显然RMM法在切分的准确率上比MM法有很大提高。基于词典的分词算法,对于在词典中的词分词的精确度很高,但是不能很好的解决歧义问题,经常和其它分词算法结合在一起应用。