还可以将以上所列出的方法相互结合,例如,可以将逆向最大匹配算法和正向最大匹配算法相互结合生成新的更加优化的算法也就所谓的双向匹配算法[4]。我们根据中文中的词大多数是多字词,单个字组成的词比较少见,这样就导致了正向最小匹配算法和逆向最小匹配算法使用的范围就比较局限,对于很多情况者两种算法带来的误差都比较大。从总体情况来看,我们发现,逆向匹配算法带来的切分的效果(和人工切分相比)要高出正向匹配算法一些,遇到的切分歧义的情况也降低了一些。逆向匹配算法稍微比正向匹配算法要优化一些。笔者认为可能与汉语的句子结构的组成有一定的关系。通过大量的统计实验,我们发现如果只是使用正向最大匹配算法进行分词的错误率可以达到0.59%,如果致死使用逆向最大匹配算法进行分词的错误率可以达到0.41%。但是这样的精度虽然看起来已经是很不错的效果了,由于要处理的中文信息量是庞大的,所以即使这样低的错误率也是难以达到我们的实际要求的。在目前可以使用的分词系统中,都是将机械分词算法作为一种开始处理中文信息串的手段之一,如果难以达到我们的要求,我们还可以通过使用其他的中文相关信息来作为提高我们切分的精度的准确性的保障之一。笔者也同时认为机械分词算法的实现是不太复杂的,[5]而且对于大部分汉语串的处理都是可以的,有它自身的优势,我们可以对于机械分词算法处理的不够好的个别数据设计更加优化的算法做进一步实现。文献综述
一种方式是改进扫描的方式,又被称作特征扫描方式或者标志切分方式,我们首先在提供的需要处理的中文字符串中去查找和划分出那些具有明显的特征的词条,我们把这些词作为节点。在节点的位置将一个字符串划分成两个或者多个更小的字符串,然后使用这些比较小的串用机械切词算法来进行切词[6]。这样又大大降低了上一段中提到的正(逆)向最大匹配算法的错误率。
还有一种方式是将分词和词性标注(如图1)结合起来,词性标注会提供词的类别信息杜宇分词决策有很大的帮助。而且我们在词性标注的过程中反而还可以检验,测试和调整,这样也大大地提高了切分的准确率。
Viterbi基于统计语言模型和维特比算法的中文切词技术(3):http://www.youerw.com/jisuanji/lunwen_67476.html