4)双向匹配法。双向匹配法将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。总体来说基于字符串匹配的分词方法的优点是算法简单、易于实现,缺点是匹配速度慢、存在歧义切分问题、缺乏自学习的智能型。
对机械分词的其他改进方法还有设立切分标志法和结合词性标注法:
设置切分标志法,次方法优先在待分析字符串中识别出一些具有明显特征,一般不和其他字组合成词,而是作为单字词出现的字,把这些词作为断点,将原字串切分为较短的串再来进行机械分词,可以提高切分的准确率。文献综述
可以把分词和词性标注结合起来,利用词典中丰富的词性信息对切分提供帮助,并在标注过程中对分词结果进行检验,也能提高分词的准确率。
为了加快匹配速度,人们在词典的分类及结构组织等方面进行了大量的研究。有的系统中,词典除了基本词典之外又设计出扩展词典,例如数量词词典,停用字词典,临时词典等。为了提高查找速度,有时又被分为单字词典、双字词典、三字词典、四字词典和多字词典等。
机械分词法算法简单,容易实现,并且切分速度较快。但由于此方法只用一个静态的词典来处理所有的中文信息,不能识别词典中没有出现过的词即未登录词,也不能处理分词歧义问题。所以在自动分词系统中,通常将机械分词法作为初分手段,再利用其它的方法来继续处理以提高分词的准确率。
3.2基于统计的分词算法
该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。具体操作起来,我们可以借鉴信息计量学的方法,定义两个字的互现信息,并最终计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
这种方法有一定的局限性,会抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典( 常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。