中文自动分词系统设计+文献综述(6)
时间:2017-04-28 15:30 来源:毕业论文 作者:毕业论文 点击:次
7) 哈尔滨工业大学的分词系统是典型的基于统计方法的分词系统。该系统通过将上下文中的词联系起来,并将词频统计与此匹配起来,解决部分中文切分歧义的问题。经测试,该系统的正确率到了97.5%,分词速度为236字/秒。 8) 北京大学计算语言学研究所实现的中文分词系统,具有分词和词性标注的功能。该系统通过中文的意义规律,统计模型和隐马尔科夫模型将分词和词性标注结合起来进行分词。实验结果显示,系统的分词和标注的速度在Pentium133Hz/16MB的计算机上达到了3000词/秒以上,而在Pentium Ⅱ/64MB的机器上高达5000词/秒以上。 9) 中科院的中文分词系统。系统提出了一种基于层次隐马尔科夫模型的中文分词方法。系统将中文分词、词性标注、歧义排除和未登录词识别整合到一个理论框架之中。在分词方面,未登录词和字典中收录的普通次进行一样的处理,通过N-最短路径的策略,找回前N个最可能的结果作为获选集合。然后引入隐马尔科夫模型:通过动态规则Viterbi算法标记处全局最优的角色序列,在此基础上,识别出未登录词。 3 中文分词算法 3.1 基于字符串匹配的分词方法 基于字符串匹配的分词方法又叫做机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1)最大匹配法(MM) MM(THE MAXIMUM MATCHING METHOD)方法的基本思想是:假设自动分词词典中的最长词条所含汉字个数为7,则取被处理材料当前字符串序数中的1个字作为匹配字段,查找分词词典,若词典中有这样的一个7字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个7字词,则匹配失败。匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,进行新的匹配,如此进行下去,直至切分到成功为止。即完成一轮匹配切分出一个词,然后再按上面的步骤进行下去,知直到切分出所有词为止。 例如现有短语“计算机科学和工程”,假设词典中最长词为7字词,于是先取“计算机科学和工”为匹配字段,来区匹配分词词典,由于词典中没有该词,故匹配失败,去掉最后一个汉字成为“计算机和、科学和”作为新的匹配字段,重新匹配词典,同样匹配失败,取“计算机科学”作为新的匹配字段,来匹配词典,由于词典中有“计算机科学”一次,从而匹配成功,切分出第一个词“计算机科学”。同样的方法可以切分出第二、第三个词,……。 MM方法据统计错误切分率为1/169.目前,MM方法作为一种基本的方法被肯定下来,但是由于它的错误切分率比较大,故一般不单独使用,而是和其他方法配合使用。 2)逆向最大匹配法(RMM) 与MM方法相对应的方法是RMM(THE REVERSE DIRECTIONAL MAXIMUM MATCHING METHOD),也成为RMM方法。它的分词过程与MM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字,RMM方法的精度要高一些,它的错误切分率为1/245。 如“计算机科学和工程”,首先取“计算机科学和工程”作为匹配字段来匹配分词词典,由于词典中没有该词,故匹配失败。去掉最前面的一个汉字,即取“机科学和工程”作为新的匹配字段,进行匹配,同样的匹配失败,……,最后,取“工程”作为匹配字段,来匹配分词词典,由于分词词典中有“工程”一词,则匹配成功,切分出第一个词“工程”。 (责任编辑:qin) |