近些年来,随着中文电子文本的增多,计算机处理速度的日益增长。虽然需要投入较多的前期语料库预处理,但是考虑到统计模型的良好分词效果基于统计的分词方法越来越受到众多研究人员的青睐。但是,究竟哪种分词方法更好,能够成熟的用于分词系统,目前尚无定论。实际上不能简单依靠单一算法实现,现在的成熟分词系统往往都需要综合不同的算法。
下面将对几个比较有代表性的在当时产生了较大影响的中文分词系统做一下简单介绍:
1) CDWS(The Moderm Written Chinese Distinguishing Words System)自动分词系统是我国第一个实用性的中文分词系统,由北京航空航天大学计算机科学与工程系于1983 年设计实现的。CDWS系统采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。CDWS的切分精度约为1/625(人工干预,不考虑多音字构成所引起的分次错误),基本上满足了词频统计和其他一些领域的应用要求。CDWS系统是在HP3000计算机上设计实现的,其分词速度为5~10 字/ 秒。同时,在自动分词的理论上做了深入细致的探讨,首次证论了自动分词的可行性,初步建立了一个描述书面汉语的计算模型,对自动分词的有关概念和术语都给出了明确的定义,并且把歧义切分字段也首次作了分类。[3]
2) ABWS(Association-Backtracting Word Segmention)现代汉语自动分词系统是山西大学计算机系研制的自动分词系统,系统使用的分词方法称为“两次扫描联想回溯”方法。用联想-回溯来有效地解决歧义组合构成的切分同时兼有自动检错和纠错的功能。该系统由语料管理、词库管理、分词和统计四个子系统组成。词库中收集了50万条词。分词子系统较好的利用了语言学中的词汇知识、句法知识,并且有调用分词规则切分歧义字段和回收生词等功能,其切分正确率为98.6%(不包括非常用、未登录的专用名词),运行速度为48 词/分钟。
3) CASS(Chinese Automatic Segmentation System)现代(书面)汉语分词实用系统是北京航空航天大学于1998 年实现的分词系统。它使用的自动分词方法是正向增字最大匹配法ASM(+1,+1,1)(变形的MM方法)。CASS系统是在IBM4361中型机的VM/SP(Virtual Machine/System product)操作系统CMS(Conversational Monitor System)环境下使用VSFORTRAN编程语言(FORTRAN77的扩充集)设计的。CASS系统使用知识库来处理歧义字段。它的机械分词速度可高达200字/秒以上,知识库分词速度150字/秒(没有完全实现)。[4]
4) 书面汉语自动分词专家系统是北京师范大学实现的,他首次将装甲系统方法引入到分词系统中。其结构包括句子分解模块、知识库内存映象模块、知识库文护模块、句子合成文章模块、结构检测模块、词频统计模块、推理解释模块。它使知识库的文护与推理机的实现互不干扰,从而使知识库易于文护和管理。其对封闭预料的切分精度达到99.94%;对开放语料的切分精度达到98.84%;切分速度在386机上达到200字/秒左右。
5) 清华大学先后开发的SEG和SEGTAG中文分词系统。此系统从信息综合角度出发,提供了带回溯的正向、反向、双向最大匹配法和全切分法,用户可以自主选择合适的切分算法。SEG首先提出了全切分的概念,即从输入的中文语句中找出所有可能的切分方式,再从所有可能的切分方式中选出最优切分结果。该系统精度可达99%左右,切分速度为30字/秒,并能处理一定的具有未登录词的文本。
6) 复旦大学的分词系统。该系统由四个模块组成:一、与处理模块,通过标示符将输入的中文语句切分为较短的语句串,这些标识符包括标点符号、数字、字母等非中文字符和文本中常见的一些字体、字号等排版信息;二、歧义识别模块,对输入语句进行正向最小匹配和反向最大匹配双向扫描,假如两种扫描结果一致,则认为切分正确,否则就视为切分歧义,需要进行排除歧义的处理;三、歧义字段处理模块,该部分通过对词语的规则和词频统计信息的筛选来进行切分排歧;最后是未登录词识别模块,通过实验,对未登录词中文名的识别达到了70%的精度。 中文自动分词系统设计+文献综述(5):http://www.youerw.com/jisuanji/lunwen_5927.html