中文分词在很多方面都有重要的应用,例如搜索引擎、自然语言处理、文本挖掘等。依据中文分词算法使用的方法,可以将之分为三大类: 1.基于词典:基于词典的中文分词,即逐步提取中文语料中的字符串,与字典或词库中的词进行匹配;2.基于统计:需要事先统计词频根据词频统计结果进行分词;3.基于规则:在理解知识的基础上,然后进行分词。
1.2 中文分词研究现状
第一类方法利用词典和相关的汉语词法等知识进行分词。这类算法简单并且易于实现,它们的分词效率也比较高,但是对词典的依赖性较大,不能够灵活适的应需求,这样就不太适合应用于大规模、大批量的中文分词处理。第二类需要统计字和词的词频,即基于统计的分词方法,利用这些信息进行分词,如把相邻字之间的一些信息、与之对应的词频等应用于分词[3],这些信息是在真实的语料基础之上进行统计获得的,因此相比较而言,第二类这种分词方法在实用性上要远优于第一类基于词典的分词算法。本文主要研究最大匹配及扩展算法,这两个算法都属于第一类算法,基于字典的中文分词算法。首先,深入学习最大匹配算法和扩展算法,理解并掌握其原理;其次,搜集、整理各领域的字典,用来测试算法;最后,分析并比较两种算法的分词结果。
1.3 中文分词技术难点
中文分词是进行语义理解的前提,只有正确的进行了分词,才能够使计算机正确识别,属于自然语言处理的内容。但是由于中文本身一词多义等丰富的语言现象,在处理中文分词的过程中面临着许多的难点。
首先中文词与词之间不像英文有着空格作为分界符,因此中文在进行词语的分割处理的时候远比处理英文困难的多。在目前现有的中文分词方法中,占有主导地位的分词方法,是第一类分词方法,即基于词典的中文分词技术。而目前中文分词技术研究的主要困难是对于歧义的消除,和未登录词的识别,歧义和未登录词影响着分词的正确性。
1.3.1 歧义消除
中文分词过程中会产生很多歧义,如果歧义不能正确处理,必然会导致分词结果的错误。除了需要依靠上、下文语义信息;增加语义、 语用知识等外部条件外,还存在难以消解的真歧义,增加了歧义切分的难度[4]。同时语料中的未登录词也会对分词结果造成影响,这使得消除歧义更加难。所以要提高分词结果的正确率,就必须要解决词语歧义的问题,这也是中文分词过程中面临的最困难也最核心的问题。
1.3.2 未登录词识别
未登录词,就是指新词。未登录词在英文中叫out of vocabulary(简称OOV)。未登录词指没分词词表中未收录,但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等[5]。未登录词可以分为两类,一类是专有名词,比如人名、地名、译名等,一类是非专有名词,例如方言、简称、新词等[6]。词典收录的单词数量有限,而未登录词数量巨大,不属于专有名词,因而缺少相应规范的约束 ,而且随着社会生活的变迁 ,随之产生的网络词汇等越来越多,相应的未登录词的数量也远远增多。因此 ,未登录词的识别问题亟需有效的方法解决。
1.4 本文主要内容及工作安排
本文主要讨论基于字典的最大匹配及扩展算法,本论文共分优尔章,具体安排如下:
第一章:绪论。介绍了当前中文分词的发展现状以及中文分词技术的难点,阐述了当前中文分词技术所面临的问题。
第二章:字典。简要介绍中文分词中各类型的字典,并着重讲述用来进行本次最大匹配算法实验的字典。 基于最大匹配及其改进算法的中文分词技术(2):http://www.youerw.com/jisuanji/lunwen_22981.html