中文自动分词系统设计+文献综述(8)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

中文自动分词系统设计+文献综述(8)


    1)专家系统分词法
    从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的文护与推理机的实现互不干扰,从而使知识库易于文护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
    2)神经网络分词法
    该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。
    3)神经网络专家系统集成式分词法
    该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。
3.3  基于统计的分词方法
    基于统计的分词方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
    该方法所应用的主要的统计模型有:N元文法模型、隐马尔科夫模型和最大熵模型等。在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
3.4  基于语义的分词方法
    语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。
    1)扩充转移网络法
    扩充转移网络法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络(RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。
    2)矩阵约束法
矩阵约束法的基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
在一个实际的系统中,具体采用哪类分词方法,其实没有一个确定的答案。大多数系统的开发者首选基于词典的分词方法,因为这种分词方法具有算法简单、运行效率高等特点。但是随着中文分词技术研究的不断深入,单独利用规则的方法会由于规则获取的限制,将越来越不能满足逐渐加快的信息的产生速度和识别速度的需求。单独利用统计的方法,由于不能很好的表现词语内部的结构特征和最多的融合语言学信息,也将不能达到最好的效果。因此,在中文分词系统方面,各种分词方法相结合的技术模式将会成为主流,利用语言学家研究的成果以及更好的统计模型,将各种信息融合起来,达到最好的识别效果是我们的目标。 (责任编辑:qin)