中文自动分词系统设计+文献综述(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

中文自动分词系统设计+文献综述(3)


2.1.3  中文分词的应用
中文分词主要应用于信息检索、汉字的只能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。
通过近几年的发展,互联网已经相当普及,互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果有人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“实现在情报方面的自动化”和“现在是时候出发了”中都有“现在”,被当做同一类来处理,结果是检索“现在”的相关信息,会将他们都检索到,在信息量少的情况下,似乎还能够忍受,如果是海量信息,这样的结果就会令人讨厌了。通过引入分词技术,就可以使机器对海量信息的整理更准确跟合理,在“实现在情报方面的自动化”中“现在”不会被当做一个词来处理,那么检索“现在”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。如今中文分词技术主要应用领域有以下几个方面:
1)汉语语言理解:理解的基础是以词而不是以字为单位。现在有关汉字的处理技术已经达到了实用化,但是汉语理解技术领域,研究工作尚处于试验阶段,采用的方法也大多是英文语言的理解方法。但汉语和英语是两种有巨大差别的语言,在技术应用上很难照搬,必须下工夫探索与汉语语言特点相符合的语言理解技术。中文分词就是一个手先要解决的关键问题。
2)计算机系统的汉语接口:包括系统软件、各种数据库系统、统计处理系统以及各类人工智能系统等。这种类型系统的使用目前停留在“格式化的格式”阶段,即只有当人们熟悉并掌握了一个系统的形式化命令之后,才有可能使用该系统,良好的汉语人机接口必须建立在汉语理解技术的基础之上,所有接口的发展程度也与中文分词密切相关。
3)机器翻译:基于理解的翻译是近年来机器翻译发展的方向。在国外,这方面已经有了一些成功的例子。国内与机器翻译相关的研究工作也正在逐步展开,中文分词的研究很大程度的影响这机器翻译的质量。
4)情报检索:中文文献的自动文摘、内容分析、自动变索引、自动标引以及汉语查询自动构造和修改等问题都涉及到了中文分词。有关情报检索用到的中文分词技术,已经有很多研究人员取得了卓有成效的成果。
5)语言文字的自动处理:词频统计、编制词索引、词结构分析、句型识别、统计分析等问题都会用到中文分词。
6)人工智能和知识工程:中文分词所面临的问题,就难度而言,丝毫不亚于汉语语言理解,它包含了知识的表示、知识的获取、尝试性推理、启发式推理等一系列的基本理论问题。事实上,一个比较好的中文分词系统,其本身就是一个完整的知识系统。
7)智能计算机:在智能计算机中,三大核心组成部分之一就是智能人机接口。中文分词问题是汉语的智能人机接口研制首先要考虑到的问题。
8)汉语语言学:中文分词问题研究对汉语构造词法、语义学、句法学、篇章分析等相关领域都产生了不同程度的影响,对传统汉语语言学的理论体系也会产生较大冲击。一直以来,关于是否构成词的区分方法是汉语语言学家们所集中探讨的问题。
9)认知心理学:有关于英语语言理解的认知模型,国外的专家学者们已经做了很多深入研究。在实际的语言理解系统构造中,也成功的使用了认知心理学的方法。由于汉语语言中存在分词的问题,汉语的认知模型与英语语言理解的认知模型必然会有所不同。它们的不同之处,从心理学观点看,有关分词与理解相互之间关系的研究,将对探索适合汉语特点的理解方法和技术有很大的帮助。 (责任编辑:qin)