中文自动分词系统设计+文献综述_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

中文自动分词系统设计+文献综述

随着社会的发展,科学的进步,人类在不知不觉中进入了一个“信息大爆炸”的阶段,人类通过电视、报纸、收音机、户外媒体等所接触的各种资讯以飞一般的速度增长。在这个各种文字信息快速传播的社会里,无论是个人、企业还是国家,信息的重要性与日俱增。在这个接触过程中,计算机所参与的分量越来越多,人类的各种语言和符号是人类之间相互交流,理解彼此间意图的一个纽带,在这个过程中,语言起到了一个根本性的作用。7829
当人们发现计算机在很多发面能够帮助人甚至代替人完成一系列的工作,人类就期望计算机能够直接理解人类的语言,甚至能够在某种程度上具有一定的智能。但是由于计算机不能直接处理人类的自然语言,因此必须通过特定的软件和人机接口来达到这种目的,使计算机能够理解人们要它做什么,以及应该怎么做。如何高效、快速、准确的处理海量文字信息成为了技术人员和实际工业界应用的热点。在中国,据统计80%以上的信息是以语言文字为载体。国务院制定的国家中长期科技发展纲领中也明确指出:“中文信息处理市高新技术发展的重点”。
    计算机在数字处理和运算方面的成就都已有目共睹。相比这些领域的应用,在自然语言处理方面,无论发展程度还是使用程度都相对滞后。从研究现状来看,自然语言理解和处理的理论体系仍未在真正意义上建立,技术手段仍然比较单一。
    自然语言作为人类思想感情最基本、最直接、最自然地表达方式,是人类社会中最常用的交流工具。随着信息时代的到来,人们使用自然语言进行通信和交流的形式也越来越趋于多样性、灵活性和广泛性。然而,人脑是如何来建立自然语言的思文过程?如何来建立自然语言、知识和客观世界之间可计算的逻辑?诸如此类一系列问题一直困扰着自然语言处理的研究者们。目前用计算机来处理自然语言的应用大部分情况下都不能满足人们的需求。语言之间的障碍已成为21世纪制约人类发展和全球化的一个重要因素,自然语言处理的研究肩负着打破不同语言之间的壁垒,为人与人、人与计算机之间的交流提供高效实用支持的重大任务。
    自然语言处理的研究范围极为广泛,是一门集认识科学、计算机科学、语言学、数学和逻辑学、心理学等众多科学与一身的交叉科学。不仅涉及语言学本身,而且包括了人脑对语言处理的机理,语言习得的过程,还包括了语言知识的表达方式与现实世界的关系等内容,它具有重大的科学意义和实用价值。
中文自然语言处理是通过计算机对于中文的识别、存储、传输等一系列工作的一门科学,随着计算机在我国各个领域的不断深入应用,中文信息处理技术得到了一个很大的发展,中文信息处理的过程分为三个阶段:字阶段,词阶段,句阶段。在这三个阶段中,后一阶段以前一阶段为基础。通过20多年的发展研究,人们发现让计算机能够理解中文自然语言最有效得意的方法是通过句子,而不是让每个字或者词孤立的让计算机去理解,而处理句子最核心的就是分词,即将句子切分为正确的字符串,我们称之为中文分词。
不同于英文,中文分词是中文信息处理的基础,是如何将语句的词语正确切分开的一种技术。中文分词是我国少数的几项具有国际领先水平的信息技术,作为现代中文输入中的一个部分已经在各个方面得到了广泛而深入的应用,其主要的应用场合是:人工智能,搜索引擎,信息检索,机器翻译等。因此研究出一种比较适合这些场合的中文分词方法也就显得很重要。 (责任编辑:qin)