毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
中文自动分词系统设计+文献综述(2)
分词技术作为自然语言处理的基本环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难以处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只要提高中文分词
系统
的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。相信在不久的将来,计算机科学技术的进一步发展能将人类文明推向新的高度。
2 中文分词概述
2.1 中文分词的概念
2.1.1 什么是中文分词
中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓中文分词,指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。[5]我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
比如
英语
句子“A lazy youth,a lousy age”,中文意思为“少壮不努力,老大徒伤悲”。对于英语句子来说,只有通过空格和标点符号来切分即可,并且不会产生歧义。在中文句子“少壮不努力,老大徒伤悲”中“老大”和“老”、“大”都有可能构成词,要让计算机明白什么时候应该切分出一个词汇,相对于英语来说,难度有质的不同。
中文分词的过程,就是要把一句话中有意义的词汇都切分出来。在“少壮不努力,老大徒伤悲”这句话中,正确的切分应该是“少壮/不/努力,老大/徒/伤悲”。
词是中文中最小的有意义的独立单位,但是这最小的单位却没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互,就必须让计算机能够自然语言。只有当中文字符串组成的句子被准确地转化为词之后,才能继续进一步工作。比如一个中英文翻译系统,如果连词汇都不能正确切分,翻译得到的英文是不可能符合原义的。
在自然语言处理领域,国外大大领先于我国,已经做出很多卓有成效的研究,但是那些研究大多基于西文,并是以正确切分出单词为前提的。如果不能很好地完成中文分词这道工序,就不能采用这些研究成果。
2.1.2 中文分词的意义和作用
要想说清楚中文分词的意义和作用就不能不提到智能技术。智能计算技术涉及的学科包括
物理
学飞、数学、通讯、
电子
机械
、计算机科学、心理学、进化论和
生物
学等等。也就是说,所谓智能计算就是让机器“能看会想,能说会讲”。想要实现这样的一个目标,面临的首要任务就是让机器理解人类的语言,只能机器能够理解人类的语言文字,才能使得人与机器之间的交流成为可能。反观我们人类是类使用的自然语言,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文分词来讲,将词汇确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现真正的智能计算机。
从现阶段的实际情况来看,英语已经跨越了分词这一步,也就是说在词的利用上已经先中文一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,才能希望赶上并超越英文在信息领域的发展,所以中文分词意义重大,可以说直接影响到使用中文的每个人的方方面面。
共9页:
上一页
1
2
3
4
5
6
7
8
9
下一页
上一篇:
基于.net的企业级系统架构的设计与实现
下一篇:
ASP.NET旅游信息服务系统的设计与开发
风机风量自动报警装置【517字】
JSP网页自动生成工具的设计与实现【4080字】
IPv6的配电自动化系统通信网络构架【2649字】
Android+Qt自动视力检测系统设计
RFID标签超市货物自动盘点器的设计
ATM自动取款机的功能模拟实现
基于加权LBP的自动人脸识别系统实现
中国学术生态细节考察《...
公寓空调设计任务书
C#学校科研管理系统的设计
承德市事业单位档案管理...
国内外图像分割技术研究现状
神经外科重症监护病房患...
AT89C52单片机的超声波测距...
医院财务风险因素分析及管理措施【2367字】
志愿者活动的调查问卷表
10万元能开儿童乐园吗,我...