汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”我们还知道,“词是最小的能够独立活动的有意义的语言成分。”计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。切词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符。实际上,这就是汉语词语的识别过程。分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相当关键。
2.1.3中文分词的应用
中文分词技术主要应用于信息检索,汉字的智能输入,中外文对译,中文校对,汉字简繁体转换,自动摘要,自动分类,机器翻译,语音合成等很多方面[2]。“没有中文分词,其他一切深入的中文信息处理都无从谈起。”下面以文本信息输入,文本检索为例来说明中文分词的应用。
1)拼音输入中的同音词自动辨识。据统计:汉语单字同音现象非常严重,以6763个汉字为例,无同音字的汉字只有16个,其中最多的有116个同音字.相比而言,汉语词的同音现象则有很大改善,以)52505的词表为例,其中,35942个词语没有同音词,因此大多数同音字可以依靠词来确定。如“一只漂亮的铅笔”“zhi”的同音字有“只,枝,直,之”等,但这里“只”与“笔”合理搭配。又如“yi”对应的同音字“以,一,已,意易,衣”等。可以在“以为,已经,一定,容易,衣服”中来确定。由此看出:分词对同音词自动辨识所起的作用。
2)汉语的多音字自动识别。汉语中也存在着大量的多音字,计算机对他们的识别也需要扥词的帮助。如“校,重,行,乐,率,分”等多音字,无论是拼音自动标注还是语音合成都需要识别出正确的拼音,而多音字的辨别可以利用词以及句子中前后词预警,即上下文来实现。如以上几个字在以下几组词中得意定音:“学校/校对、行列/行进、重量/重新、快乐/音乐、率领/效率、分别/水分。”
3)互联网信息的有效搜索。近几年来,互联网的信息急剧膨胀,各类信息混杂在一起,要想充分多的利用这些信息资源就要对他们进行整理。如果由人来整理如此海量的信息,那是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果则由于古语粗糙而导致资源浪费的不可用。如“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有和服,却被当做同一类来处理,结果是检索“和服”的相关信息,他们的相关信息都会被检索到。在信息量很少的情况下,似乎还能忍受,如果是海量的信息,这样的结果会令人讨厌。实践表明,通过引入分词技术,就可以是计算机相对海量信息的整理更加的准确合理。
2.1.4中文分词系统的性能指标
自动分词系统的最核心的工作是进行分词。对于一个实用化的分词系统而言,不仅要求在分词速度和分词精度方面满足一定的要求,而且要像开发大型传统软件那样,在各个阶段不断地进行评价,其目的主要是检查它的准确性和实用性,分词系统的性能指标主要有以下几个方面: