阅读者关键词自动提取快速而且有效的查找自己所需要的文本信息,这就是关键词自动提取的一个目的。此外,关键词自动提取也可以作为文本自动分类、信息检索、自动文摘等信息处理的前期工作。如果先对文本进行关键词提取,然后再对关键词做相应的处理,则可以加快处理速度,这对于大量的文本处理工作是绝对价值的。关于关键词的理解可以从“关键和”“词”这两方面进行。《新华字典》中对于“关键”和“词”解释分别是:“比喻事物最关紧要的部分;对情况起决定作用的因素"和“语言里最小的可以独立运用的单位”。所以,关键词提取的过程也就是从文本的内容中提取出对于文本内容表达最重要的语言单位。本文研究的关键词提取是由计算机来自动完成,借助计算机强大的计算和自动处理能力,从中文语言形式的电子文本中,提取出若干个能够涵盖或概括原文核心内容的重要词汇,对于提取的关键词要求具有概括性、客观性以及可读性。
2.3 中文分词技术
中文分词技术指的是将一个个汉字序列切割成一个个独立的词语。分词也就是将连续的字序列按照一定的规则重新组合成词语序列的过程。在英文的文本中,单词和单子之间的分界符是用空格来充当的,而在中文的文本中能够明显做划分的分界符的只有句字和段落,而词语在形式上是没有明显的分界符的,虽然英文也同样存在短语之间的划分问题,但是在词和词这一层面上,中文分词相比于英文分词就要困难的多、复杂的多。
2.3.1 中文分词的背景
中文分词技术在基本文语法上有着它的特殊性,具体表现在:
(1)在英文中可以以空格可以作为天然的分隔符,而在中文中,则因为继承着古代汉语的悠久传统,词语和词语之间是没有天然的分隔符的。古代汉语中除了人名地名和连续词等之外,词语通常就是单个的汉字,所以从古至今中文文本就没有分词书写的必要。而在现代的汉语中双字或多字词比较多,一个字已经不再等同于一个词。
(2)在中文里,“词”和“词组”的划分边界是比较模糊的。在现代汉语中的基本表达单位是词,其中不仅仅有单子词,双字词和多字词也比较多,因为每个人的认识水平是不同的,对也词和短语的划分边界的区分还是很难达成共识。例如:“对乱穿马路者给予处罚”,“乱穿马路者”它本身是一个词还是一个短语,不同的人就会有不同的理解,同样的“海上”“酒厂”等等,即使是同一个人也可能会做出不同的判断,所以,如果说汉语真的要分词书写,必定会出现理解上的混乱,难度极其大。
中文分词的方法其实不仅仅局限于中文文本的应用,也会被应用到英文文本处理,比如手写识别,单词之间的空格就很清楚,中文分词方法也可以用来判别英文单词的边界。中文分词的作用在于它是文本关键词提取的基础,把输入的一段中文文本,成功的将其进行分词,达到电脑自动去识别词语词性的效果。中文分词技术其实是属于自然语言处理技术范畴,对同一个句子,人们根据自己的理解来判别哪几个是词,哪几个则不是词式很容易的,但是如果要让计算机也能做到这一点应该怎么做呢,这个处理的过程就是分词算法了。
而中文分词技术相对于搜索引擎来说,去找全部文本并非最重要的,因为在上百亿的网页文本中去找所有的返回结果是不现实的,也不可能有人可以阅读全部,所以,把相关度最高的排在前面就可以达到我们所需要的目的了,这就是相关度排序了。影响搜索结果的相关度排序的因素就是中文分词的精准度了,如果从定性分析的角度考虑,应用的词库不同,分词算法的不同都是检索结果的影响因素。 TF-IDF算法文本关键词的提取及优化研究(3):http://www.youerw.com/jisuanji/lunwen_12268.html