在国外,研究关键词提取的起步是比较早的,21世纪60年代,美国就已经提出了关键词自动标引,到现在已经有差不多五十年的发展历史了。关键词的提取是文本自动化处理的基本工作之一,因为中文文本中没有明显的词边界使得关键词的提取有了一定的难度。当下,国内关键词提取还是使用传统的统计方法,先提取出名词和动词,然后通过计算这些词的权重值,最后权重值比较大的就确定为最终的关键词。候选词的权重是由它反映文本主题的重要性决定的,能够较好反映文本主题的词语就会被给予较大的权重值。所以,候选词权重大的可以就确定为文本关键词提取的核心。根据过去的论文网研究发现,在候选词和文本主题的关系上,候选词的位置和词频也同样是重要的因素,通过研究这两点因素,诸多学者提出了很多计算候选词权重的算法,遗憾的是并不是很尽如人意。20481
在国内也有诸多学者深入研究了中文文本关键词的自动化提取,但是中文文本的关键词提取相比于英文文本的关键词提取要更加具有挑战性,原因是中文中没有明显的词边界。并且,由于中文分词技术的发展不是很快,分词效果也不是很理想,在很大程度上会受到一定的限制,主要还是体现在关键词提取的精度方面。因为这一点,国内有不少学者提出了基于字的中文关键词提取算法,用来避开分词环节。比如,通过在字的基础上构建出Pat.Tree来获取词串,短语识别借助字与字之间的相互信息来实现,然后再提取关键词,这个算虽然有效地避开了分词的环节,但是PAT树的存储空间实在太大,而且计算过程也相当的复杂,所以这种算法其实是缺乏实际应用的可操作性的。以字为处理单位,虽然避开了分词以及抽词的过程,以字出现的频率作为依据提取文本关键词,但是,因为中文中的字词组合方式实在太过于丰富,而且也很难从这些词的组合中找出规律,所以,这种方法的准确率往往比较低。所以,现在大部分的中文关键词提取方法还是在中文的分词技术的基础上进行的,先通过分词技术进行分词,将文本切割成一个个独立的词语,并把这些词语的词性标识和词频统计等都整理好,然后再采用统计学方法、机器学习方法或语义分析方法进行关键词提取。在对文本进行自动分词之后,统计词在文本中出现的次数,以及出现的位置,然后综合词频和位置这两个因素,采用非线性函数和“成对比较法”相结合起来的方法计算每个词的权重,并取权重最大的前几个为最终的关键词。目前常用的算法就是TF-IDF算法,就是通过对文本进行分词计算,获取文本的分词集合,然后统计分词集合中每个词的特征频度TF和反文本频度IDF,再采用TF-IDF算法进行权重计算,根据词语的TF-IDF权值来选取文本关键词。英文的关键词提取较之中文相对简单,经过许多年的发展,已经涌现出很多优秀的提取方法供我们借鉴。 关键词提取技术国内外研究现状:http://www.youerw.com/yanjiu/lunwen_12269.html