断路器故障国内外对断路器故障的研究,主要集中于对断路器机械性能的研究,和对断路器触头电寿命研究[1]。根据HoidaIen。K,Runde。M的调查,80%的高压断路器故障是由于机械特性不良造成的,所以对断路器机械性能的研究非常重要[2]。关永刚[3]等阐述了影响真空断路器和某些SF 6断路器触头寿命的因素,主要包括灭弧室、灭弧介质和触头三个方面,而其中起决定作用的是触头的电磨损。80149
这些学者的研究,侧重于从断路器故障原因和影响的角度研究断路器故障,而较少有从文本挖掘角度提取断路器的特征信息。本文将利用文本挖掘技术,开发一种基于文本挖掘技术提取断路器故障特征信息的方法。
2 文本挖掘技术
文本挖掘这一概念是在1995年Usma M。Feldman[4]首次提出的。属于新兴、前沿、活跃的学科研究领域。文本挖掘技术的演化过程,大致可分为:
(1)初期的信息抽取阶段
(2)中期的文本挖掘阶段
(3)目前的网上抽取信息阶段。
现将比较经典的文本挖掘技术简要介绍如下:
(1)初期信息抽取阶段
Gerald DeJong[5]于1982年设计了FRUMP项目。这个系统包含了一系列脚本,这些脚本能够扫描新闻专线网络,处理新的存档,以实现提供对于主题的事件描述[6]。这是最早的实现信息抽取的系统。论文网
(2)中期文本挖掘阶段
赫尔辛基大学曾经利用知识发现技术(KDD)进行过一次将数据挖掘技术应用于这些半结构化文本的文本挖掘研究试验。他们对文本预处理非常重视,尝试将数据挖掘技术直接应用于经过预处理的文本信息[7]。Feldman通过为文本建立一个有意义的概念集合来获取知识,这是信息抽取中最简单的形式,概念的层次结构可以非常清晰的被展示出来,有利于挖掘概念和文本之间的关系,这成为了文本分类的有效方法[8]。目前世界上相对先进的文本挖掘系统有Document Explorer系统,这套系统可应用于不同类型的文本信息,包括Web文本[9]。
(3)网上抽取信息阶段
Etzioni[10]是第一个对万维网上的超文本信息资源应用数据挖掘技术的人,这种技术即web挖掘技术。Soderlan[11]在对万维网上的信息资源进行数据挖掘方面作了大量创新,并且利用自然语言处理技术使用不同的html资源来解释天气预报[12]。现阶段文本挖掘的一大热点问题也是重要研究方向就是互联网数据挖掘问题。
目前,如何对高维文本数据降维从而提取文本特征收到了文本挖掘研究领域的热烈关注,在研究层面上也开始更注重实践操作层面,即把文本挖掘技术与各个专业领域结合起来推进各个领域的发展,如通过挖掘互联网上人们对于股票发表的言论的情绪色彩来股票预测、网络舆情监督等。
随着大数据时代的来临,文本挖掘技术收到了学术界与企业甚至政府机构的关注。由于中文区别于英文的特殊性,国内对于文本挖掘技术的研究很多都集中在基于中文文本特点如果更好地进行文本特征信息提取上。当前相对完善的中文文本挖掘系统有针对不同目标实施的CNKI的学位论文学术不端行为检测系统、拓尔思的文本检索系统、香港科技大学的中文自动问答系统等本文挖掘系统[13]。