毕业论文

打赏
当前位置: 毕业论文 > 研究现状 >

工作票挖掘管理系统国内外研究现状

时间:2022-03-08 21:51来源:毕业论文
作票挖掘的研究工作票挖掘工作的本质上是文本挖掘任务。文本挖掘属于数据挖掘[6]领域中一门新兴学科。 国外对于文本挖掘的研究开展较早,50 年代末就提出了词频统计思想,能够用

作票挖掘的研究工作票挖掘工作的本质上是文本挖掘任务。文本挖掘属于数据挖掘[6]领域中一门新兴学科。 国外对于文本挖掘的研究开展较早,50 年代末就提出了词频统计思想,能够用于自动分类[2]。 随后,很多学者都在这一领域进行研究并取得了一定成果[4],还开发了文本挖掘的相关工具。 比如 Agentware(Automony)、Intelligent Miner for Text(IBM)以及 TextAnalyst(Megaputer) 等等。78750

在国外,关于工作票分析和挖掘的方向有很多,比如工作票预测、故障信息识别、工作票分类等。在工作票预测方面,已经有一些关于预测故障数量、故障类型和故障优先级等方面 的研究,并有相应的研究结果。另外还有关于预测故障信息时间的研究,主要用于计算系统 交付后维护系统负载和基础设施变化所需的劳动力和成本。在故障信息识别方面,主要研究 如何提取无结构文本中的信息,包括故障信息描述、设备名称识别等。提出了基于特征词建 模的信息提取方法,以及一些识别算法如 Lafferty[7]等人在 2001 年提出的基于隐马尔可夫模 型的统计机器学习方法条件随机场(CRF,conditional random field algorithm)等。目前,工作 票分类方面的研究主要集中在寻找适合的分类算法模型,来将软件维护请求自动转发到不同 的工作票小组(ticket group),以提高工作票的处理效率。论文网

这些挖掘工作将有助于提高系统维护的效率,并可以应用在工作票自动化管理系统中。很 多相关研究中都开发了能够解决方案的框架,但是由于后续开发和评估该框架需要大量系统 实时运行的性能数据,在研究中通常很难得到这些数据。因此如何能够在真实的生产环境下 进行监测和研究以便获得更加准确可靠的实验数据和研究成果有待进一步解决。

国内从最近几年才开展有关文本挖掘方面的研究,目前有关工作主要集中在文本挖掘模 型构建及其方法研究等。应用领域主要包括一些基于 web 文本的挖掘等。中文文本挖掘[2]的 相关研究还没有形成自己的理论和技术,仍然处于小规模实验阶段。其原因可能是如下几点: 第一,文本挖掘依赖于语言特征,中文分词相对于英文分词来说难度大大增加,目前可以参 考的中文分词技术如中科院的 NLPIR 汉语分词系统、IKAnalyzer 等仍然在歧义识别、新词识 别问题上有待提高。同时科研院校的研究成果不能够很快产品化,因此很难更好地服务于更 多的产品。第二,中文文本通常采用“词袋”(bag of words)[2]法来提取特征,这样做忽略了 词在文本中担当的语法和语义角色,可能会丢失大量信息。另外,由此产生的高维特征向量 使得挖掘算法效率低下。第三,应用领域有限,即只能针对特定领域的文本进行挖掘,对于 开放语料的挖掘效果并不理想。

与工作票挖掘类似的工作有日志挖掘等。工作票面向系统管理领域的领域特定性和其文 本数据的特点决定了它隶属于文本挖掘中短文本挖掘类别。其它相关的还有微博、邮件、post 等短文本挖掘技术。

2  工作票管理系统现状

为提高系统可用性、降低维护成本,许多公司都亟需一个自动化管理系统来管理和分析 IT 系统故障问题。在工作票管理系统的研究中,Zahedi M[5]等人提出一种两级管理机制,第一级 用来维护系统管理员收集的原始工作票,第二级用来构建统计模型,对工作票进行分析挖掘 获取知识。第一级管理可以跨平台进行,而第二级的工作需要针对特定领域的工作票数据进行建模。

目前国外在特定领域的相关研究成果主要包括提出基于域驱动的自动化工作票管理系统, 能够用来统计分析、建模和挖掘 IT 基础设施支持服务(ITIS,IT Infrastructure Support)[12]中 的建模问题,帮助没有数据挖掘知识的系统管理员降低工作量并提高工作票处理效率。而它 的不足之处在于仍然有局限性,只能处理指定业务领域中工作票文本格式,域驱动的数据挖 掘算法还不够精确,包括对于一些噪声值的处理等等。还有一些研究成果,比如基于云服务 的故障事件诊断和管理平台、用于管理复杂计算系统的数据驱动框架等。这些研究大多针对 特定领域的工作票,其优点在于可以将工作票挖掘的知识应用于特定领域,但同时具有领域 局限性,并且在数据的预处理上面需要完善。 工作票挖掘管理系统国内外研究现状:http://www.youerw.com/yanjiu/lunwen_90826.html

------分隔线----------------------------
推荐内容