摘要近年来,有关数据挖掘的研究成为当今的一大热点,除了关联规则的挖掘外,也有专业学者潜心研究时间因子的关联规则。
本文研究了日志事件挖掘,介绍了采用的数据预处理方法和事件摘要方法(Event Summarization)。基于事件关系网络描述的事件摘要相对于一般的基于时序关联的数据挖掘算法,事件摘要可以呈现给系统管理员一个更加简略且容易把握的分析结果,使得系统管理员可以快速地大致了解系统的状况。它解决了当日志文件过大且其内部事件依赖十分复杂时,通过一般数据挖掘方法会得到大量的管理人员所不关心的细节,因此产生系统管理员不容易从全局的观点进行分析的问题。27040
关键词 数据挖掘 日志分析 事件摘要 毕业论文设计说明书外文摘要
Title Design and Implementation of Event Summarization using Logs
Abstract
In recent years, research on data mining become a hot topic,professional not only research on mining association rules but also temporal association rules.
The log events mining is researched,data pretreatment methods and the event summary methods used is introduced here.Compared to the nomal data mining algorithms using the timing associated ,the event summarization described using networks can presented to system administrators a more simple and easier results of the analysis to grasp,which allows system administrators to understand the status of the system quickly. It solves a problem result from the log file is too large and its internal events depend very complex.The system administrator is not easy to analyze from a global point of view .Because a large of managers which is detailed but not important will get by the general data mining methods.
Keywords Data Mining; Log Analysis; Event Summary
目 次
1 引言 1
1.1 研究背景和意义 1
1.2 研究现状 3
1.3 本文的工作和内容组织 3
2 系统日志挖掘方法 4
2.1 数据预处理 4
2.2 事件摘要 8
2.3 模式分析 8
3 数据预处理模块设计与实现 9
3.1 日志片段 9
3.2 日志处理过程 11
3.3 数据库设计 12
4 事件摘要模块设计与实现 13
4.1 事件摘要算法基本要求 13
4.2 直方图 13
4.3 使用最短描述长度原则进行摘要 17
4.4 寻找最合适的分段集合 18
4.5 找出关系模式 19
4.6 模式可视化 19
结 论 20
致 谢 21
参考文献22
1 引言
1.1 研究背景和意义
对于计算系统而言,事件表征了系统状态的改变,事件通常包含事件发生的时间戳,产生事件的功能组件,以及更详细的与事件发生相关的信息等。一系列的事件往往以事件流的形式出现,反映出计算系统状态变化的过程。在现实世界中使用的大部分计算系统,如云计算服务系统、企业业务系统、通信系统,智能变电站系统等,均使用日志文件的方式来记录事件流,因此不同类型的计算系统有各种类型的日志,如业务事务日志、传感器日志、计算机系统日志、web访问日志、网络日志等等。这些日志捕获了系统的行为和状态,对于系统管理活动,如采取预防性的文护措施,VM动态迁移以实现负载均衡等有着重要作用。然而,日志文件的数据量通常非常庞大,不同日志文件具有不同的日志格式不尽相同,以文本的形式保留状态变化信息,这些特点使得系统管理员通过人工的方式去理解日志,获取对于管理有用的信息基本上是一个不可能完成的任务。因此,有必要研究一种基于日志的事件挖掘方法,通过审核挖掘得到的事件模式,系统管理员可以建立事件或事故管理规则以消除或者缓解系统失效风险,可以有效地帮助系统管理员有效地进行异常预警、故障诊断和系统优化,因此系统日志分析因运而生。