毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
孤立点挖掘技术在入侵检测系统中的应用(4)
3.2 改进思想
为了解决这个问题,我们针对CLARANS算法邻居结点的选定方法进行了改进。有当前的结点Current划分出的k个簇中,分别为每个簇计算出离簇中心点最远的t个对象,将这t个对象依次替换包含他们的簇中心点,形成t个Current的邻居结点,计算这些邻居结点与Current的代价差,如果比Current的代价小,将Current更新,这样孤立点就可能被准确的划分到新的簇中。
改进后的算法执行步骤描述如下:
1) 设置i=1,执行原算法的描述至第6步;
2) For in Current
3) 在p为中心点的簇内,计算出离中心点p最远的t个对象;
4) 将这t个对象一次转换p点,形成Current的邻居结点S’,并计算其与Current的代价差;
5) 如果S’的代价较小,则Current设为S’;
6) 转向2),直到由Current结点划分出的所有簇都被计算;
7) i++,如果i>numlocal,输出bestnode并停止;否则,转向1);
3.3 CLARANS算法改进前后对比
原算法的缺点在于由于孤立点在数据总量中所占的比例很小,算法的随机性取样方式极有可能将这些孤立点忽略,而改进后的算法对邻居结点的选取条件做了进一步的限制,减小随机性,更利于检测孤立点。
4.LOCI孤立点算法
现实中的数据源通常随着时间的变化而变化,使得原有算法分析得到的孤立点可能会有更新。获取新孤立点的方法有两种重新计算和增量计算,由于我们通常面对的都是大数据集,重新计算,一方面代价太大,另一方面,因未利用有关历史信息,而导致重复计算。
本章先介绍基于密度的局部关联识别算法(Local Correlation Integral,LOCI),然后提出本文的改进方法。
4.1LOCI算法
基于密度的局部关联识别算法不再把异常看做是一种二元属性,而是用局部关联识别因子来表示对对象的异常程度。由于在数据库中的对象可以看做多文空间中的一个点,因此后面的文章我们混用了“对象”和“点”表示数据集合中对象。
为了更清晰明了的判定孤立点,我们先定义一下几个术语:
1) 对于任意正实数r,任意对象 的r-邻域是一个对象集,它包含了所有与对象 之间的距离不超过r的对象,即
2) 为对象 的r-邻域中的对象总数,即 =
3)
4)
定义1、对于p的多粒度偏离因子
对于任意对象 ,给定了r和 ,对象 的多粒度偏离因子定义为:
中永远包含 本身,也就是说 ,这就意着公式 永远成立
定义2、计算领域和取样领域
统计邻域为一个对象的半径为 r的邻域,而取样邻域为它的半径r的邻域
4.1统计和取样邻域示意图
则实线圈区域就是 的统计区域,另外 的取样区域中包含了三个点 、 、 ,我们也用虚线画出了它们的统计区域,于是我们定义:
为确保每个对象的邻居包含足够的对象,取样区域的计算半径一定要足够大,所以 值一般取1/16.
定义3、孤立点判定
多粒度偏离因子的定义抓住了异常的精髓,接着我们定义局部关联识别因子(Local Correlation Integral Factor) ,如果某个对象满足 这个条件,那么我们就认为它是孤立点。
4.2LOCI算法改进
原算法只适应于静态环境,如果数据集中的某个对象发生变化,则需要重新计算集合中所有对象的LCIF值,由于计算LCIF的时间复杂度太高,将LOCI算法直接应用于动态的数据库环境是不现实的。通过对LCIF特性的研究可知,每个数据对象的LCIF值,仅与该对象所处的局部环境有关,数据更新一般也仅对某些相关对象的异常程度造成异响。因此,针对动态数据环境,特别是网络入侵检测的实际需要,提出一种动态的局部异常检测更新挖掘算法(DLOCI),在原有计算结果的基础上,只对受影响的部分数据重新计算,可以避免重新计算所有对象的LCIF值,从而在动态环境下大大提高孤立点的挖掘速度。
共7页:
上一页
1
2
3
4
5
6
7
下一页
上一篇:
软件开发质量管理提升系统之需求管理
下一篇:
VB房地产售楼管理系统设计+业务流程图+数据库设计
数据挖掘在电子商务中的应用
数据挖掘的主题标绘数据获取技术与实现
论信息技术茬外语教學中的應用【3270字】
计算机技术基础精品課建设【1708字】
虚拟制造技术的相關概念及其應用【1280字】
现代虚拟制造技术及應用前景分析【1935字】
浅谈嵌入式Modem的通信技术【2467字】
神经外科重症监护病房患...
10万元能开儿童乐园吗,我...
C#学校科研管理系统的设计
国内外图像分割技术研究现状
公寓空调设计任务书
医院财务风险因素分析及管理措施【2367字】
AT89C52单片机的超声波测距...
承德市事业单位档案管理...
志愿者活动的调查问卷表
中国学术生态细节考察《...