基于这些现状,本课题主要针对大数据条件,通过机器学习,利用 Hadoop 集 群计算,建立模型,来分析 WEB 安全日志,识别出网络中存在的攻击行为。
1.2 研究意义
本课题以大数据条件下的网络安全威胁分析问题为背景,对传统和新型入侵检测 技术进行研究。分析传统入侵检测技术的缺陷,并针对入侵检测研究适合的机器学习 算法,提出利用云环境提高入侵检测系统的性能。通过对网络安全审计数据采用大数 据的分析和挖掘方法,提出一种能够快速、高效、准确地判断出已知的网络威胁的安 全策略。
一直以来,我国虽然始终在加强信息安全治理,但网络信息安全形势仍非常严峻。 主要问题如下:1)不断有新的信息安全事件出现,影响范围越来越大;2)威胁信息 安全的手段更加多样化、复杂化,用户越来越难以防范;3)由于网络信息安全防护 不力所造成的的直接经济损失已经十分巨大;4)产生信息安全事件的原因已呈现出 明显的逐利性,其经济利益链条已经形成;5)信息安全事件涉及信息类型和目的越
来越多样,并且日益深入,甚至涉及网民隐私,具有更严重潜在的威胁。 以上这些信息安全在大数据时代所显现出的特征加大了人们对于安全隐患的应
对难度。
因此,探索将机器学习技术与入侵检测技术相结合,将网络安全威胁分析与高性 能的云计算技术相结合,是与未来互联网紧密相连且亟待解决的问题。
1.3 关键技术
1.3.1 入侵检测系统(IDS)介绍
传统的入侵检测系统(IDS)[1]一般分为基于主机和基于网络两种类型。基于主机的 IDS 会监控例如系统日志、文件系统等资源,以及硬盘资源;而基于网络的 IDS 则监 控网络中传输的数据。不同的检测技术可以用来搜索被监控数据中的攻击模式。误用 入侵检测系统认为,每种攻击行为都可以通过某种特定的模式表达,而系统的目的就 是检测主体的行为是否符合这些模式。异常检测系统主要依赖于正常行为的知识库, 以及标记出无法符合知识库的行为。
对一个入侵检测系统评价的主要标准是,考虑它的有效性(IDS 同时具有低误报 率和高检测率)、适应性(IDS 能检测出发生微小变化的已知攻击行为,并能在新的 攻击行为出现后,及时学习将其检测出来),和可扩展性(系统可以适应新的要求和 环境,并可以根据用户的网络配置做出调整)三个方面。
目前的 IDS 上述几个方面都有一定的不足:
(1)有效性方面:
传统 IDS 的入侵规则、模式和相关系统特征属性都是由安全专家的知识得 到并用人工输入的。随着网络数据流量的高速增长,安全审计数据也正以惊人的 速度在增长;而操作系统的日渐复杂,也为安全专家理解数据带来了困难。一方 面攻击方式不断变化,另一方面入侵检测系统的更新速度难以跟上攻击方式变化 的速度。安全专家现在也很难对一个系统中出现的所有攻击方式进行特征编码, 获得的结果常常是不完整或不准确的。
(2)适应性方面:
传统的 IDS 需要安全专家着重分析已知的入侵方法,考虑系统的健壮性。 使 IDS 不能有效地处理未知的安全威胁,添加新的入侵检测模块通常比较缓慢。