网络爬虫多特征的恶意网页检测方法(3)
时间:2022-07-30 09:28 来源:毕业论文 作者:毕业论文 点击:次
3 基于签名的特征码检测 对于已知的恶意代码,特征码扫描[10][11][12]是最为简便的方法,也是市场上最为流行的一些检测软件会用到的方法。模式匹配是基于签名的检测技术的主要思想[13],签名技术,即签名和非法的代码片段是一对一通信。其主要原理是匹配测试文件代码和签名。如果匹配成功,那么被检测的文件定性为恶意。代码库中包含了已知的恶意代码包括它们各自的功能,同时每个恶意代码有其独特的签名。早期的签名扫描设备可以执行文件检测,其原理是:打开文件,扫描文档的内容,查找文件的特征字符串,该数据库有恶意代码字符串比较的特点和发现,如一直则被认为是包含恶意代码的文件。数据库功能中的恶意代码添加是通过手工提取特征碎片然后添加数据库不具备的特征恶意来实现的。 4 启发式检测 启发式检测技术可以用来弥补特征检测的局限性,启发式被定义为在以政策尝试和经验教训基础上的完成任务。根据其自己的规则库和匹配规则分配的一个分数,分析发动机检查存在恶意的概率。该文件将被确定为恶意文件并处理时,得分达到预定义阈值。 5 行为式检测 行为式检测法顾名思义,即对得到的恶意脚本或者病毒进行观察和研究,通过其特殊的一些共同行为,在它们运行的时候进行监控,当出现异常及时进行报警提示[14]。 6 完整性检测论文网 对于文件感染型恶意代码的检测通常使用完整性检测技术。它主要是关注关键文件程序(例如重要的DLL文件)中CRC值或者MD5的比较,在文件中若发现MD5或者CRC值不一样则正常文件被视为感染。 7 虚拟机检测 随着检测技术的发展,出现了一种新的恶意代码检测技术——虚拟机检测[15]。目前,恶意网页中流行使用的恶意代码常使用代码变形技术,而虚拟机检测技术正是针对这种恶意变形的检测技术,现在市场上的反恶意软件也广泛使用这种技术。事实上,在严格意义上的虚拟机检测技术现在使用应该被称为虚拟CPU技术,该方法是由CPU来模拟程序来执行,模拟程序如CPU指令进行读取和解码,然后获取和执行同实际CPU相同的结果,使用上文提到的特征码签名检测。这个方法不足之处在于当使用了该加密代码变形技术,没有经过脱壳,就无法有效地检测恶意脚本内容。虚拟机的检测技术中通过模拟真实的CPU工作的状态,它可以自动脱壳,弥补之前方法不足之处,解决了加密所引起的问题,从而可以进行检测。 1。3本文组织结构 本文的研究课题是基于多特征的恶意网页检测方法。全文的组织结构安排如下: 第一章绪论。本章简单介绍了互联网的现状以及所带来的一系列风险,阐述了恶意网页的概念,列举了一系列以往的恶意网页检测的方法,之后对论文的主要内容和组织结构进行了说明。 第二章恶意代码脚本。本章简单介绍了一些恶意脚本和攻击方式。 第三章提取脚本和特征。本章介绍了网页的抓取和脚本的提取,将提取好的脚本数据进行特征的提取和选择 第四章分类器训练测试。本章介绍了实验中我们所使用的分类器以及使用的参数,和对得到的脚本如何用分类器训练和预测的情况。。 2 网页恶意脚本 2。1恶意网页脚本 网页恶意脚本简单的来说就是是一种非正常,恶意控制系统资源的程序。大部分的恶意脚本透过操作系统和软件的漏洞进入到网页中,并自动执行。隐藏链接就是恶意代码的一种特殊形式。在攻击者攻击目标网站并且成功取得管理员权限后,攻击者会在网址挂起非法并隐藏的链接,借助欺骗来取得搜索引擎的高排位。攻击者通过网站的缺陷访问网络管理员权限。然后他可以在网站挂起隐藏链接,恶意代码,木马等等,篡改网站内容发布虚假信息。 (责任编辑:qin) |