3.3.2 Jpcap抓包的步骤 11
3.3.3 抓包的过滤 12
4 数据预处理 14
4.1 最大向前路径介绍 14
4.2 算法步骤 15
5 频繁访问模式的挖掘 16
5.1 相关基本概念介绍 17
5.2 Apriori算法 17
5.3 序列模式挖掘其他算法 20
5.4 url转换过程 21
5.4.1 工具包介绍 21
5.4.2 主要代码分析 22
6 用户访问模式挖掘系统的实现与测试 23
6.1 系统设计思想 23
6.2 url抓取实现与测试 24
6.3 获取MFP实现与测试 24
6.4 发现频繁模式实现与测试 25
6.5 获取url对应标题实现与测试 26
6.6 结果分析 27
结 论 29
致 谢 30
参考文献 31
1 绪论
1.1 问题提出的背景
随着Internet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富。虽然Internet上有海量的数据资源,但是由于Web是无结构的、动态的,并且Web页面的复杂程度大大超过了文本文档。面对如此庞大而且急剧增长的信息海洋,如何有效的组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。在信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率较低,而且不能针对特定的用户提供个性化的服务。
而将传统的数据挖掘技术和WEB结合起来进行WEB挖掘则是解决上述问题的途径之一。我们可以借助WEB挖掘从中发现潜在的、有益的模式、结构和知识。然而与传统结构化数据和数据仓库相比,WEB上的信息大多不是结构化的,经常可能经常变化,而且可能产生错乱的,所以很难直接从WEB网页上获得的数据不易进行处理,必须进行必要的数据处理。
1.2 国内外研究现状
1.3 本文研究内容
本文组织共分为五章。
第一章绪论概述了本课题的选题背景,国内外研究现状,以及WEB挖掘中对访问模式挖掘的常见方法。
第二章主要介绍数据挖掘概念、步骤和技术,还有web挖掘的概念和分类。