11

3.3.2 Jpcap抓包的步骤 11

3.3.3 抓包的过滤 12

4 数据预处理 14

4.1 最大向前路径介绍 14

4.2 算法步骤 15

5 频繁访问模式的挖掘 16

5.1 相关基本概念介绍 17

5.2 Apriori算法 17

5.3 序列模式挖掘其他算法 20

5.4 url转换过程 21

5.4.1 工具包介绍 21

5.4.2 主要代码分析 22

6 用户访问模式挖掘系统的实现与测试 23

6.1 系统设计思想 23

6.2 url抓取实现与测试 24

6.3 获取MFP实现与测试 24

6.4 发现频繁模式实现与测试 25

6.5 获取url对应标题实现与测试 26

6.6 结果分析 27

结 论 29

致 谢 30

参考文献 31

1 绪论

1.1 问题提出的背景

随着Internet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富。虽然Internet上有海量的数据资源,但是由于Web是无结构的、动态的,并且Web页面的复杂程度大大超过了文本文档。面对如此庞大而且急剧增长的信息海洋,如何有效的组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。在信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率较低,而且不能针对特定的用户提供个性化的服务。

而将传统的数据挖掘技术和WEB结合起来进行WEB挖掘则是解决上述问题的途径之一。我们可以借助WEB挖掘从中发现潜在的、有益的模式、结构和知识。然而与传统结构化数据和数据仓库相比,WEB上的信息大多不是结构化的,经常可能经常变化,而且可能产生错乱的,所以很难直接从WEB网页上获得的数据不易进行处理,必须进行必要的数据处理。

1.2 国内外研究现状

1.3 本文研究内容

本文组织共分为五章。

第一章绪论概述了本课题的选题背景,国内外研究现状,以及WEB挖掘中对访问模式挖掘的常见方法。

第二章主要介绍数据挖掘概念、步骤和技术,还有web挖掘的概念和分类。

上一篇:OpenGL虚拟人三维模型控制平台实现
下一篇:cximage路面病害识别系统设计

基于Apriori算法的电影推荐

Linux内核源代码的阅读和工具介绍【836字】

JSP网页自动生成工具的设计与实现【4080字】

C#+sqlserver安卓系统性能测试工具的设计与实现

python关联规则算法Apriori算法应用

Apriori算法面向用户偏好挖掘的商业数据分析

OpenSSL文件安全传输工具设计与实现

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

网络语言“XX体”研究

新課改下小學语文洧效阅...