毕业设计说明书(论文)中文摘要Web挖掘是将数据挖掘技术应用于Web数据分析中,它是数据挖掘的研究方向之一。WEB访问模式挖掘属于Web使用挖掘。现在大多数访问模式挖掘是针对Web服务器日志的,本文则是针对主机的访问情况进行研究。通过对主机的访问记录分析,可以获知使用用户的访问习惯。本文的重点在于数据的采集工作和挖掘工作。使用Jpcap工具包可以记录主机访问过的所有网页的URL,然后将URL序列划分为最大向前路径。利用Apriori算法实现频繁模式挖掘。针对URL易理解性不强,本文中将URL转换为对应网页的标题。最后则对本文中采用的方法的缺点进行了总结,并进行了展望。64821
毕业论文关键词 WEB挖掘 访问模式 Jpcap MFP Apriori
毕业设计说明书(论文)外文摘要
Title Mining Web Access Pattern
Abstract Web mining is the application of data mining technology applied to Web data anlysis,and it is one of research directions of data mining.Web access pattern mining belongs to Web usage mining.Now most access pattern minings use web logs,while this paper utilizes the access log of the host.Based on the analysis of the access log of the host,we can learn to know the access habits of the user.This paper focuses on the data preparation and data mining.Firstly,Using the Jpcap toolkit ,we can record the urls of all the pages that the host visits.Then ,we pide the url sequence into a MFP.Next,Mining process is realized by apriori algorithom.Because the url sequence is not easy to understand ,the url is converted to the corresponding web page title .Finally ,we summary the disadvantages of the methods used in this paper,also,we describe the prospects of future development in the area.
Keywords Web mining,access pattern,Jpcap,MFP,Apriori
目 次
1 绪论 1
1.1 问题提出的背景 1
1.3 本文研究内容 2
2 数据挖掘和WEB挖掘概述 3
2.1 数据挖掘 3
2.1.1 数据挖掘简介 3
2.1.2 数据挖掘步骤 4
2.1.3 数据挖掘涉及的技术 4
2.2 WEB挖掘 5
2.2.1 WEB挖掘简介 5
2.2.2 WEB挖掘分类 5
3 数据采集技术 7
3.1 TCP/IP协议 7
3.2 HTTP报文简介 9
3.2.1 HTTP报文特点 9
3.2.2 HTTP报文结构 10
3.3 Jpcap使用 11
3.3.1 网络报文抓取工具