Web日志分析的原理

下面是WWW服务模型:

1)客户端和Web服务器建立TCP连接,连接建立以后,向web服务器发出访问请求(如:get),根据HTTP协议该请求中包含了客户端的IP地址、浏览器的类型、请求的URL等信息。

2)web服务器收到请求后,将客户端要求的页面内容返回到客户端。若出现错误,返回错误代码。

3)服务器端将访问信息和错误信息纪录到日志文件里。

对于apache来说,支持多种日志文件格式,最常见的是common和combined两种模式。这里讨论combined类型,下面是common类型的日志示例:

218。242。102。121 [06/Dec/2012:00:00:00+0000]"GET/2/faee/shnew/ad/via20130415logo。gif   HTTP/1。1"304 0

"http://www。mpsoft。net/"

"Mozilla/4。0(compatible;MSIE 6。0;Windows 98)"

61。139。226。47一一[06/Dec/2012:00:00:00+0000]

"GET/cgi—bin/guanggaotmp。gif  HTIP/I。1"200 178

"http://www3。beareyes。corn。cn/1/index。phg"

"Mozilla。/4。0(compatible;MSIE 5。0;Windows 98;DisExt)”

218。75。41。11一一[06/Dec/2012:00:00:00+0000]

"GET/2/face/shnew/ad/via20120415logo。gif  HTTP/1。1"304 0

"http://www。mpsoft。net/"

"Mozilla/4。0(compatible;MSIE 5。0;Windows 98;DigExt)"

61。187。207。104一一[06/Dec/2012:00:00:00+0000]

"GET"/images/logolunl。gif  HTTP/1。1"304 0

"http://www2。beareyes。com。cn/bbs/b。htm"

"Mozilla/4。0(compatible;MSIE 6。0;Windows NT 5。1)"

211。150。229。228一一[06/Dec/2012:00:00:00+0000]

"GET/2/face/pub/image-top-1。gif HTTP)/1。1"200 260

"http://www。beareyes。eom/2/lib/201304/12/20120412004。

hun"

"Mozilla/4。0(compatible;MSIE 5。5;Windows NT 5。0)"

通过日志示例及Web服务器日志格式我们可以看到web访问日志记录了服务器接受请求以及运行状态的各种原始信息,包括客户端的IP地址、访问发生的时间、访问请求的页面、Web服务器对于该请求返回的状态信息、返圆给客户端的内容的大小(以字节为单位)、该请求的引用地址、客户浏览器类型等。Web日志还包括了上次访问页面、cookies等更多我们迫切需要的信息。如果客户端在连续的网站上浏览,就会产生很多条包含某些相同信息的日志文件。这样就构成了一个访客在网站上所有活动的日志信息列。通过这些信息,我们就可以通过一定的算法,从而了解到这个访客在网站上的整体行为。通过对这些信息的统计、分析和综合,就可以识别用户,了解访问分布,掌握服务器的运行状况等.论文网

   Web服务器日志格式

域(field) 描述(description)

日期(date) 请求页面的时间、日期和时区(date,time and timezone of request)

客户端IP

(client IP) 远程主机的IP或DNS人口(remote host IP and/or DNS entry)

用户名(username) 远程登录的用户名(remote lognameof the user)

字节(bytes) 发送和接收的字节(bytes transferred sent and received

服务器

(server) 服务器名称、IP地址和端口(server name,IP addtess and port

请求(request) URL查询和枝节(URL query and stem)

上一篇:Android手机流量监测系统设计
下一篇:Android系统平台移动课程表的设计与开发

Android的旅游日记应用设计

交通数据质量分析软件设计

android手机日记簿软件的设计与实现

VC++的ANSYS船用齿轮箱专用优化设计分析软件

基于KSVD的图像稀疏编码算...

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

安康汉江网讯

互联网教育”变革路径研究进展【7972字】

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...