互联网信息采集程序的开发(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

互联网信息采集程序的开发(3)


    人们的生活随着时代的发展,也进入了一个快节奏的时代。人们更愿意去浏览手机客户端上今天新闻的标题,而不是去买一份报纸,阅读整个版面。信息采集技术可以截取关键信息,而不是整个页面,可以提供更有针对性的信息。
经济的发展,带来了人们生活品质的提高,人们也越发关注自身健康的问题。实时掌握天气变化和气象信息,对人们的健康生活有很大的帮助。获取气象信息的途径多种多样,而网络仍旧是目前最具有时效性的获取途径。
1.4 国内外研究现状
1.4.1 网络信息的特点
1.4.2 网络信息采集
1.4.3 网络信息采集技术方法
1.4.4 本次毕业设计选用的技术
1.4.5 存在的问题
1.5 研究方法
本次课题要求设计一款网络信息采集程序或网页,采用传统的网络信息采集技术,即人工设定URL,建立TCP连接,访问服务器,获取信息,处理转存信息,释放链接的流程。本次课题需要达到以下几个要求:1.URL人工输入,可进行多路信息采集。2.网络信息定时抓取,具有自动更新功能。3.信息的编辑和筛选,筛选标准由人工选择,信息编辑有计算机完成。4.数据库的文护。5.可视化的操作界面。
1.5.1 可以预见的问题
可以预见的问题有:1.需要的信息不一定在同一个网页上,需要使用多路采集技术,增加了程序的复杂性。2.定时采集功能需要用到计时器,需要这方面的知识。3.信息的筛选过程中,筛选条件选择的问题,条件过多会增加程序复杂性,太少又不能满足用户需求。已经获取到本地信息应当如何呈现。4.数据库对信息的存储形式,数据库的格式决定了获取信息的格式。5.可视化编程技术
1.5.2 解决问题的研究手段
解决问题的研究手段: 本次毕业设计中要解决的核心问题是,网页源代码的读取,和读取以后从中截取URL的实现。现行的高级语言程序大多包含网页源码的提取函数,需要学习相关函数的实现和运用。在提取网页源码以后,网页以字符串的形式呈现,要从中提取出目标URL,就要理解可扩展标记语言XML,通过分析就能够提取出所要的URL信息。定时更新、数据处理、数据库文护、可视化效果并不是本次毕业设计的核心问题。
1.5.3设计过程
本次毕业设计的设计过程是:1.构建程序的大致框架。2.构建合适的数据库3.实现指定URL网页源码的获取。4.实现网页源码字符串的分析和截取,提取出目的资源的URL。5.将数据保存至数据库。6.后期工作,包括数据处理,更新功能能和界面美化。
2  总体设计
    及时的气象信息对人们的生活有很大帮助,空气质量也是人们越来越关心的问题。虽然雾霾不可避免,但是及时获取雾霾信息,我们仍旧可以做一些防护措施来保护个体,减少雾霾对人体的影响。虽然网络使得我们已经能够便捷地查到这些气象信息,但是获取长期的数据进行分析也是富有意义的。
2.1 制定计划
本次毕业设计,我计划制作一个气象信息的采集系统,当前网络上可供采集的气象信息包括:天气状况(晴天、阴天、雨天),气温,风向,风力等级,pm2.5指数(各个城市的pm2.5指数有专门的采集网站,符合本次毕业设计多路采集的要求),降水量等信息。这些信息都是实时的,设计的程序通过网络能够实时更新这些信息。
计划在输入几个主要的气象网站的URL之后,程序能够自动采集相关信息。由用户选择浏览哪些需要的数据,并将数据进行保存。通过保存至本地数据库的数据,比如温度,可以绘制温度曲线图。为了实现这些功能,程序大致需要这些模块:数据库,主界面(用户选择交互),显示界面(采集信息显示),统计界面(数据处理和分析),自动更新。 (责任编辑:qin)