要对互联网信息进行研究和采集,首先对互联网信息的特性要有足够的了解。在了解了基本概念之后,还有对现行的各种主流技术进行学习和分析。以此作为后续工作的基石和资源。
1 网络信息的特点
网络信息以数字化存储,以网络设备为媒介进行传播,其形态结构对于用户来说是透明的。网络信息内容多样,成分复杂。网络信息具有分布无序性,用户所需的信息并不一定就集中在他所浏览的当前网站。网络系信息具有开放性。网络信息是动态的。网络信息还具有互动性,网络用户不但可以获取信息,还可以利用自身的知识,为他人提供信息。网络信息具有增值性,网络信息被用户获取后,用户经过自身的提取和总结,能够在原有信息的基础上产生新的信息,使得网络信息继续增长。网络信息会产生冗余,成为信息垃圾。21412
2 网络信息采集
网络信息采集是将非结构化的信息从大量网站中提取出来,然后保存到结构化的数据库中的过程。信息采集系统,利用网络信息挖掘引擎,通过快速采集已更新的信息,并且对信息进行格式化后再发布。提升了信息的实时性,减少了人工的费用。论文网
3 网络信息采集技术方法
传统的网络信息采集技术包括以下几种。一是网络信息采集技术。首先获得目标网页的URL,识别URL所在服务器,向该服务器发出请求,建立TCP连接,根据HTTP协议向服务器发出获取URL的命令,接收服务器响应、读取URL对应的文件内容,将文件内容写入本地永久保存,最后释放与服务器之间的TCP连接。二是信息挖掘技术。三是网络信息的分析与过滤技术。四是网络信息资源的整合技术。五是网络信息资源的发布与推送技术。目前还有三种比较新的应用与信息采集的技术,分别是RSS技术、开放链接技术和基于OAI协议的信息采集技术。RSS(也叫聚合RSS Really Simple Syndication),是在线共享内容的一种简易方式。开放链接技术(OpenURL)是一种解决不同的数字资源系统互造作、进行资源整合的方法,也是一项技术标准,还是一种附带有元数据和资源地址信息的“可运行”的URL。OAI全称为Open Archives Initiative Protocol for Metadata Harvesting,简称OAI协议。
4 本次毕业设计选用的技术
本次毕业设计中主要使用的技术就是以URL为基础的。URL指的的是统一资源定位符,是互联网上各类资源的访问地址。主要的网络资源形式包括文字、图像、视频和程序等等。URL由协议、存有目标资源的主机IP地址和目录/文件名三部分组成。最常见的就是使用超文本传输协议HTTP的URL,例如:http://www。peopledaily。
com。cn/channel/welcome。htm
通过指定的URL,就可以通过软件来抓取网络的内容,也就是本次毕业设计的核心任务。所谓网页抓取,就是把URL定位的网络资源保存到本地,通过把URL作为HTTP请求的内容发送到服务器端,就可以读取服务器端的响应资源。那么接下来要解决的问题就是确定每个资源的URL。用户仅仅给出目标网页的URL,而网页上每个具体资源都有各自的URL。这时需要读取网页的源代码,并且设计一个数据截取的函数,用于拼接出每个目标资源的URL。所以综合来说要完成两个关键步骤,读取源代码和截取目的URL。当网页顺利返回资源以后,设计好相关关键字的数据库,就能顺利的将信息保存至本地。后期进行数据的处理也会非常方便。
在目的URL截取的过程中,需要用到两个函数方法,一个是截取字符串的函数,从起始字符字符串截取到截止字符串。另一个是设置标志位的函数,分别设置起始字符串和截止字符串。结合已获取的网页源码字符串,就可以提取出目的资源的URL,然后在进行数据的保存。 互联网信息国内外研究现状:http://www.youerw.com/yanjiu/lunwen_13602.html