互联网信息国内外研究现状

要对互联网信息进行研究和采集，首先对互联网信息的特性要有足够的了解。在了解了基本概念之后，还有对现行的各种主流技术进行学习和分析。以此作为后续工作的基石和资源。
1 网络信息的特点
网络信息以数字化存储，以网络设备为媒介进行传播，其形态结构对于用户来说是透明的。网络信息内容多样，成分复杂。网络信息具有分布无序性，用户所需的信息并不一定就集中在他所浏览的当前网站。网络系信息具有开放性。网络信息是动态的。网络信息还具有互动性，网络用户不但可以获取信息，还可以利用自身的知识，为他人提供信息。网络信息具有增值性，网络信息被用户获取后，用户经过自身的提取和总结，能够在原有信息的基础上产生新的信息，使得网络信息继续增长。网络信息会产生冗余，成为信息垃圾。21412
2 网络信息采集
网络信息采集是将非结构化的信息从大量网站中提取出来，然后保存到结构化的数据库中的过程。信息采集系统，利用网络信息挖掘引擎，通过快速采集已更新的信息，并且对信息进行格式化后再发布。提升了信息的实时性，减少了人工的费用。论文网
3 网络信息采集技术方法
传统的网络信息采集技术包括以下几种。一是网络信息采集技术。首先获得目标网页的URL，识别URL所在服务器，向该服务器发出请求，建立TCP连接，根据HTTP协议向服务器发出获取URL的命令，接收服务器响应、读取URL对应的文件内容，将文件内容写入本地永久保存，最后释放与服务器之间的TCP连接。二是信息挖掘技术。三是网络信息的分析与过滤技术。四是网络信息资源的整合技术。五是网络信息资源的发布与推送技术。目前还有三种比较新的应用与信息采集的技术，分别是RSS技术、开放链接技术和基于OAI协议的信息采集技术。RSS（也叫聚合RSS Really Simple Syndication），是在线共享内容的一种简易方式。开放链接技术（OpenURL）是一种解决不同的数字资源系统互造作、进行资源整合的方法，也是一项技术标准，还是一种附带有元数据和资源地址信息的“可运行”的URL。OAI全称为Open Archives Initiative Protocol for Metadata Harvesting，简称OAI协议。
4 本次毕业设计选用的技术
本次毕业设计中主要使用的技术就是以URL为基础的。URL指的的是统一资源定位符，是互联网上各类资源的访问地址。主要的网络资源形式包括文字、图像、视频和程序等等。URL由协议、存有目标资源的主机IP地址和目录/文件名三部分组成。最常见的就是使用超文本传输协议HTTP的URL，例如：http://www。peopledaily。
com。cn/channel/welcome。htm
通过指定的URL，就可以通过软件来抓取网络的内容，也就是本次毕业设计的核心任务。所谓网页抓取，就是把URL定位的网络资源保存到本地，通过把URL作为HTTP请求的内容发送到服务器端，就可以读取服务器端的响应资源。那么接下来要解决的问题就是确定每个资源的URL。用户仅仅给出目标网页的URL，而网页上每个具体资源都有各自的URL。这时需要读取网页的源代码，并且设计一个数据截取的函数，用于拼接出每个目标资源的URL。所以综合来说要完成两个关键步骤，读取源代码和截取目的URL。当网页顺利返回资源以后，设计好相关关键字的数据库，就能顺利的将信息保存至本地。后期进行数据的处理也会非常方便。
在目的URL截取的过程中，需要用到两个函数方法，一个是截取字符串的函数，从起始字符字符串截取到截止字符串。另一个是设置标志位的函数，分别设置起始字符串和截止字符串。结合已获取的网页源码字符串，就可以提取出目的资源的URL，然后在进行数据的保存。互联网信息国内外研究现状:http://www.youerw.com/yanjiu/lunwen_13602.html