基于网络爬虫C#网络新闻采集系统设计+文献综述(2)
时间:2017-05-06 11:23 来源:毕业论文 作者:毕业论文 点击:次
5.1 登陆系统的设计与实现 18 5.2 采集系统的设计与实现 21 5.3 新闻管理和筛选的设计与实现 26 参 考 文 献 33 1 引言 随着信息时代的高速发展,网络技术对我们生活和工作显得越来越重要, 特别是现在信息高度发达的今天,传统的报纸杂志已经远远满足不了人们的需求,互联网已经成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用。现今的社会,人们已经离不开了网络,网络已经成为人与人之间交流的一种形式,他能够把事情的复杂化转为简单。新闻采集系统的提出使电视不再是唯一的新闻媒体,从此以后网络也充当了一个重要的新闻媒介的功能。简单地说,新闻发布系统就是充当一个网络新闻媒介的功能,主要实现对新闻的分类、上传、审核、发布,模拟了一般新闻媒介的新闻发布的过程,通过不同权限的账号分别实现以上所说功能,当然这些功能也可以是某一个账号全部具有。 随着互联网的进一步发展,网络媒体在人们心中的地位进一步提高,新闻发布系统作为网络媒体的核心系统,其重要性是越来越重要:一方面,它提供一个新闻管理和发布的功能;另一方面,现在的新闻采集要求实现与普通的用户实现交互,用户可以很方便地参加一些调查和相关新闻的评论,这一点也是其他一些媒体现在无法做到的(电视、电台等),同时,Internet发展到当今,可以说,只要你上Internet,你就会接触到新闻发布系统,新闻采集系统的用户是相当惊人的,其重要性是不容置疑的,当然这也对新闻采集系统的开发提出了更高的要求。 网站新闻采集系统,是将网站上需要经常变动的信息,社会的动态等更新信息集中管理,并通过信息的某些共性进行分类,最后系统化、标准化发布到网站上的一种网站应用程序。传统的网站新闻管理方式有两种,一是静态HTML页面,更新信息时需要重新制作页面然后上传页面并修改相应链接,这种方式因为效率太低已不多用。二是将动态网页和数据库结合,通过应用程序来处理新闻,这是目前较为流行的做法。人们对最新信息的需求和发布迫切的需要及时性,而动态交互式网页刚好提供了这些功能,本系统就是一个能够在网上实现新闻的网上采集,多栏目管理的网上交互系统。 1.1 课题背景 我的毕业设计课题是网络新闻信息采集系统的实现。此软件是基于网络爬虫软件开发而来。网络新闻信息采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 1.2 课题研发的意义 通过这次毕业设计,能够让我在本科阶段接受最后一次锻炼,同时也是对我大学四年学习成果的一个肯定和总结。在导师的指导下,经过这几个月的学习和专研,将这些年来所学到的知识都融入其中,并对未接触过的知识有了新的了解,关键是学到了方法。 这个课题主要涉及的开发环境是: (1)开发平台:C# 。C# (C SHARP)是微软对这一问题的解决方案。C#是一种最新的、面向对象的编程语言。它使得程序员可以快速地编写各种基于MICROSOFT .NET平台的应用程序,MICROSOFT .NET提供了一系列的工具和服务来最大程度地开发利用计算与通讯领域。 (2)开发工具:Visual Studio 2005。Visual Studio 2005是微软集成各种语言的开发环境,包含了大量的功能。它主要用于生成ASP.NET WEB应用程序、XML WEB SERVICES、桌面应用程序和移动应用程序。它为开发人员提供了大量实用工具以提高工作效率,这些工具包括自动编译、项目创建向导、创建部署工程等。 (责任编辑:qin) |