多线程并行搜索在信息处理中的应用(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

多线程并行搜索在信息处理中的应用(3)


1.1.2    课题的国内外研究现状
1.1.3    发展趋势
1.2    研究的基本内容
1.2.1    基本框架
在进行了各项调研之后,大致确定了系统的基本框架,如图1.1所示。
网页数据经过系统获取和分析后,可以通过系统显示和导出到excel表格显示两种方式进行。所要获取的URL网页需要通过用户输入进系统,然后系统才能进行网页数据的获取和分析工作。
 图 1.1    系统基本框架图
1.2.2    研究的重点和难点
以分析某个网页链接为例,我们可能使用的方法是,第一次发现其已有上千条链接,将其全部抓取下来,保存在数据库中。此后,根据获取到的网页链接,一个一个去下载网页源码,判别网页源码中是否含有某个关键字,然后分类管理。特别使用多线程处理的时候,可能会遇到线程同步的各种问题。另外,由于网页上存在各种各样的链接,网页链接的管理工作难度也会加大。
由此可以确定,本次课题研究的重点在于研究多线程的信息处理以及如何从网页中分析出网页的链接,并对这些链接进行分类管理。课题研究的难点在于多线程数据处理的实现以及网页链接的分析和管理的实现。
1.3    研究的方法及措施
Visual C# 2010闯入了程序员的视野,并迅速占据了显著地位。C#是Microsoft为.NET平台量身定做的语言,是基于.NET平台的最佳语言。它不仅能轻松的完成其他语言的程序设计任务,对高级程序设计任务的支持也吸引了大批的程序员,如网络编程、数据库连接、多线程、安全和保护特性等。C#是Microsoft专用在.NET Framework平台上进行开发的一门新型编程语言。.NET Framework 由两部分构成:托管代码执行的运行环境和几乎可以完成所有编程任务的众多类库。虽然很多语言都能够编写.NET代码,但C#是惟一针对.NET Framework而设计的语言,因此在今后几年内,C#将会成为编写.NET应用程序的首选。
SQL Server 2008 在 Microsoft 的数据平台上发布,帮助您的组织随时随地管理任何数据。它可以将结构化、半结构化和非结构化文档的数据(例如图像和音乐)直接存储到数据库中。SQL Server 2008 提供一系列丰富的集成服务,可以对数据进行查询、搜索、同步、报告和分析之类的操作。数据可以存储在各种设备上,从数据中心最大的服务器一直到桌面计算机和移动设备,使得开发者可以控制数据而不用管数据存储在哪里。
2    系统需求与可行性分析
本课题主要是利用多线程并行搜索实现在信息处理中的应用。在对本课题的调研工作中,主要完成了两方面的工作。首先:通过这个题目,初步确定使用多线程并行技术对网页链接进行查找。其次:通过大量的网上及相关基础资料的调研,初步确定了系统开发环境(包括vs2010 、 sql server 2008等)的部署,确定了系统的开发语言(c#),相关管理实现(如数据存储,数据管理,日志管理等),为今后本次课题的顺利完成打下良好的成功基础。
2.1    可行性分析
可行性分析又称为可行性研究,是在系统调查的基础上针对新系统的开发是否具备必要性和可能性,对新系统的开发从技术、经济、社会方面进行分析和研究,以避免投资失误,保证新系统的开发成功。可行性研究的目的就是用最小的代价在尽可能短的时间内确定难题是否得到解决。作为该系统的开发,该系统的可行性分析包括以下几个方面。
(1)    经济可行性。主要指费用的支出与收益回报的比例,二者是否匹配。用计算机代替人工进行录入,核对,统计,不但节约了时间,也节约了人力,例如实现了无纸化输入,节约了纸张的开销;网上订购和信息发布,可以减少采购中间环节的成本,及时将读者的需求进行反馈,大大提高了工作的效率。 (责任编辑:qin)