这个程序运行在不同的搜索引擎中,不直接为用户服务,而是为其他应用程序提供数据服务。该程序能够根据搜索任务,到各搜索引擎上采集信息,并将搜索结果分析后放入数据库,然后提供给其他应用程序使用。当这个多搜索引擎信息采集分析系统执行搜索任务后,这个程序就可以将搜索引擎搜索到的信息采集起来,然后对这些信息比如标题,摘要,图片,URL等进行分析,之后再将分析后的信息按照一定的规则放入数据库中,提供给其他数据应用程序使用。
1。2国内外研究现状与存在的问题
1。3 本篇论文结构
这篇论文的最前面第1章是绪论部分,这个部分主要介绍了本篇论文的大致情况包括本课题的研究背景、现今国内外对本课题有关技术的研究状况与存在问题、本篇论文结构这样三个小节。
是本次系统的需求分析、可行性分析和用例图分析。需求分析是本次程序设计中功能实现的基础文档,记录了根据实际情况作出的需要实现的功能。
是该毕业设计的系统总体设计。这部分包括了系统功能模块设计和数据库的设计。这些内容都是关系到本程序是否能达到预定功能的关键。
是本次程序设计的重点:详细设计。在详细设计中,主要包括了四个模块:任务管理模块、信息采集模块、内容分析模块和用户管理模块。每个模块有包含了功能概述、流程设计和算法设计。
是系统测试,这部分的主要目的是测试系统是否能够准确运行。对本次毕业设计的测试方法主要是单元测试。由于该部分内容很多,所以在本章中主要列出了一些关键的测试结果。
最后一章是对这次毕业设计的总结、展望还有参考文献和答谢。文献综述
2 系统需求分析
2。1需求分析
为了同时从多个搜索引擎上采集数据并进行分析,该程序应该有一定的信息采集功能和信息分析功能,为了实现这些功能,该系统至少需要包括四个功能模块,分别是任务管理模块、信息采集模块、搜索结果分析模块和用户管理模块。
任务管理模块包括搜索任务的创建、查询和删除。任务管理模块是该系统中的最基础也是很重要的模块,使用该系统搜索首先要做的第一步就是先创建一个搜索任务,然后提交给系统执行。这个模块对任务的管理主要有创建任务,查询任务和删除任务等,这些功能可以简单满足任务管理的需要。
信息采集模块负责跟踪搜索任务的执行结果,并采集这些搜索结果。信息采集的部分主要通过采集搜索引擎的搜索结果来完成,很多搜索引擎的作用很类似,主要以系统中创建的搜索任务为搜索目标,在自己的搜索引擎中找到这些内容。由于综合了多个搜索引擎的搜索结果,所以该系统对信息的采集还是很全面的。
搜索结果分析也就是内容分析模块对各搜索引擎返回的结果进行分析以得到每一条搜索结果的标题、URL、图片、内容等信息。系统完成搜索后得到搜索结果,然后提取网页上的标题,图片,内容,网址等信息并把这些信息按照一定的规则放在数据库中。
用户管理模块实现对用户基本信息的管理。用户管理模块的功能与任务管理模块的功能很类似,该模块主要包括了新建用户,查询用户,删除用户和修改用户的功能,由于本程序中的用户是自动创建的,所以对用户的管理现在由管理员来实现这些操作。
我的这个毕业程序设计主要打算采集一至两个常用的搜索引擎的搜索的内容,并把这些信息收集在数据库里,方便其它应用程序的调用。当某个应用程序需要调用搜索信息的时候,可以先在该程序中创建一个搜索任务,然后将这个任务提交给这个程序执行,程序收到搜索任务时,首先会判断已经存在的数据库中有没有这个任务,如果有,就直接从数据库中提取这部分内容给应用程序,如果没有,则在搜索引擎中提取这部分内容并存储在数据库中,然后提供给应用程序。