第三章是新闻搜索系统的概要设计。包括系统经济可行性、技术可行性和需求上的分析,还有对系统用例的分析和描述。
第四章是新闻搜索系统的总体设计。包括系统结构图设计、数据库的设计,还有系统架构的描述。
第五章是新闻搜索系统的详细设计。包括网站界面的实现和各功能模块的实现等。
第六章是新闻搜索系统测试,测试程序能够运行且无误或及时的报告错误和错误原因。
第七章是毕业设计的致谢、总结、体会和参考文献。
2 系统开发技术分析
2.1 系统开发环境
本系统是一个基于已管理新闻设计的新闻搜索系统,所以需要一个数据库来保存新闻信息和用户信息,同时也方便对数据进行搜索和添加的操作。
鉴于上述需求我选择SQL Server2008+ASP.NET作为我的开发环境。
2.2 SQL SERVER 2008
本系统是一个基于已管理新闻的新闻搜索系统,需要一个数据库来保存大量新闻的信息以及系统用户的信息,所以选择一个合理的数据库是十分重要的。
SQL Server是一个基于C/S结构的关系型数据库,是当下非常流行的数据库的一种,而且还是免费的,使用起来很方便、高效和智能,最重要是安全性高。
SQL Server 2008 在Microsoft的数据平台上发布,可以组织管理任何数据。可以将结构化、半结构化和非结构化文档的数据直接存储到数据库中。SQL Server 2008 基于SQL Server 2005有了很多新的改进,在界面上的改变基本没有什么,但它在数据库引擎和智能化上有了很大的优化,数据库的备份和恢复上也有了不小的改进。SQL Server 2008在安装上非常的简便,基本属于自动化的安装,它拥有非常标注的数据库语言,所以很多中小团队开发都是使用这种数据库。
2.3 ASP.NET
ASP.NET不是一种语言,而是创建动态Web页的一种强大的服务器端技术,它是Microsoft .NET Framework中一套用于生成Web应用程序和Web服务的技术。ASP.NET页在服务器上执行,并生成发送到桌面或浏览器的标记(如 HTML、XML或者WML)。可以使用任何.NET兼容语言(比如Visual Basic、C#)编写Web服务文件中的服务器端(而不是客户端)逻辑。ASP.NET页使用一种由事件驱动的、已编译的编程模型,这种模型可以提高性能并支持将用户界面层同应用程序逻辑层相隔离。文献综述
2.4 中文分词介绍
所谓的分词就是把那些连续的一段字运用某些规则拆分再组合成词序列的过程。如我们所知,在各种语言中,英文最基本的有意义单位是单词,中文最基本的有意义单位是词组,但英文单词间有空格,中文词组间没有空格,没有一个形式上的分界符,这就会在信息处理上带来了困难,计算机在识别时可能会产生歧义,而英文在分词上就简单得多,基本不会出现歧义这种问题。
中文分词就是以中文文本的挖掘作为基本,在人与计算机交互的过程中,对我们输入的中文进行中文分词,让计算机可以达到理解我们想要表达的意思的效果。比较专业一点讲中文分词就是是将一个汉字序列切分成一个一个单独的词。
通俗来说就是我们看到一句话,可以明白一段文字中哪些是词组,哪些不是。但对计算机来说是理解不了的,我们让计算机也能理解的这一段实现过程就是分词的算法。
中文分词技术对现在的中文搜索引擎来说是一个非常重要的问题,我们在使用搜索引擎时的目的不是找到所有的信息,而是要找到我们想要的信息。现在网络上的信息如此巨大,找到所有的信息是没有意义的,我们需要的是准确性和效率。而中文分词技术就是影响搜索结果的重要因素。所以,不同的分词算法和词库都会影响搜索引擎的搜索结果。