1。3 论文的主要结构

这个论文是由六个章节所构成的,每个章节都代表着不同的想法,文章的开头是引言部分,然后就是第一个章节,在这一章中,主要写了研究该系统的一些背景以及研究该系统存在的意义,介绍了当下社会可以检测论文的一些网站;第二个章节是关于支持该系统的一些理论方面的知识,如三层架构,还有一些查重的算法;第三个章节是系统的需求分析,有该系统运行的可行性分析,功能需求的分析等等;第四个章节写的是数据库方面的设计;第五个章节是系统实现的过程,通过详细的设计让读者知道这个系统的实现过程;第六章是测试。

2  系统的理论工具

本章节主要在理论方面介绍了三层架构和论文查重的算法。

2。1三层架构概述

三层设计是实现这个系统的主要的方法,该设计来源于微软公司,有三个层次,每个层次的作用各不相同。首先介绍UI层,这个层代表的是界面层,它可以用两个方式来表示的,WEB和WINFORM;有BLL层,这个层代表的是业务逻辑层,该层是对数据层进行操作,并且该层也处理数据业务逻辑;有DAL层,这个层代表的是数据访问层,作用是对非原始的数据进行操作,也就是说该层主要是对数据的操作,并不是对数据库进行操作的,再介绍的详细点,该层是用来对业务逻辑层提供数据,当然也可以对表示层提供数据。

2。2论文查重的算法

相似度计算通常有几种方法,下面主要介绍目前用的比较多的用来检测文章相似度的一些算法,如N-Gram模型,SimHash方法,最大匹配算法。

1)N-Gram是一种语言模型,主要运用在语音识别中,也被叫做汉语语言模型。其利用上下文中相邻的词语间的搭配内容,把连续的无空格的内容变成句子,然后算出最大概率的句子,实现文字的转换,这个过程不需要用户手动选择,所以不会出现许多汉字对应同一个的数字串、拼音、笔划串的重码现象。

根据最大似然估计,语言模型的参数:

其中,C(W1W2…Wi)表示W1W2…Wi在文章中出现次数的多少。

2)SimHash是网页去重的方法,速度较快。Simhash算法的主要思想是降维。Simhash具有两个“冲突的性质”:

(1)该算法是一个hash方法。

(2)相似的文本有差不多的hash值,假如两个文本相似的话,代表他们有很小的汉明距离。

3)最大匹配算法有正向最大匹配、逆向最大匹配和双向匹配算法等。 

本系统用的是对比算法,该算法是以录入的数据为数据源,和上传的内容进行对比,具体的来说就是模糊对比。

该系统主要是分析上传文档中的每一句话和数据库中已有的句子进行比较,如果句子完全相同,就会被检测出来,其实就是在分析句子和句子的基础上,通过对比算法,将上传上来的文本和标准的文本进行相似度的计算,然后得到上传的文本的相似程度的结果。

3  系统需求分析与总体设计来:自[优.尔]论,文-网www.youerw.com +QQ752018766-

在软件开发工程中所要做的第一步:系统分析。 从实际情况出发,制定出符合客户需求的产品,而系统分析中,应该有以下内容(视项目而定):系统可行性分析、系统功能需求说明、系统设计规则与环境。

3。1 系统可行性分析

经济可行性:由于本系统的主要背景是毕业课程设计,不注重直接的经济效益和其后的发展方向,只在注重自身水平和能力的提高,对自身的经济要求也不高,只要有一台普通的电脑便可,所以不用考虑到经济问题。

上一篇:迎宾机器人机械手及其软件设计
下一篇:ASP.NET+SQLServer网上选课系统的设计与实现

高职院校公共机房的管理维护【2471字】

高级RFID阅读器應用對处理器的要求【1354字】

风机风量自动报警装置【517字】

项目管理茬软件中的應用【5351字】

随机型存储模型應用研究【1393字】

间谍软件之危害及其防范對策【1382字】

银行行办公信息服务系统【1544字】

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

麦秸秆还田和沼液灌溉对...

安康汉江网讯

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究