毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘 第3页

更新时间:2016-8-25:  来源:毕业论文
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
2.2.3分类器
分类器是一种计算机程序。他的设计目标是在通过学习后,可自动将数据分到已知类别。应用在搜索引擎以及各种检索程序中。同时也大量应于数据分析与预测领域。
分类器是一种机器学习程序,因此归为人工智能的范畴中。人工智能的多个领域,包括数据挖掘,专家系统,模式识别都用到此类程序。
对于分类器,其实质为数学模型。针对模型的不同,目前有多种分支,包括:Bayes分类器,BP神经网络分类器,决策树算法,SVM(支持向量机)算法等。
2.3系统方案的选定
通过系统简介我们可以发现,在各个功能中都有许多实现方法,为了明确哪种方法更适合我们这个系统,我们需要系统方案的选定。
2.3.1分词系统方案的选定—ICTCLAS中科院分词系统
现在有着很多完善的供有接口调用的分词系统,在这些分词系统中最具有权威性的就是中科院分词系统。
中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器。
ICTCLAS特色:
(1)国内和国际权威的公开评测、三万客户的认可
有些公司为了商业目的,关门自测,自称准确度99.50%,没有介绍测试环境和测试方法,封闭测试或者小规模的开放测试准确度100%都不足为奇的,ICTCLAS1.0在国内973专家组组织的评测中活动获得了第一名,ICTCLAS2.0在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,具体的参见系统评测部分。这些都是权威机构进行大规模现场开放测试的结果,真实可信。 目前,ICTCLAS已经向国内外的企业和学术机构颁发了30,000多份授权,其中包括3721、NEC、中华商务网、硅谷动力、云南日报等企业,新疆大学、清华大学、华南理工、麻省大学;同时,ICTCLAS广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。您可以访问Google进一步了解ICTCLAS的应用情况。
(2)综合性能最优
分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术, ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
(3)统一的语言计算机理论框架
汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。
(4)全方位支持各种环境下的应用开发
ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 下一页

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘 第3页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。