您现在的位置：毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘第2页

更新时间：2016-8-25: 来源：毕业论文

1.1课题的目的和意义
随着信息技术的迅猛发展，大量的文字信息开始以计算机可读的形式存在，其数量每天在急剧增加，如何在浩若烟海而又纷繁复杂的文本中掌握最有效的信息始终是信息处理需要解决的问题之一，如何实现信息的自动分类，尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域，文本自动分类技术能够有效地将文本信息组织管理起来，帮助人们准确高效的定位文本信息，为用户获取所需信息提供有力的支持。
在软件工程中，需求分析指的是在建立一个新的或改变一个现存的电脑系统时描写新系统的目的、范围、定义和功能时所要做的所有的工作。需求分析是软件工程中的一个关键过程。在这个过程中，系统分析员和软件工程师确定顾客的需要。只有在确定了这些需要后他们才能够分析和寻求新系统的解决方法。
在软件工程的历史中，很长时间里人们一直认为需求分析是整个软件工程中最简单的一个步骤，但在过去十年中越来越多的人认识到它是整个过程中最关键的一个过程。假如在需求分析时分析者们未能正确地认识到顾客的需要的话，那么最后的软件实际上不可能达到顾客的需要，或者软件无法在规定的时间里完工。
2.1系统的总体功能
该系统对被检测的文本进行分词统计，计算出文本内词的词权，并把统计后的词权与各个分类样本进行比较，判定其分类，从而达成自动分类功能。
由以上叙述可知，该系统应包含以下技术：
（1）中文分词；
（2）数据挖掘；
（3）分类器；
2.2系统功能简介
了解了系统总体功能之后，就需要多各个功能进行进一步的分析了解。
2.2.1中文分词
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，本文来自优~文^论#文,网，毕业论文 www.youerw.com 加7位QQ324.9114找源文中文比之英文要复杂的多、困难的多。
中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。
2.2.2数据挖掘
数据挖掘，在人工智能领域，习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成：（1）数据准备，（2）数据挖掘，（3）结果表达和解释。数据挖掘可以与用户或知识库交互。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页