然而,由于我们所研究的客观世界是不断变化的。信息的多样性和复杂性导致了人们认知的不精确性、不确定性和模糊性[5-11]。面对不确定问题,经典集合论只能束手无策。为此,国内外诸多学者不断探索,致力于寻找能够科学地刻画和处理不确定性问题的合理有效方法。随着研究的不断深入,涌现出了一大批具有坚实理论基础的数学工具,如模糊集、粗糙集、熵空间法等。其中尤为值得注意的是,于上个世纪80年代,波兰学者Pawlak提出的经典粗糙集理论[12]。从智能信息处理的角度来看,粗糙集理论模拟人类思维模式,使用一组近似解代替精确解,以达到提高认知效率的目的。
目前,粗糙集理论[13-16]已被成功应用于人工智能、数据挖掘、模式识别[17-25]等众多研究领域。
1。1。2 研究意义
分类和特征选择是粗糙集中的2个重要课题。所谓分类,就是使用经典粗糙集定义的信息粒化和上、下近似算子作为基础,将数据集划分成几个部分,每个部分中的样本具有相同属性特征。所谓特征选择(即属性约简[26]),就是使用一系列的方法剔除原数据集中的冗余特征(属性),以达到简化数据集的目的。
Pawlak经典粗糙集以信息粒化和一组下、上近似算子作为其核心思想,但并未考虑代价的问题。众所周知,日常生活中总是存在各种各样的代价问题,经典粗糙集中也存在着代价,比如数据分类所产生的测试代价[27]、将样本划分到错误集合的误分类代价、延迟决策产生的延迟决策代价等。这为代价敏感粗糙集[28-30]中的属性约简方法的研究带来机遇。
其次,一般的特征选择算法将数据集中的样本视为同等重要的。而事实却并非如此,数据集中的样本对于分类的贡献度是各不相同的。所以,研究如何在原数据集中挑选出重要的样本,并在新的样本集中进行属性约简对于粗糙集的属性约简方法的进一步发展具有实际意义。
1。2 粗糙集理论的历史与现状
1。2。1 粗糙集理论历史发展
1。2。2 粗糙集理论的研究现状
1。3 本文的组织结构
本文的创新点如下文献综述
(1) 基于代价敏感的属性约简算法研究。模糊粗糙集虽避免了数据离散化的过程,减少了数据的损失,但是对数据的处理和分类仍具有测试代价。因此,本文将测试代价的思想引入模糊粗糙集的属性约简中,并给出了两种基于测试代价的属性约简算法:启发算法和遗传算法,并通过一组实验进行对比分析。
(2) 基于样本选择的属性约简算法研究。在诸多属性约简算法中,数据集中的所有样本被视为对于分类是同等贡献的。其实,每个样本对于分类的贡献度各不相同,有的样本贡献度较小甚至毫无贡献。所以,本文从样本选择的角度出发,给出了一种基于启发式的属性约简算法,并通过了一组实验将其与传统的启发式属性约简算法进行对比。
本文具体组织结构如下:
第1章:绪论。介绍了本文的研究背景和研究意义,并对粗糙集理论的历史和现状进行了简单的介绍,同时还介绍了本文整体的组织结构。
第2章:粗糙集理论概述。主要介绍粗糙集理论的基本知识,分别介绍了Pawlak经典粗糙集模型及Yao等人提出了决策粗糙集模型。
第3章:特征选择算法概述。主要介绍了2种常用的属性约简算法:基于穷举策略的属性约简算法和基于贪心策略的属性约简算法,并对2种算法的优缺点进行了分析。
第4章:基于代价敏感的属性约简方法。
第5章:基于样本选择的属性约简方法。介绍了一种K-Means均值聚类算法的样本选择算法,并基于这种样本选择的方法给出了一种基于样本选择的启发式属性约简算法。