贝叶斯网络参数学习中的连续变量离散化方法研究_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

贝叶斯网络参数学习中的连续变量离散化方法研究

摘要贝叶斯网络(Bayesian Network,BN)是一种基于概率论和图论的不确定知识表示模型,可以定性和定量地分析属性间的依赖关系,进行概率推理。在贝叶斯网络参数学习中,通常假定所有变量是离散变量或者服从高斯分布的连续变量,所以需要对现实中一些不符合该前提假设的变量进行离散化。连续变量的离散化直接影响贝叶斯网络的推理效果,因而具有重要意义。
本文采用三种不同的方法(分别为等宽法、K均值法、ChiMerge法)对数据集进行离散化,离散后的结果运用Netica构建相应的贝叶斯网络并进行参数学习,最后利用得到的贝叶斯网络进行简单的预测分析。25255
关键词  贝叶斯网络  参数学习   连续变量  离散化
毕业论文设计说明书外文摘要
Title   Research on discretization  methods of continuous variables of parameter learning in Bayesian network.
Abstract
Bayesian network(BN) is an uncertain knowledge representation medel based on probability and graph theory。It can qualitatively and quantitatively analyze the dependencies between attributes,and do probabilistic reasoning. In parameter learning of Bayesian network,it is usually assumed that all variables are discrete or continuous variables obeying Gaussian distribution,so it is necessary to do the discretization for those variables in reality which disobey the assumptions.
In this paper,we used three different methods(equal width,K-means,ChiMerge)to discrete data set,then the results of  discretization were used to construct the corresponding Bayesian network and do parameter leaarnings in Netica.Finally,we used the resulting Bayesian network to do some simple forecast and analisis.
Keywords  Bayesian network,Parameter learning,Continuous variables,Discretiza-Tion
目   次
1  引言  1
2  贝叶斯网络概述  2
2.1  贝叶斯网络简介  2
2.2  贝叶斯网络参数学习  7
2.3 贝叶斯网络参数学习的离散化  11
3  数据的离散化  13
3.1  MATLAB简介  13
3.2  所使用的数据集介绍  13
3.3  等宽法离散  14
3.4  K均值法离散  15
3.5  ChiMerge法离散  16
3.6  离散结果分析  17
4  贝叶斯网络的构造和参数学习  18
4.1  Netica简介  18
4.2  等宽法离散结果构建贝叶斯网络  18
4.3  K均值法离散结果构建贝叶斯网络  21
4.4  ChiMerge法离散结果构建贝叶斯网络  25
4.5  结果分析  28
结论  29
致谢  30
参考文献31
1  引言
    日常生活中,人们常常依据现有的常识进行推理,例如你看到外面的地板是湿的,可能会认为刚刚下过雨,这种推理通常是不准确的。在科学研究和工程中,不能仅仅依据常理和直觉来判断,需要进行科学合理的推理。
近些年来,随着知识发现(Knowledge Discovery from Database)和数据挖掘(Data Mining)技术的产生和发展,人类处理海量数据并从中提取知识的能力大大增强。知识分为确定知识(Certain Knowledge)和不确定知识(Uncertain Knowledge)。顾名思义,确定知识指的是人类认识清楚并能够准确把握内部关系的知识,这些知识可以利用经典逻辑的产生式系统、演绎系统等进行描述和处理。相反地,不确定知识往往因为其信息不完备、描述模糊或者背景知识不足等原因,人类不能全面科学地了解它,对它的认识存在不确定性。由于自然界的知识存在先天的模糊性和不确定性,同时人类的认识存在局限性,所以实际中人类处理的问题往往是不确定的。贝叶斯网络由于其可以处理不完备的数据,同时可以根据事件的发展进行概率学习、更新网络,对于处理不确定性问题有它独有的优势,因此在多个领域被广为利用。 (责任编辑:qin)