基于需要研究内容,本文内容主要分为四个大部分:
第一部分:主要介绍最大似然理论以及EM算法的原理与基本步骤。最后介绍需要理解的一些前期理论。
第二部分:这一部分是本篇文章的主要部分,将最基本的EM算法应用到混合高斯混合模型进行参数估计,并给出相对应的推导,得到混合高斯模型的参数公式。
第三部分:结合第三部分得出的混合高斯模型的参数公式,通过MATLAB仿真软件混合高斯模型的参数估计,与实际参数进行比较,验证算法的准确性。
第四部分,对全文进行总结,总结文章的不足,给出接下来还需要研究的内容。
2 基本理论
2.1 最大似然估计
最大似然法 是在总体分布类型已知,且数据完整的条件下,广泛使用的一种参数估计方法。它最早是由德国数学家高斯在1821年提出的,随后英国统计学家R.A,Fisher在1912年重新发现了这一方法,并首先研究了这一方法的一些性质,将这一算法真正带入了人们的生产生活中。因此后人更多的认为是R.A,Fisher提出的这一算法,最大似然估计法是数理统计中应用非常广泛的一种点估计方法。极大似然估计的主要思想是:当知道某个参数的估计值能使这个样本出现的概率最大,所以我们理所当然地就把这个参数的估计当做这个参数真实值。
设总体 的分布函数为 , 为需要估计的参数, 为来自总体 的样本,当 是离散型时,称 的联合分布律 为样本的似然函数。当 是连续型时称 的联合概率密度 为样本的似然函数。
根据最大似然估计法,求到 使似然函数 达到最大,即:
(2.1)
求最大似然估计问题可以转化为微分中求最大值的问题。
当 关于 可微时, 满足: (2.2)
由于通常情况下对(2.2)式的计算较为复杂,常常转换为求 的最大值:
已知 ,而 是 的严格单调函数,所以 。
因此(2.2)式等价于: (2.3)
利用最大似然法进行参数估计的步骤:
(1)先根据总体的分布规律得出联合分布率(或联合密度);
(2)把未知参数 看做自变量,得到似然函数 ;
(3)利用微分原理求似然函数 的最大值点(常常转换为求 的最大值点);
(4)在步骤(3)得到的表达式中,用观察到的具体样本值代入表达式中就得参数的最大似然估计值。
举一个简单的例子来说明最大似然法:
设总体 ,其中均值 以及方差 均是未知的, 来自总体X的样本。我们通过最大似然法求出均值 以及方差 。
因为总体满足分布 ,则X的概率密度为: (2.4)
所以似然函数为 (2.5)
接下来分别求解均值 ,方差 使得似然函数达到最大值,由于对(2.5)的求导较为复杂,所以转换为对 的求导,求得能够使得似然函数 达到最大值的均值 ,方差 。 MATLAB基于EM算法的混合模型参数估计研究(3):http://www.youerw.com/zidonghua/lunwen_25615.html